Künstliche Intelligenz

Taktilesdesign GmbH – Bildinhalte mittels KI erfahrbar machen

Mittels einer KI Bilder für die Generierung von 3D-Oberflächen abstrahieren: Das Mittelstand 4.0-Kompetenzzentrum Kiel zeigt der Taktilesdesign GmbH Einsatzmöglichkeiten und Konzeptionen einer KI für dieses Szenario auf.

Taktilesdesign GmbH
2 Mitarbeitende
Dienstleistungen / additive Fertigung
ImpulsWerft

Unser Tastsinn ist ein wichtiges Wahrnehmungssystem, um Informationen über unsere Umwelt zu erhalten. Dabei nehmen wir über die Haut die unterschiedlichsten Reize wie Temperatur, Druck, Vibration oder Oberflächenstrukturen wahr. Und genau hier setzt das Team von Taktilesdesign an: Bildinformationen sollen durch das bloße Ertasten von Oberflächenstrukturen vermittelt werden. So können beispielsweise Bildinhalte für blinde oder sehbehinderte Personen erfahrbar gemacht werden. Dafür werden Oberflächentexturen direkt in 3D gedruckt. Damit das funktioniert, müssen die Bildinhalte reduziert werden, denn natürliche Farbbilder enthalten einfach zu viele Informationen. Die Detaildichte ist zu hoch oder Details sind für das Gesamtbild nicht wichtig. Das können Kanten, Farbwechsel oder überschneidende Bildinhalte sein. Diese Bildinhalte manuell zu abstrahieren ist zeitaufwändig, schwer zu skalieren und somit ein hoher Kostenfaktor. Daher soll ein KI-Algorithmus die Bilder automatisiert verarbeiten und abstrahieren, damit die sie schnell und zuverlässig in ertastbare 3D- Oberflächenstrukturen übersetzt werden können.

Es wurden drei mögliche Ansätze für die automatisierte Abstraktion von Bildern identifiziert.

1. Ansatz: Segmentierung

Bei der Segmentierung eines Bildes wird jedem Bildpixel genau eine Kategorie zugeordnet. Das Ergebnis ist eine farbige Maske, bei der unterschiedliche Objekte mit unterschiedlichen Farben dargestellt werden können. Bei der semantischen Segmentierung sind diese Kategorien von vornherein festgelegt und werden durch den Trainingsdatensatz bestimmt. Kategorien können z.B. „Person“, „Pferd“, „Auto“ oder „Hintergrund“ sein. Auf diese Weise lässt sich ein Bild nach den Objekten, die es enthält, aufteilen. Die Bildbeispiele zeigen die semantische Segmentierung. Der Reiter und das Pferd werden erfolgreich voneinander getrennt. Auch werden Personen, Schafe und Hintergrund erfolgreich voneinander separiert. Allerdings erscheinen die Schafe nicht als Individuen, sondern als eine zusammenhängende Fläche. Die sog. instantielle Segmentierung behebt dieses Problem und ist in der Lage, individuelle Instanzen ein und derselben Kategorie zu erkennen.

Bildbeispiel Schafe - Bilder aus dem Coco Datensatz und das Ergebnis einer Segmentierung

Bildbeispiel Reiter - Beispielbild von Taktiles Design und das Ergebnis einer Segmentierung

Vorteile:

Für die Segmentierung sind öffentliche Datensätze vorhanden.
Für manche Datensätze gibt es vortrainierte neuronale Netze. Somit lässt sich ein Prototyp relativ einfach umsetzen.
Die Segmentierung wird wahrscheinlich relativ zuverlässig funktionieren, da die Datenlage aufgrund der öffentlichen Datensätze gut ist.

Nachteile:

Die Segmentierung funktioniert nur für genau die Kategorien, die in dem Trainingsdatensatz vorliegen. Das schränkt die Domäne an Bildern, die abstrahiert werden können, erheblich ein.
Die Pose von Personen kann auf diese Art und Weise nicht korrigiert werden.
Die Perspektive kann auf diese Weise nicht aufgelöst werden.

2. Ansatz: Generative Adversarial Networks (GANs)

Ein GAN besteht aus zwei neuronalen Netzen, die Bilddaten generieren können. In diesem Ansatz würde man zwei Datensätze nutzen. Der eine Datensatz enthält Bilder, die abstrahieren werden sollen. Der andere Datensatz enthält bereits abstrahierte Bilder. Im Idealfall hätte man Bilderpaare (original + abstrahiert), die zum Training genutzt werden können. Für Taktilesdesign wäre es zu aufwändig und zu kostenintensiv, einen eigenen Datensatz zu erstellen, in dem solche Bilderpaare vorliegen. Alternativ kann die Cycle-GAN Technik zum Einsatz kommen. Hier werden keine Bilderpaare, sondern „nur“ zwei unabhängige Pools von Bildern benötigt. Der GAN lernt, Bilder aus dem einen Pool in ein Bild aus dem anderen Pool zu überführen. Die Bilder sind Beispiele für die erlernten Transformationen. Hier wurden z.B. sommerliche Landschaften in winterliche umgewandelt und umgekehrt. Analog würde man mit dieser Technik Farbbilder in abstrahierte Bilder umwandeln. Um die beiden Datensätze zu erhalten, könnte man einen Segmentierungsdatensatz wählen. Dabei verwendet man für den einen Pool die Fotos und für den anderen die Segmentierungsmasken. Somit wären Daten sehr einfach zu bekommen.

Bild aus: Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

Vorteile:

GANs könnten die gewünschte Abstrahierung theoretisch durchführen.
Daten lassen sich aus Segmentierungsdatensätzen gewinnen.

Nachteile:

GANs sind noch Gegenstand der Forschung und wenig ausgereift.
Sehr lange Trainingszeiten.
Möglicherweise können ungewollte Bildartefakte entstehen.
Man hat wenig Kontrolle darüber, wie die Bilder generiert werden.

3. Ansatz: Style Transfer

Beim Style Transfer werden visuelle Eigenschaften eines Bildes auf ein anderes Bild übertragen, ohne dessen Inhalt zu verändern. Die Bildbeispiele zeigen den Style Transfer mit einer Fotografie und Gemälden von bekannten Künstlern. Man benötigt für den Style Transfer zwei Bilder: eines, dessen Stiel verändert werden soll und eines, dessen Stil man übernehmen möchte. Als Stilbilder könnte man handgemachte, abstrahierte Bilder nehmen oder auch Segmentierungsmasken. Mithilfe eines neuronalen Netzes wird der Stil des Stilbildes auf die das Farbbild übertragen.

Bild aus: Image Style Transfer Using Convolutional Neural Networks. A ist das Bild, dessen Stil geändert werden soll. Die kleinen Bilder in den linken unteren Bildecken sind die jeweiligen Stilbilder.

Vorteile:

Relativ einfache Umsetzung
Man muss kein Netzwerk selber trainieren, was die Entwicklungszeit stark reduziert
Geeignet zur Verwendung mit Kunstwerken, da Inhalt, Form und Struktur erhalten bleibt. Es werden nur die Texturen verändert.

Nachteile:

Das Stilbild muss passend zum zu abstrahierenden Bild ausgewählt werden. Diese Auswahl kann manuell geschehen, was aber der Idee der vollständigen Automatisierung widerspricht. Denkbar wäre, dass einmalig Stilbilder manuell erstellt werden und dann eine Person verschiedene Stilbilder durchprobiert.
Die Pose von Personen kann auf diese Art und Weise nicht korrigiert werden.
Die Perspektive kann auf diese Weise nicht aufgelöst werden.

So geht es weiter

Im nächsten Schritt sollen die möglichen Lösungsansätze zu einer machbaren Lösungsstrategie kombiniert werden. Um diese Strategie zu entwickeln und den Aufwand dieser Strategie abzuschätzen, wird das Kompetenzzentrum ein Transferprojekt mit Taktilesdesign durchführen.

Auf YouTube ansehen

Auch für Sie interessant?

Dann kommen Sie jederzeit gern auf uns zu.

Christoph Linse Künstliche Intelligenz (KI)

E-Mail schreiben

Künstliche Intelligenz Weitere Informationen
Konkretes Projekt mit uns Weitere Informationen

Alle Praxisbeispiele