GLESI: Demonstrator-App - Bilderkennung mittels KI
Wenn eine App Informationen zur Nachhaltigkeit eines Produktes gibt: Im Rahmen eines Umsetzungsprojektes zeigt das Mittelstand 4.0-Kompetenzzentrum Kiel Möglichkeiten auf, wie mit Unterstützung von Künstlicher Intelligenz eine Lokalisierung von nachhaltigen Produkten in Supermärkten erfolgen kann.
Nachhaltige Produkte im Supermarktregal finden – und das auf einfachem Weg
Wenn wir einkaufen gehen, entscheiden wir meistens direkt im Lebensmittelgeschäft, ob wir regionale, saisonale und umweltfreundliche Produkte kaufen. Und das ist nicht immer leicht, denn nicht jedes Produkt ist verpackt und durch eine Zertifizierung oder ein Siegel gekennzeichnet. Wie also erfahre ich einfach und schnell von möglichst jedem Produkt, ob es nachhaltig und ökologisch empfehlenswert ist? Ein Griff zum Handy, Foto gemacht und schon bekomme ich eine Antwort – so zumindest könnte ein Szenario aussehen.
Nachhaltigkeit ist für Frank Dehnhard eine Herzensangelegenheit. Mit seinem Lübecker Unternehmen GLESI plant er deshalb die Erstellung einer App, die Supermarktkunden in ihrer Kaufentscheidung beraten soll. Dabei sollen dem Nutzer zusätzliche Informationen zu Supermarktprodukten anzeigt werden, die nicht auf der Verpackung oder Regalbeschriftung verzeichnet sind. Dafür müssen die Produkte schnell und zuverlässig identifiziert werden, was bei der Fülle an Supermarktprodukten eine große Herausforderung ist. Ein möglicher Lösungsansatz ist die Nutzung von Künstlicher Intelligenz mittels Bilderkennung.
Bilderkennung mittels KI
Bilderkennung begegnet uns im Alltag inzwischen sehr häufig. Denken Sie nur an die Möglichkeit, das Handy mittels Bilderkennung zu Entsperren. Bilderkennung ermöglicht es, die digitale mit der realen Welt zu verknüpfen. Einem Rechner allerdings das Verstehen von Bildern „beizubringen“ ist eine große Herausforderung. Dessen ist sich auch das Unternehmen GLESI bewusst. Gemeinsam mit dem KI-Team des Mittelstand 4.0-Kompetenzzentrum Kiel wurde auf den Prüfstand gestellt, mit welchen Methoden und mit welchem Aufwand ein solcher Lernvorgang verbunden ist.
Im ersten Schritt ging es konkret um die Differenzierung von Produkten (Ist es ein Apfel oder eine Birne?), im zweiten Schritt soll die Bilderkennung mit einem Indoor-Location-System kombiniert werden, so dass man anhand des Standortes zuordnen kann, ob es sich um einen Bioapfel oder einen konventionellen Apfel handelt.
Machbarkeit von KI-Anwendungen ohne Trainingsdaten oder spezialisierte Hardware - Testszenario mit Google Visions AI
Im Rahmen des Projektes wurde eine Android-App als Demonstrator entwickelt, in der die mit der Handykamera aufgenommenen Bilder der Supermarktprodukte erkannt werden. Der Nutzer der App hat die Möglichkeit, zwischen den erkannten Objekten auf dem Bild das für ihn relevante Lebensmittel auszuwählen, um alle Informationen zur Nachhaltigkeit angezeigt zu bekommen. Doch was macht man, wenn man weder Trainingsdaten noch eine entsprechende IT-Infrastruktur zur Verfügung hat? KI-Spezialist Philip Bende setzte als Grundlage für die Objekterkennung der unterschiedliche Obst- und Gemüseprodukte auf Google Vision AI. Google stellt Bilderkennungsverfahren als API zur Verfügung, die von Softwareentwicklern genutzt und in eigene Anwendungen eingebunden werden können.
Dabei müssen folgende Aufgaben betrachtet und gelöst werden:
- Klassifizierung: Ein Bild von einem Produkt wird einer oder mehreren Kategorien zugeordnet, beispielsweise Ost oder Gemüse.
- Objekterkennung: Hier werden die unterschiedlichen Objekte auf einem Bild „gefunden“ und klassifiziert.
„In unserem konkreten Anwendungsfall wollten wir nicht nur erkennen, was auf dem Bild ist, sondern, auch wo welches Objekt auf dem Bild ist“, so der KI-Experte Philipp Bende. „Die Nutzer fotografieren in der Regel ein Regal mit Produkten und wir müssen sicherstellen, dass die KI alle Objekte erkennt.“
Das "Erkennen" von Objekten kann durch ein neuronales Netz erfolgen. Solch ein neuronales Netz „lernt“ beispielsweise anhand von Trainingsbildern die Gemeinsamkeiten und Unterschiede von Objektklassen, z.B. "Was unterscheidet Bilder von Äpfeln von Bildern mit Birnen?". Das "Training" eines neuronalen Netzes von Null an ist sehr rechenintensiv und erfordert eine Vielzahl von Trainingsbildern von jeder Objektklasse. Alternativ dazu kann man ein bereits vortrainiertes Netz für den eigenen Anwendungsfall anpassen, wodurch deutlich weniger Trainingsdaten und Rechenleistung notwendig sind, oder ein fertig trainiertes Netz "Out of the Box" verwenden. Da für dieses Projekt keine Trainingsdaten und nur geringe Rechenkapazitäten zur Verfügung standen, wurden Google-Vision-AI Services für die Objekterkennung auf den Bildern eingebunden.
Die Services laufen auf Google-Servern. Das heißt, dass die vom Anwender aufgenommenen Bilder hochgeladen werden und entsprechend Antworten zurückkommen müssen - bei hochauflösenden Bildern und einer schlechten Verbindung eine echte Herausforderung. Dementsprechend hat das Team mit Bildern mit einer niedrigen Auflösung gearbeitet, wodurch die Erkennungsgenauigkeit litt.
Das Fazit für GLESI
Mit der Erstellung der Demonstrator-App wurde nicht nur die grundsätzliche Machbarkeit aufgezeigt, sondern auch die Machbarkeit von KI-Anwendungen ohne Trainingsdaten oder spezialisierte Hardware aufgezeigt. „Das hilft in der Entscheidungsfindung und Weiterentwicklung“, freut sich Frank Dehnhard. „Zudem haben wir viele wertvolle Erkenntnisse erhalten, die in eine zukünftige Produktentwicklung einfließen können.“
Auch für Sie interessant?
Dann kommen Sie jederzeit gern auf uns zu.