Open Source: Computer Vision für Einsteiger

Bildverarbeitung auf KI-Basis kann Logistikanwendungen effizienter machen. Der Do-it-yourself-Dienst „Guided Training Service“ soll einen unkomplizierten Einstieg in die Technologie ermöglichen.

Die smarte Kamera ist Teil des Fördervorhabens „Silicon Economy Logistics Ecosystems“ am Fraunhofer IML. Bild: Michael Neuhaus / Fraunhofer IML
Die smarte Kamera ist Teil des Fördervorhabens „Silicon Economy Logistics Ecosystems“ am Fraunhofer IML. Bild: Michael Neuhaus / Fraunhofer IML
Therese Meitinger
Open Source

Die KI-basierte Bildverarbeitung (englisch: Computer Vision – CV) gewinnt in Produktion und Logistik zunehmend an Bedeutung. Fortschritte in Hardware und Algorithmen ermöglichen das Erkennen von Packstücken und Waren sowie das Verfolgen von Objekten in Innen- und Außenbereichen. Im Fördervorhaben „Silicon Economy Logistics Ecosystems“ am Fraunhofer-Institut für Materialfluss und Logistik IML spielt diese Technologie eine zentrale Rolle.

Innerhalb dieses Projekts wird ein umfassendes Paket angeboten, darunter eine intelligente Kamera und ein Do-it-yourself-Bildverarbeitungsdienst, der „Guided Training Service“ (GTS). Das ist ein Open-Source-Softwarepaket mit ausführlicher Dokumentation, das Teil der „Machine LearningToolbox“ (ML-Toolbox) ist und in der Open Logistics Foundation veröffentlicht wurde.Das Open-Source-Prinzip ist maßgeblich für das Projekt. Open Source ermöglicht schließlich eine schnelle Verbreitung und Etablierung der Technologie in der Logistik, auch und besonders bei kleinen und mittleren Unternehmen.

Fortlaufende Entwicklung

Außerdem lässt sich ein Vendor-Lock-in, also eine zu enge Bindung an einen bestimmten Hersteller, verhindern, da Unternehmen die frei verfügbare Software nach eigenem Belieben verwenden und auf individuelle Anforderungen anpassen können. Auch wird eine gemeinsame und öffentliche Weiterentwicklung durch die Community aller interessierten Unternehmen und Entwickler ermöglicht. Jeder Anwender kann freiwillig Feedback, Verbesserungsvorschläge und Erweiterungen einbringen und mit der Community abstimmen. Dies führt zu einer fortlaufenden Entwicklung und Anpassung der Software auf aktuelle Gegebenheiten, die dann öffentlich und frei zur Verfügung steht.

Die aktuellen Komponenten der ML-Toolbox rund um das Software Development Kit (SDK) „Machine Learning Computer Vision Zoo“ (MLCVZoo) bieten eine breite Palette von Werkzeugen, die Entwickler bei der Erstellung von Computer-Vision-Modellen unterstützen. Da der MLCVZoo jedoch primär an ML-Entwickler gerichtet ist, kommt für nicht ML-Erfahrene genau hier der GTS ins Spiel, der die einzelnen Arbeitsschritte in einer grafischen Oberfläche abstrahiert und darüber den Benutzer führt. Dies umfasst alle relevanten Schritte der ML-basierten Bildverarbeitung: das Erstellen und Verwalten von Trainingsdaten, die Parametrisierung und das Anlernen (Training) der KI-Modelle sowie deren Verwaltung und Bereitstellung (englisch: Deployment) auf den entsprechenden Endgeräten.

Im Vordergrund bei der Entwicklung des GTS stehen die Automatisierung und Abstraktion der einzelnen Schritte, ganz im Sinne von „ML-Ops“. ML-Ops befasst sich mit der Überführung von Machine-Learning-Systemen in produktive Umgebungen. Dabei spielt die Schließung der Lücke zwischen der Entwicklung (englisch: Development – Dev) und dem operativen Betrieb (englisch: Operations – Ops) eine tragende Rolle.

Bei der Entwicklung der Architektur des GTS wurde bereits früh darauf geachtet, eine möglichst große Abdeckung an Computer-Vision-Modellen (Klassifizierung, Objekterkennung, Tracking) zu ermöglichen, denn die Möglichkeiten für den Einsatz solcher Modelle auf smarten Endgeräten (Edge AI) haben sich in den vergangenen Jahren stark verbessert („Nvidia Jetson“ et cetera). Durch die Ergänzung eines leistungsstarken Clusters von Grafikprozessoren (englisch: Graphic Processing Unit – GPU) für das Training steht auch größeren Modellen, die auf Datensätzen mit Zehntausenden Bildern aufbauen, nichts mehr im Wege.

Software und Hardware

Werbeinblendung:
Advertorial

GO! – Starke Partnerschaft für Top-Service

Robuste Ladungsträger für extreme Umläufe – Craemer Pooling-Paletten aus Kunststoff

In Kombination mit dem GTS wurde innerhalb des Datenökosystems Silicon Economy eine smarte Kamera entwickelt. Diese besteht aus einer normalen USB-Kamera, die um ein GPU-basiertes Embedded Board (beispielsweise „Nvidia Jetson Nano“), verbaut in einem gemeinsamen Gehäuse, erweitert wurde. In diesem Bereich existieren bereits Entwicklungen am Markt, jedoch sind diese bisher meist eingeschränkt in der individuellen Anwendbarkeit von Nutzersoftware oder bieten ein eher unausgewogenes Preis-Leistungs-Verhältnis.

Die Entwicklung einer smarten Kamera als Open Source bietet somit einige Vorteile (die Veröffentlichung der Konstruktionspläne ist noch in Bearbeitung). Insgesamt wird so ein Komplettsystem aus Software und Hardware angeboten, das Benutzer dazu befähigt, einfache Erkennungsmodelle in wenigen Minuten zu erstellen und anzuwenden.

Neben der primären Zielgruppe der technisch nicht versierten Nutzer findet der GTS auch großen Anklang bei Computer-Vision-Experten. Es kommt immer wieder vor, dass schnell ein erster Prototyp eines KI-Modells trainiert werden soll, was in der Vergangenheit stets zu wiederholtem Aufwand bei der Einrichtung der Softwarebibliotheken führte. Durch den GTS lässt sich ein Modell in wenigen Minuten antrainieren (je nach Modell- und Datenkomplexität) und damit schnell ein möglicher Anwendungsfall validieren.

Zudem können UseCases mit den bereitgestellten Tools schneller umgesetzt werden, da sich Anwender auf die eigentliche Problemstellung des UseCases konzentrieren können und der GTS alle relevanten ML-Schritte abstrahiert. Dies gilt insbesondere für UseCases, bei denen Standardalgorithmen zur Anwendung kommen können. Dabei profitieren ML- wie auch Nicht-ML-Experten von der Bündelung aller relevanten Komponenten in einer Anwendung.tm

Autoren: Tom Stein, Entwickler,undJulian Hinxlage, Teamleiter, beide in der Abteilung AutoID-Technologien; Maximilian Otten, wissenschaftlicher Mitarbeiter, und Jens Leveling, Teamleiter, beide in der Abteilung Data Driven Logistics, alle am Fraunhofer-Institut für Materialfluss und Logistik IML, Dortmund.

 

Quelle: Fraunhofer IML, 
Assets von Daniel Zhabotinsky und Oleh Volyk unter CC BY 4.0

 

Vom Bild bis zum getrackten Lkw

In dem Forschungsprojekt „Yard Lense on Edge“ am Fraunhofer-Institut für Materialfluss und Logistik entstand die Anforderung, ein System zur optischen Nachverfolgung von Lkw auf Logistikbetriebshöfen zu realisieren. Die Grundlage dafür bilden Bilder von Kameras, die mit KI-Modellen ausgewertet werden. Diese lassen sich in wenigen Schritten mit dem „Guided Training Service“ (GTS) anfertigen.

Im ersten Schritt ist eine große Anzahl annotierter Bilddaten zu erstellen. Die Annotationen geben vor, wie und welche Lkw in den Bildern erkannt werden sollen. Im Fall der Lkw-Erkennung sind dies recht-
eckige „Bounding Boxen“. Im Trainingsprozess werden dem KI-Modell anschließend die generierten Beispiele – das Bild und dessen Annotationen – gezeigt. In mehreren Iterationen lernt das KI-Modell die entsprechenden Muster und ist anschließend in der Lage, das gelernte Wissen auf neue Bilder anzuwenden.

Die Auswahl des passenden Modells für die Anwendung ist von entscheidender Bedeutung. Dank der Einfachheit des Trainings von KI-Modellen über den GTS konnte zeitnah mit verschiedenen Modellen experimentiert und das für den UseCase passende ausgewählt werden.

◂ Heft-Navigation ▸

Artikel Open Source: Computer Vision für Einsteiger
Seite 24 bis 25 | Rubrik LOGISTIK-IT
Premium