Bildverarbeitung

Aufgaben spielerisch lösen

Aufgaben spielerisch lösen

Sebastian Trella ist technik- und robotikbegeistert. In seinem eigenen Blog stellt er sich immer wieder neuen Aufgaben. Mit Bildverarbeitung hat er bisher aber kaum gearbeitet. Der Lego Mindstorms Roboter eines Kollegen, der mit mehreren verschiedenen Sensoren die Gesten einer Hand erkennen kann, brachte ihn jedoch auf eine Idee: "Der Roboter soll "sehen" können." Denn bisher musste die jeweilige Geste an einer ganz bestimmten Stelle vor dem Roboter erfolgen, um zuverlässig erkannt zu werden. Mehrere Sensoren waren dafür nötig. Das machte das System unflexibel und dämpfte die Spielfreude.  

Kann Bildverarbeitung diese Aufgabe "eleganter" lösen? 

Interessanter Nebenaspekt: Eine aktuelle Studie der University of East Anglia (UEA) hat gezeigt, dass gerade das spielerische Interagieren mit Robotern – beispielsweise durch ein gemeinsames Spiel – dazu beiträgt, dass Menschen diese Maschinen als „menschlicher“ wahrnehmen. Für Sebastian Trella ist das zwar nicht der primäre Antrieb, doch genau diese Art von natürlicher, spielerischer Interaktion war ein Ziel seines Projekts. 

Von der Idee zur Umsetzung 

Auf der Suche nach der dafür geeigneten Kamera stieß er auf IDS NXT - ein Komplettsystem für den Einsatz von intelligenter Bildverarbeitung. Es erfüllte alle Anforderungen und dank KI neben der reinen Gestenerkennung noch weit mehr. Die Auswertung der Aufnahmen sowie die Kommunikation der Ergebnisse erfolgten direkt auf der bzw. durch die Kamera - ohne zusätzlichen PC. Das IDS NXT Experience Kit brachte außerdem bereits alle Komponenten mit, um sofort und ohne KI-Vorkenntnisse mit der Anwendung starten zu können. 

Trella spann den Gedanken weiter und begann einen Roboter zu entwickeln, der künftig das Spiel "Schere, Stein, Papier" spielen soll - mit einem ähnlichen Ablauf wie im klassischen Sinn: Der (menschliche) Spieler wird aufgefordert, eine der bekannten Gesten (Schere, Stein, Papier) vor der Kamera auszuführen. Der virtuelle Gegner hat zu diesem Zeitpunkt seine Geste schon zufällig bestimmt. Der Spielzug wird in Echtzeit ausgewertet und der Gewinner angezeigt. 

Der erste Schritt: Gestenerkennung mittels Bildverarbeitung 

Doch bis dahin waren einige Zwischenschritte nötig. Trella begann mit der Umsetzung der Gestenerkennung mittels Bildverarbeitung - Neuland für den Robotik-Fan. Mit Hilfe eines cloudbasierten KI-Vision-Studios (IDS lighthouse) ließ sich das jedoch einfacher realisieren als erwartet. Neuronale Netze werden durch Anwendungsbilder mit dem notwendigen Produktwissen - wie in diesem Fall die einzelnen Gesten aus unterschiedlichen Perspektiven - trainiert und in einen passenden Anwendungsablauf verpackt.  

"Der Trainingsprozess war super einfach und ich habe nur den Schritt-für-Schritt-Assistenten von IDS Lighthouse verwendet, nachdem ich mehrere hundert Bilder meiner Hände mit Stein-, Schere- oder Papier-Gesten aus verschiedenen Winkeln vor verschiedenen Hintergründen gemacht hatte. Die erste trainierte KI konnte die Gesten direkt zuverlässig erkennen", erklärt Sebastian Trella.  

Das funktioniert sowohl für Links- als auch Rechtshänder mit einer Erkennungsrate von ca. 95 %. Dabei werden Wahrscheinlichkeiten für die Label “Rock”, “Paper”, “Scissor” oder “Nichts” zurückgegeben. Genau solche Interaktionen sind laut UEA-Forschern eine Basis dafür, dass Menschen in Robotern Handlungskompetenz und „Eigenleben“ erkennen – selbst wenn es sich um klar programmierte Prozesse handelt. 

Weiterverarbeitung der ausgewerteten Bilddaten 

Die Weiterverarbeitung der erkannten Gesten erfolgt mittels einer eigens erstellten Vision App.  

Die App bildet die zweite Phase des Projekts und soll - allgemein gesprochen - das Spielen gegen einen simulierten Computergegner ermöglichen. Sie baut auf der trainierten KI auf und verwendet deren Ergebnisse weiter.  

Dabei stellt sie den KI-Gegenspieler, der zufällig eine der drei vorgegebenen Handbewegungen “ausgibt” und vergleicht diese mit der des Spielers. Anschließend entscheidet sie, wer gewonnen hat oder, ob es ein Unentschieden-Ergebnis gibt. Die Vision App ist also die Schnittstelle zum Spieler auf dem Computermonitor, die Kamera die Schnittstelle zum Erfassen der Spielergesten. 

Die App-Erstellung fand ebenso, wie das Training der neutonalen Netze, im cloudbasierten AI-Vision-Studio (IDS lighthouse) statt. Der blockbasierte Code-Editor, der u.a. der kostenlosen, grafischen Programmierumgebung Scratch ähnelt, machte es Sebastian Trella einfach:  

"Die Vision App Programmierung mit Scratch/Blockly war mir schon von LEGO MINDSTORMS® und diversen anderen Robotik-Produkten bekannt und ich fand mich sofort zurecht. Die Programmieroberfläche ist ja praktisch identisch und die benötigte Denkweise war mir daher schon geläufig. Denn, ob ich nun eine KI-gestützte Vision App auf einer IDS NXT Kamera oder einen Bewegungsablauf für einen Roboter entwickle, die Programmierung funktioniert genauso." 

"Finetuning" direkt auf der Kamera 

Neu war Trella allerdings das Darstellen von Text auf Bild:  "Bisher von mir programmierte Roboter haben Ausgaben immer nur per Konsole geliefert. Die Ausgaben der Vision App nun direkt ins Kamerabild zu integrieren, war eine neue Herangehensweise für mich."  

Besonders die Möglichkeit, die Vision App sowohl in der Cloud als auch auf der Kamera selbst zu bearbeiten, überraschte ihn: "Kleine Änderungen am Programmcode können direkt auf der Kamera getestet werden, ohne alles in der Cloud neu kompilieren zu müssen. Die Programmierumgebung läuft hierbei sehr flüssig und stabil."  

Finaler Aufbau: Wenn aus Komponenten ein System wird 

Bei interaktiven Systemen wie diesem liegt die größte Herausforderung selten in den einzelnen Komponenten – sondern fast immer im Zusammenspiel. Auch in diesem Fall funktionierten Kamera, Logik und Roboterarm jeweils für sich zuverlässig: Die Kamera erkannte präzise die Handzeichen, die Entscheidungslogik reagierte regelkonform, und der Roboter setzte die entsprechende Bewegung um. Doch erst das Zusammenführen all dieser Bausteine war anspruchsvoll – insbesondere, wenn es um präzises Timing, Signalweitergabe und Synchronisation ging.  

Feinjustierung: Die Gestenkennung wird robust 

Wie zuverlässig eine Gestenerkennung funktioniert, hängt maßgeblich von den Trainingsdaten und den Umgebungsbedingungen ab – eine Erfahrung, die Sebastian Trella schon in der Anfangsphase machte: „Anfänglich hatte ich die Modelle nur mit meinen eigenen Händen trainiert. Dabei hatte ich den Fall „keine Hand im Bild“ zunächst nicht berücksichtigt. Das führte natürlich zu fehlerhaften Auswertungen.“  

Mit Hilfe der Trainingsplattform, ließ sich das Modell jedoch problemlos erweitern. Neue Bilder wurden hinzugefügt, darunter Hände anderer Personen vor verschiedenen Hintergründen und unter wechselnden Lichtverhältnissen. Auch Details wie unterschiedliche Hauttöne oder das Tragen von Ringen flossen in das Training ein. Durch diese gezielte Diversifizierung der Trainingsdaten verbesserte sich die Erkennungsleistung deutlich – die KI reagierte nun stabil und zuverlässig, unabhängig davon, wer spielte oder in welcher Umgebung. Die UEA-Forscher betonen, dass solche Stabilität und Anpassungsfähigkeit wichtig sind, damit Menschen Vertrauen in Roboter entwickeln. Je weniger Frustration in der Interaktion entsteht – etwa durch Fehldetektionen – desto leichter fällt es, die Maschine als kompetenten Partner wahrzunehmen. 

Umsetzung: Wie spielt der Roboter? 

Der Entscheidungen des Roboters sind zufällig – er blufft nicht und er lernt nicht aus vorherigen Spielen. Doch genau das macht den Charme des Spiels aus: Mensch gegen Maschine, auf Augenhöhe. Die Spielrunde läuft in fünf Phasen ab: 

Erfassung der menschlichen Hand durch die Kamera 

KI-basierte Bildauswertung der Geste (Schere, Stein, Papier) 

Roboterkommunikation und -bewegung 

Ermittlung des Ergebnisses (Roboter gewinnt, Mensch gewinnt, Unentschieden) 

Roboterkommunikation und -bewegung 

Die gesamte Steuerung des Spiels erfolgt direkt über die Vision App auf der intelligenten Kamera (IDS NXT) – ganz ohne zusätzlichen PC. Sie erkennt die gezeigte Geste des Spielers, wertet sie mithilfe künstlicher Intelligenz aus und sendet daraufhin ein digitales IO-Signal an den Roboter, um dessen Reaktion auszulösen. Damit das Spiel fair bleibt, wird die Geste des Roboters nicht durch die Spieleraktion beeinflusst, sondern neutral und zufällig bestimmt. Während die Kamera die Spielergeste analysiert, wartet der Roboter auf sein Startsignal.  

Erst dann zeigt auch er seine Geste. Anschließend wertet die Kamera das Spielergebnis aus und sendet die finale Entscheidung, die der Roboter wiederum anzeigt.  

Die Abstimmung von Wartezeiten und Signalübertragungen war dabei eine zentrale Herausforderung. Zwar kann die Vision App die Spielergeste innerhalb von Sekundenbruchteilen analysieren, doch der Roboter kann nicht in gleicher Geschwindigkeit reagieren. Eine gleichzeitige Anzeige und Auswertung der Gesten ließ sich daher auf diese Weise nicht realisieren. Durch gezielte Optimierung der Abläufe konnte die Reaktionszeit dennoch deutlich reduziert werden. „Das Spiel fühlt sich nun dynamischer und flüssiger an. Die KI erkennt im Kamerabild die Hand des Spielers und wertet die gezeigte Geste direkt aus. Dies funktioniert so zuverlässig, dass die erneute Darstellung auf einem Monitor überflüssig wurde. Der Roboter übernimmt nun vollständig die Anzeige der Spielinformationen – das beschleunigt den gesamten Spielfluss erheblich“, erklärt Trella. 

Ausblick: Was bleibt offen und was kommt als Nächstes? 

Die hohe Zuverlässigkeit der Gestenkennung eröffnet spannende Perspektiven. „Eine denkbare Weiterentwicklung wäre die berührungslose Steuerung von Maschinen, etwa durch einfache Handzeichen im industriellen Umfeld", überlegt Sebastian Trella und ergänzt: „Natürlich bleiben auch nach Projektabschluss offene Fragen. Etwa: Wie lässt sich die Kommunikation zwischen Roboter und Kamera noch „eleganter“ gestalten – vielleicht über eine Art Dialog mit Schnittstellen wie RS-232, REST oder OPC-UA? Wäre eine bewegliche Roboterhand nicht der logische nächste Schritt für ein noch realistischeres Spielgefühl?“ 

Aus Sicht der UEA-Forscher liegt hier ein spannender Hebel für künftige Entwicklungen: Solche Spiele könnten nicht nur Spaß machen, sondern auch als „Eisbrecher“ dienen, um Hemmschwellen bei der Interaktion mit Robotern in anderen Kontexten – etwa in der Industrie, im Service oder in der Pflege – abzubauen. 

Auch wenn sich das Projekt „Schere, Stein, Papier“ nun seinem Ende nähert, sind neue Ideen zur Mensch-Maschine-Interaktion mit KI-Unterstützung bei Sebastian Trella bereits in Planung. Denn: Wenn ein Roboter schon heute (durch KI) mit einem Menschen spielen kann – was kann er noch? Die Forschungsergebnisse aus England legen nahe, dass genau diese spielerischen Szenarien ein Schlüssel sein könnten, um künftige Robotertechnologien leichter in den Alltag zu integrieren – und sie nicht nur als Werkzeuge, sondern als kooperative Partner wahrzunehmen. 

Teilen

Fachartikel Messtechnik