Schritt für Schritt zum sicheren autonomen Fahren

Freiburger Informatiker verbessern das Szenenverständnis für selbstfahrende Autos

Direktzugriff

Artikelaktionen

Beim LiDAR-Szenenverständnis aus dem KI-Modell EfficientLPS wird jedem 3D-Punkt eine eindeutige Farbe zugewiesen, z.B. werden LiDAR-Punkte auf der Straße in Magenta und Gebäude in Blau dargestellt.

Informatiker Prof. Dr. Abhinav Valada bringt selbstfahrenden Autos mithilfe Künstlicher Intelligenz (KI) bei, ihre Umgebung und Beteiligte im Straßenverkehr schnell zu erkennen. Ausgestattet mit Kamera und Laser arbeitet er mit seinem Team an verschiedenen Forschungsprojekten und zeigt mittels bunten Bildern und Videos, wie die Autos während der Fahrt ihre Umgebung identifizieren.

Die Straße ist lila, Autos sind blau, Fußgänger rot. Eine normale Autofahrt durch die Stadt erscheint in ungewohnter Optik. Die bunten Bilder, die die Künstliche Intelligenz von Prof. Dr. Abhinav Valada, Inhaber der Assistenzprofessur für Robot Learning am Institut für Informatik der Universität Freiburg, erzeugt, zeigen, dass es funktioniert: Die Künstliche Intelligenz (KI) erkennt während des Fahrens nicht nur, welche Pixel der Videoaufnahme zu welcher Art von Objekt in der Umgebung gehören, sondern identifiziert auch die einzelnen Objekte an sich. So ordnet die KI ein, welche Verkehrsteilnehmende sich in der Nähe befinden und wie die städtische Kulisse im Hintergrund aussieht. Panoptische Segmentierung heißt dieser Vorgang, der ein wichtiges Element für den reibungslosen Ablauf beim autonomen Fahren ist. Doch nicht nur da: „Alle Formen von Roboter müssen zunächst einmal die Welt um sie herum verstehen. Erst wenn sie Objekte erkennen und kategorisieren können, sind sie in der Lage, weitere Aufgaben zu erfüllen“, leitet Valada ein. Daher ist das Verfahren der panoptischen Segmentierung beispielsweise auch in anderen Feldern der Robotik und in der medizinischen Bildgebung wichtig.

KI lernt Szenenverständnis durch Deep Learning

Die panoptische Segmentierung kombiniert die semantische Segmentierung mit der Instanzsegmentierung. Während bei der semantischen Segmentierung jeder Pixel eines Bildes einer Objektklasse zugeordnet wird, fasst die Instanzsegmentierung Pixelgruppen in einzelne Objekte zusammen und markiert diese mit einer Umrandung. „Das Zusammenführen dieser beiden Verfahren führt dazu, dass die KI die einzelnen Akteure bzw. Instanzen im Straßenverkehr unterscheiden und zählen kann“, erklärt Valada. Für die KI ist also klar, dass vor ihr beispielsweise nicht bloß Autos fahren, sondern dass es unterschiedliche Autos sind.

Die KI eignet sich das Szenenverständnis mithilfe einer Technik des maschinellen Lernens, dem so genannten Deep Learning an. Dabei lernen die künstlichen neuronalen Netze, die vom menschlichen Gehirn inspiriert sind, aus großen Datenmengen. Die Freiburger Forschenden füttern ihre KI mit vielen tausenden Straßenbildern und bringen ihr bei, was sie auf dem jeweiligen Bild erkennen soll. „Wir trainieren mit möglichst diversen Bildern,“ sagt Valada, „denn so kann die KI bislang noch nicht Gesehenes besser einordnen.“

Bei ihrem Modell „EfficientPS“ hat das gut funktioniert: Ein Auto, welches lediglich mit Bildern aus Stuttgart gelernt hat, erkennt in Freiburg ebenfalls alle Objekte während der Fahrt. Die Forschenden der Albert-Ludwigs-Universität erreichten mit ihrem Modell den ersten Platz in Cityscapes, dem, so Valada, vermutlich einflussreichsten öffentlichen Benchmark für Methoden zum visuellen Szenenverständnis im autonomen Fahren. Mit Hilfe von sogenannten Benchmarks werden die verschiedenen Algorithmen der künstlichen Intelligenzen ihrer Leistung nach eingestuft. „Viele Methoden benötigen große Datenmengen und sind zu rechenintensiv. Unser Verfahren ist die rechnerisch effizienteste und schnellste Methode“, sagt der Freiburger Informatiker.

In einem ähnlichen Modell „EfficientLPS“ arbeiten Valada und sein Team anstelle von Kamerabildern mit einer Form des dreidimensionalen Laserscanning. Während Kamerabilder nur bei gutem Wetter verwertbar sind, können Laserstrahlen auch bei herausfordernden Lichtverhältnissen, wie etwa bei Nebel oder Regen, die Umgebung abtasten und die Struktur nachbilden. „EfficientLPS“ lernt also mit 3D-Informationen anstatt mit Bildern. Mit diesem Modell belegte das Team den ersten Platz im SemanticKITTI-Benchmark, der laut Valada der bekannteste Benchmark für das LiDAR-Szenenverständnis ist. In Zusammenarbeit mit dem Unternehmen Motional, welches autonome Fahrzeuge herstellt, hat das Team um Valada aber auch selbst einen neuen Datensatz für LiDAR-Szenenverständnis veröffentlicht: den Panoptic nuScenes-Datensatz. „Er besteht aus viel mehr dynamischen Agenten wie Fahrzeugen, Radfahrern und Fußgängern als bisherige Datensätze und ist damit der größte und vielfältigste Datensatz für das Verständnis städtischer Szenen“, sagt Valada.

Ein Szenenverständnis wie Menschen

Daneben realisierten die Forschenden – anknüpfend an die Modelle EfficientPS und EfficientLPS – ihr neustes Modell „MOPT“, was für Multi-Object Panoptic Tracking steht. Hier haben sie einer KI beigebracht, die Bewegung einzelner Objekte während der Fahrt zu verfolgen. Das Modell erkennt also nicht nur, welche Objekte sich in der Umgebung befinden und wie viele Objekte es sind, sondern es ordnet die Objekte auch über die Videobilder hinweg zu. Es zeigt also an, wie sich Objekte in der Umgebung mit der Zeit bewegen. „MOPT“ ist laut Valada der weltweit erste Versuch, panoptische Segmentierung und Multi-Objekt-Tracking zu vereinen. „Eine KI zu schaffen, die diese Aufgaben gemeinsam erlernt, verbessert die Gesamteffizienz und macht es einfacher, sie in Robotern einzusetzen. Das ist ein Schritt in Richtung eines ganzheitlicheren Verständnisses von Szenen, ähnlich wie es Menschen haben ", sagt Valada.

Sein Forschungsgebiet beinhaltet nur einen Bruchteil dessen, was zum sicheren autonomen Fahren nötig ist. Bis die Menschheit den Wagen vollkommen trauen kann, wird es noch eine Weile dauern. Valada kommt zu dem Schluss: „Die eigentliche Herausforderung besteht darin, die Autos wirklich sicher zu machen, sodass sie bei unerwarteten, schwierigen Situationen richtig reagieren. Und natürlich müssen auch die ethischen Fragen geklärt werden.“

Franziska Becker

Pressemitteilung zum Modell „EfficientPS“

Kontakt:
Prof. Dr. Abhinav Valada
Abteilung für Robot Learning
Albert-Ludwigs-Universität Freiburg
Tel.: 0761/203-8025
E-Mail: valada@cs.uni-freiburg.de

Fußzeile

Benutzerspezifische Werkzeuge