PaLM-E verbessert das Sehen und die Sprache von Robotern

KI-Forscher von Google und der Technischen Universität Berlin stellten PaLM-E vor, ein multimodales verkörpertes visuelles Sprachmodell (VLM) mit 562 Milliarden Parametern, das Vision und Sprache für die Robotersteuerung integriert.

Sie behaupten, dass es das größte VLM ist, das jemals entwickelt wurde, und dass es eine Vielzahl von Aufgaben ausführen kann, ohne dass eine Umschulung erforderlich ist.

Laut Google wird bei einem übergeordneten Befehl wie”Bring mir die Reischips aus der Schublade”kann PaLM-E einen Aktionsplan für eine mobile Roboterplattform mit einem Arm (entwickelt von Google Robotics) generieren und die Aktionen selbst ausführen.

PaLM-E erledigt dies durch Analysieren von Daten von der Kamera des Roboters, ohne dass eine vorverarbeitete Szenendarstellung erforderlich ist. Dadurch entfällt die Notwendigkeit, dass ein Mensch die Daten vorverarbeitet oder kommentiert, und ermöglicht eine autonomere Robotersteuerung. Es ist auch widerstandsfähig und kann auf seine Umgebung reagieren.

Zum Beispiel kann das PaLM-E-Modell einen Roboter führen, um eine Chipstüte aus einer Küche zu holen – und mit PaLM-E, das in den Regelkreis integriert ist, es wird resistent gegen Unterbrechungen, die während der Aufgabe auftreten können. In einem Videobeispiel nimmt ein Forscher die Chips vom Roboter und bewegt sie, aber der Roboter lokalisiert die Chips und greift sie erneut. In einem anderen Beispiel steuert dasselbe PaLM-E-Modell autonom einen Roboter durch Aufgaben mit komplexen Sequenzen, die zuvor menschliche Führung erforderten.

PaLM-E ist ein Next-Token-Prädiktor und heißt „PaLM-E“, weil es auf Googles bestehendem Large Language Model (LLM) namens „PaLM“ basiert (das der Technologie hinter ChatGPT ähnelt ). Google hat PaLM „verkörpert“, indem sensorische Informationen und Robotersteuerung hinzugefügt wurden. Da es auf einem Sprachmodell basiert, nimmt PaLM-E kontinuierliche Beobachtungen wie Bilder oder Sensordaten auf und kodiert sie in eine Folge von Vektoren, die dieselbe Größe wie Sprachtoken haben.

Dies ermöglicht dem Modell „verstehen“ die sensorischen Informationen auf die gleiche Weise, wie sie Sprache verarbeiten. Neben dem RT-1-Robotiktransformator stützt sich PaLM-E auf Googles frühere Arbeit an ViT-22B, einem Vision-Transformatormodell, das im Februar vorgestellt wurde. ViT-22B wurde für verschiedene visuelle Aufgaben wie Bildklassifizierung, Objekterkennung, semantische Segmentierung und Bildbeschriftung trainiert.

By Maxwell Gaven

Ich habe 7 Jahre im IT-Bereich gearbeitet. Es macht Spaß, den stetigen Wandel im IT-Bereich zu beobachten. IT ist mein Job, Hobby und Leben.