PaLM-E migliora la visione e il linguaggio robotici
I ricercatori di intelligenza artificiale di Google e dell’Università tecnica di Berlino hanno svelato PaLM-E, un modello multimodale di linguaggio visivo incorporato (VLM) con 562 miliardi di parametri che integra visione e linguaggio per il controllo robotico.
Affermano che è il più grande VLM mai sviluppato e che può eseguire una varietà di attività senza la necessità di riqualificazione.
Secondo Google, quando viene dato un comando di alto livello, come”portami il patatine di riso dal cassetto”, PaLM-E può generare un piano d’azione per una piattaforma robotica mobile con un braccio (sviluppata da Google Robotics) ed eseguire le azioni da solo.
PaLM-E lo fa tramite analizzare i dati dalla telecamera del robot senza bisogno di una rappresentazione della scena pre-elaborata. Ciò elimina la necessità per un essere umano di pre-elaborare o annotare i dati e consente un controllo robotico più autonomo. È anche resistente e può reagire al suo ambiente.
Ad esempio, il modello PaLM-E può guidare un robot a prendere un sacchetto di patatine da una cucina e con PaLM-E integrato nel circuito di controllo, diventa resistente alle interruzioni che potrebbero verificarsi durante l’attività. In un esempio video, un ricercatore prende i chip dal robot e li sposta, ma il robot individua i chip e li afferra di nuovo. In un altro esempio, lo stesso modello PaLM-E controlla autonomamente un robot attraverso compiti con sequenze complesse che in precedenza richiedevano la guida umana.
PaLM-E è un predittore del token successivo e si chiama”PaLM-E”perché si basa sul modello LLM (large language model) esistente di Google chiamato”PaLM”(che è simile alla tecnologia alla base di ChatGPT ). Google ha reso PaLM”incarnato”aggiungendo informazioni sensoriali e controllo robotico. Poiché si basa su un modello linguistico, PaLM-E acquisisce osservazioni continue, come immagini o dati di sensori, e le codifica in una sequenza di vettori delle stesse dimensioni dei token linguistici.
Ciò consente al modello di”comprendere”le informazioni sensoriali nello stesso modo in cui elabora il linguaggio. Oltre al trasformatore robotico RT-1, PaLM-E attinge dal precedente lavoro di Google su ViT-22B, un modello di trasformatore visivo rivelato a febbraio. ViT-22B è stato addestrato su varie attività visive, come la classificazione delle immagini, il rilevamento di oggetti, la segmentazione semantica e la didascalia delle immagini.