PaLM-E mejora la visión y el lenguaje robótico

Investigadores de inteligencia artificial de Google y la Universidad Técnica de Berlín revelaron PaLM-E, un modelo multimodal de lenguaje visual incorporado (VLM) con 562 mil millones de parámetros que integra visión y lenguaje para el control robótico.

Afirman que es el VLM más grande jamás desarrollado y que puede realizar una variedad de tareas sin necesidad de volver a capacitarse.

Según Google, cuando se le da un comando de alto nivel, como”tráeme el chips de arroz del cajón”, PaLM-E puede generar un plan de acción para una plataforma de robot móvil con un brazo (desarrollado por Google Robotics) y ejecutar las acciones por sí mismo.

PaLM-E hace esto analizando datos de la cámara del robot sin necesidad de una representación de escena preprocesada. Esto elimina la necesidad de que un ser humano preprocese o anote los datos y permite un control robótico más autónomo. También es resistente y puede reaccionar a su entorno.

Por ejemplo, el modelo PaLM-E puede guiar a un robot para obtener una bolsa de papas fritas de una cocina, y con PaLM-E integrado en el circuito de control, se vuelve resistente a las interrupciones que puedan ocurrir durante la tarea. En un ejemplo de video, un investigador agarra las fichas del robot y las mueve, pero el robot localiza las fichas y las toma nuevamente. En otro ejemplo, el mismo modelo PaLM-E controla de forma autónoma un robot a través de tareas con secuencias complejas que antes requerían la guía humana.

PaLM-E es un predictor del siguiente token, y se llama”PaLM-E”porque se basa en el modelo de lenguaje grande (LLM) existente de Google llamado”PaLM”(que es similar a la tecnología detrás de ChatGPT ). Google ha”incorporado”PaLM al agregar información sensorial y control robótico. Dado que se basa en un modelo de lenguaje, PaLM-E toma observaciones continuas, como imágenes o datos de sensores, y las codifica en una secuencia de vectores que tienen el mismo tamaño que los tokens de lenguaje.

Esto permite que el modelo”entiende”la información sensorial de la misma manera que procesa el lenguaje. Además del transformador robótico RT-1, PaLM-E se basa en el trabajo anterior de Google en ViT-22B, un modelo de transformador de visión revelado en febrero. ViT-22B ha sido capacitado en varias tareas visuales, como clasificación de imágenes, detección de objetos, segmentación semántica y subtítulos de imágenes.

By Maxwell Gaven

Ich habe 7 Jahre im IT-Bereich gearbeitet. Es macht Spaß, den stetigen Wandel im IT-Bereich zu beobachten. IT ist mein Job, Hobby und Leben.