PaLM-E améliore la vision et le langage robotiques
Des chercheurs en intelligence artificielle de Google et de l’Université technique de Berlin ont dévoilé PaLM-E, un modèle de langage visuel incarné multimodal (VLM) avec 562 milliards de paramètres qui intègrent la vision et le langage pour le contrôle robotique.
Ils affirment qu’il s’agit du plus grand VLM jamais développé et qu’il peut effectuer une variété de tâches sans avoir besoin de se recycler.
Selon Google, lorsqu’on lui donne une commande de haut niveau, comme”apporte-moi le chips de riz du tiroir”, PaLM-E peut générer un plan d’action pour une plate-forme de robot mobile avec un bras (développé par Google Robotics) et exécuter les actions par lui-même.
PaLM-E le fait en analyser les données de la caméra du robot sans avoir besoin d’une représentation de scène prétraitée. Cela élimine le besoin d’un humain pour pré-traiter ou annoter les données et permet un contrôle robotique plus autonome. Il est également résistant et peut réagir à son environnement.
Par exemple, le modèle PaLM-E peut guider un robot pour récupérer un sac de chips dans une cuisine–et avec PaLM-E intégré dans la boucle de contrôle, il devient résistant aux interruptions qui pourraient survenir au cours de la tâche. Dans un exemple vidéo, un chercheur saisit les puces du robot et les déplace, mais le robot localise les puces et les récupère. Dans un autre exemple, le même modèle PaLM-E contrôle de manière autonome un robot à travers des tâches avec des séquences complexes qui nécessitaient auparavant un guidage humain.
PaLM-E est un prédicteur de jeton suivant, et il s’appelle”PaLM-E”car il est basé sur le modèle de grande langue (LLM) existant de Google appelé”PaLM”(qui est similaire à la technologie derrière ChatGPT ). Google a rendu PaLM”incarné”en ajoutant des informations sensorielles et un contrôle robotique. Puisqu’il est basé sur un modèle de langage, PaLM-E prend des observations continues, comme des images ou des données de capteurs, et les encode dans une séquence de vecteurs qui ont la même taille que les jetons de langage.
Cela permet au modèle de”comprendre”l’information sensorielle de la même manière qu’il traite le langage. En plus du transformateur robotique RT-1, PaLM-E s’inspire des travaux antérieurs de Google sur ViT-22B, un modèle de transformateur de vision révélé en février. ViT-22B a été formé à diverses tâches visuelles, telles que la classification d’images, la détection d’objets, la segmentation sémantique et le sous-titrage d’images.