PaLM-E 改善機器人視覺和語言

Google 和柏林工業大學的 AI 研究人員推出了 PaLM-E,這是一種多模態體現視覺語言模型(VLM)具有 5620 億個參數,集成了用於機器人控制的視覺和語言。

他們聲稱這是迄今為止開發的最大的 VLM,並且它可以執行各種任務而無需重新訓練。

根據 Google 的說法,當給出高級命令時,例如“給我帶來“抽屜裡的米片”,PaLM-E 可以為帶手臂的移動機器人平台(由 Google Robotics 開發)生成行動計劃,並自行執行這些行動。

PaLM-E 通過無需預處理場景表示即可分析來自機器人相機的數據。這消除了人類預處理或註釋數據的需要,並允許更自主的機器人控制。它還具有彈性,可以對其環境做出反應。

例如,PaLM-E 模型可以引導機器人從廚房取薯片袋——並將 PaLM-E 集成到控制迴路中,它可以抵抗任務期間可能發生的中斷。在一個視頻示例中,研究人員從機器人手中抓取芯片並移動它們,但機器人找到芯片並再次抓取它們。在另一個示例中,相同的 PaLM-E 模型通過具有復雜序列的任務自主控制機器人,而這些任務以前需要人工指導。

PaLM-E 是一個 next-token 預測器,它被稱為“PaLM-E”是因為它基於 Google 現有的稱為“PaLM”的大型語言模型 (LLM)(類似於 ChatGPT 背後的技術).谷歌通過添加感官信息和機器人控制,使 PaLM“具身化”。由於它基於語言模型,PaLM-E 需要連續觀察,如圖像或傳感器數據,並將它們編碼為與語言標記大小相同的向量序列。

這允許模型以與處理語言相同的方式“理解”感官信息。除了 RT-1 機器人變壓器外,PaLM-E 還借鑒了谷歌之前在 ViT-22B 上的工作,這是 2 月份公佈的視覺變壓器模型。 ViT-22B 已經接受過各種視覺任務的訓練,例如圖像分類、目標檢測、語義分割和圖像描述。

By Maxwell Gaven

我在 IT 行業工作了 7 年。 觀察 IT 行業的不斷變化很有趣。 IT 是我的工作、愛好和生活。