PaLM-E ปรับปรุงการมองเห็นและภาษาของหุ่นยนต์
นักวิจัย AI จาก Google และมหาวิทยาลัยเทคนิคแห่งเบอร์ลินเปิดตัว PaLM-E ซึ่งเป็นโมเดลภาษาภาพแบบรวมหลายรูปแบบ (VLM) ที่มีพารามิเตอร์ 562 พันล้านตัวที่รวมการมองเห็นและภาษาสำหรับการควบคุมด้วยหุ่นยนต์
พวกเขาอ้างว่าเป็น VLM ที่ใหญ่ที่สุดที่เคยพัฒนามาและสามารถทำงานได้หลากหลายโดยไม่จำเป็นต้องฝึกอบรมใหม่
ตาม Google เมื่อได้รับคำสั่งระดับสูง เช่น”นำ เศษข้าวจากลิ้นชัก”PaLM-E สามารถสร้างแผนปฏิบัติการสำหรับแพลตฟอร์มหุ่นยนต์เคลื่อนที่ด้วยแขน (พัฒนาโดย Google Robotics) และดำเนินการด้วยตัวเอง
PaLM-E ทำสิ่งนี้โดย วิเคราะห์ข้อมูลจากกล้องของหุ่นยนต์โดยไม่ต้องมีการแสดงฉากที่ผ่านการประมวลผลล่วงหน้า สิ่งนี้ทำให้มนุษย์ไม่จำเป็นต้องประมวลผลล่วงหน้าหรือใส่คำอธิบายประกอบข้อมูล และช่วยให้สามารถควบคุมหุ่นยนต์ได้เองมากขึ้น นอกจากนี้ยังยืดหยุ่นและสามารถตอบสนองต่อสภาพแวดล้อมได้
ตัวอย่างเช่น รุ่น PaLM-E สามารถแนะนำหุ่นยนต์ให้นำถุงใส่ชิปจากห้องครัว และเมื่อรวม PaLM-E เข้ากับวงจรควบคุม มันจะทนทานต่อการขัดจังหวะที่อาจเกิดขึ้นระหว่างงาน ในตัวอย่างวิดีโอ นักวิจัยคว้าชิปจากหุ่นยนต์และเคลื่อนย้าย แต่หุ่นยนต์กลับพบชิปและคว้ามันอีกครั้ง ในอีกตัวอย่างหนึ่ง โมเดล PaLM-E เดียวกันนี้ควบคุมหุ่นยนต์โดยอัตโนมัติผ่านงานที่มีลำดับซับซ้อนซึ่งก่อนหน้านี้ต้องอาศัยคำแนะนำจากมนุษย์
PaLM-E เป็นตัวทำนายโทเค็นถัดไป และเรียกว่า”PaLM-E”เนื่องจากอิงตามโมเดลภาษาขนาดใหญ่ (LLM) ที่มีอยู่ของ Google ที่เรียกว่า”PaLM”(ซึ่งคล้ายกับเทคโนโลยีที่อยู่เบื้องหลัง ChatGPT ). Google ทำให้ PaLM”เป็นตัวเป็นตน”โดยเพิ่มข้อมูลทางประสาทสัมผัสและการควบคุมโดยหุ่นยนต์ เนื่องจากใช้โมเดลภาษา PaLM-E จึงใช้การสังเกตอย่างต่อเนื่อง เช่น ภาพหรือข้อมูลเซ็นเซอร์ และเข้ารหัสเป็นลำดับของเวกเตอร์ที่มีขนาดเท่ากับโทเค็นภาษา
วิธีนี้ทำให้โมเดลสามารถ”เข้าใจ”ข้อมูลทางประสาทสัมผัสในลักษณะเดียวกับที่ประมวลผลภาษา นอกจากหม้อแปลงหุ่นยนต์ RT-1 แล้ว PaLM-E ยังดึงมาจากงานก่อนหน้าของ Google เกี่ยวกับ ViT-22B ซึ่งเป็นโมเดล Vision Transformer ที่เปิดเผยในเดือนกุมภาพันธ์ ViT-22B ได้รับการฝึกอบรมเกี่ยวกับงานด้านภาพต่างๆ เช่น การจัดหมวดหมู่ภาพ การตรวจจับวัตถุ การแบ่งส่วนความหมาย และคำบรรยายภาพ