โมเดล AI โอเพ่นซอร์ส VI-Depth 1.0 และ MiDaS 3.1 ปรับปรุงการประเมินเชิงลึกสำหรับการมองเห็นของคอมพิวเตอร์
การประมาณความลึกเป็นงานที่ท้าทายด้านการมองเห็นด้วยคอมพิวเตอร์ซึ่งจำเป็นต่อการสร้างแอปพลิเคชันที่หลากหลายในด้านวิทยาการหุ่นยนต์ เทคโนโลยีความจริงเสริม (AR) และความเป็นจริงเสมือน (VR) โซลูชันที่มีอยู่มักจะประสบปัญหาในการประมาณระยะทางอย่างถูกต้อง ซึ่งเป็นสิ่งสำคัญในการช่วยวางแผนการเคลื่อนไหวและหลีกเลี่ยงสิ่งกีดขวางเมื่อต้องใช้การนำทางด้วยภาพ นักวิจัยที่ Intel Labs กำลังแก้ไขปัญหานี้ด้วยการเปิดตัวโมเดล AI สองโมเดลสำหรับการประมาณความลึกด้วยตาข้างเดียว: หนึ่งโมเดลสำหรับการประมาณความลึกเชิงเฉื่อยด้วยภาพ และอีกโมเดลหนึ่งสำหรับการประมาณความลึกสัมพัทธ์ (RDE) ที่มีประสิทธิภาพ
โมเดล RDE ล่าสุด เวอร์ชัน MiDaS 3.1 ทำนายความลึกสัมพัทธ์ที่แข็งแกร่งโดยใช้เพียงภาพเดียวเป็นอินพุต เนื่องจากมีการฝึกอบรมเกี่ยวกับชุดข้อมูลขนาดใหญ่และหลากหลาย จึงสามารถทำงานได้อย่างมีประสิทธิภาพกับงานและสภาพแวดล้อมที่หลากหลายยิ่งขึ้น MiDaS เวอร์ชันล่าสุดปรับปรุงความแม่นยำของโมเดลสำหรับ RDE ประมาณ 30% ด้วยชุดการฝึกที่ใหญ่ขึ้นและแบ็คโบนตัวเข้ารหัสที่อัปเดต
MiDaS ได้รับการรวมเข้ากับหลายโครงการ โดยเฉพาะอย่างยิ่ง Stable Diffusion 2.0 ซึ่งเปิดใช้งานคุณสมบัติความลึกของภาพที่จะอนุมานความลึกของภาพที่ป้อนเข้า จากนั้นจึงสร้างภาพใหม่ โดยใช้ทั้งข้อความและข้อมูลเชิงลึก ตัวอย่างเช่น ผู้สร้างดิจิทัล Scottie Fox ใช้การผสมผสานระหว่าง การแพร่กระจายที่เสถียรและ MiDaS เพื่อสร้างสภาพแวดล้อม VR แบบ 360 องศา เทคโนโลยีนี้อาจนำไปสู่แอปพลิเคชันเสมือนจริงใหม่ๆ รวมถึงการสร้างฉากอาชญากรรมขึ้นใหม่สำหรับคดีในศาล สภาพแวดล้อมทางการแพทย์สำหรับการดูแลสุขภาพและประสบการณ์การเล่นเกมที่สมจริง
แม้ว่า RDE จะมีความสามารถทั่วไปที่ดีและมีประโยชน์ งานดาวน์สตรีมที่ต้องการเมตริกเชิงลึก เช่น การทำแผนที่ การวางแผน การนำทาง การจดจำวัตถุ การสร้างใหม่ 3 มิติ และการแก้ไขภาพ นักวิจัยจาก Intel Labs กำลังแก้ไขปัญหานี้ด้วยการเปิดตัว VI-Depth ซึ่งเป็นโมเดล AI อีกรุ่นที่ให้การประมาณความลึกที่แม่นยำ
VI-Depth เป็นไปป์ไลน์การประเมินเชิงลึกด้วยภาพเชิงเฉื่อยที่ผสานรวมการประมาณความลึกแบบตาเดียวและเชิงเฉื่อยเชิงภาพ odometry (VIO) เพื่อสร้างการประมาณความลึกที่หนาแน่นด้วยมาตราส่วนเมตริก วิธีการนี้ให้การประมาณความลึกที่แม่นยำ ซึ่งสามารถช่วยในการสร้างฉากใหม่ การทำแผนที่ และการจัดการวัตถุ
การรวมข้อมูลเฉื่อยสามารถช่วยแก้ไขความคลุมเครือของมาตราส่วนได้ อุปกรณ์เคลื่อนที่ส่วนใหญ่มีหน่วยวัดความเฉื่อย (IMU) อยู่แล้ว การจัดตำแหน่งส่วนกลางกำหนดมาตราส่วนสากลที่เหมาะสม ในขณะที่การจัดตำแหน่งมาตราส่วนแบบหนาแน่น (SML) ดำเนินการในพื้นที่และผลักดันหรือดึงภูมิภาคไปสู่ความลึกเมตริกที่ถูกต้อง เครือข่าย SML ใช้ประโยชน์จาก MiDaS เป็นแกนหลักของตัวเข้ารหัส ในไปป์ไลน์โมดูลาร์ VI-Depth รวมการประมาณความลึกที่ขับเคลื่อนด้วยข้อมูลเข้ากับแบบจำลองการคาดการณ์ความลึกสัมพัทธ์ของ MiDaS ควบคู่ไปกับหน่วยการวัดเซ็นเซอร์ IMU การรวมกันของแหล่งข้อมูลช่วยให้ VI-Depth สร้างความลึกเมตริกหนาแน่นที่เชื่อถือได้มากขึ้นสำหรับทุกพิกเซลในภาพ
MiDaS 3.1 และ VI-Depth 1.0 มีให้บริการภายใต้ MIT แบบโอเพ่นซอร์ส ใบอนุญาตบน GitHub
สำหรับข้อมูลเพิ่มเติม โปรดดูที่ “Vision Transformers for Dense Prediction“และ”สู่การประมาณความลึกของตาข้างเดียวที่มีประสิทธิภาพ: การผสมชุดข้อมูลสำหรับการถ่ายโอนชุดข้อมูลข้ามแบบ Zero-shot”