VI-Depth 1.0 和 MiDaS 3.1 開源 AI 模型改進了計算機視覺的深度估計。

深度估計是一項具有挑戰性的計算機視覺任務,需要在機器人技術、增強現實 (AR) 和虛擬現實 (VR) 中創建廣泛的應用程序。現有的解決方案往往難以正確估計距離,而這是在視覺導航方面幫助規劃運動和避開障礙物的關鍵方面。英特爾實驗室的研究人員正在通過發布兩種用於單眼深度估計的 AI 模型來解決這個問題:一種用於視覺慣性深度估計,一種用於穩健的相對深度估計 (RDE)。

最新的 RDE 模型,MiDaS 版本3.1,僅使用單個圖像作為輸入來預測穩健的相對深度。由於其在大型和多樣化的數據集上進行訓練,它可以在更廣泛的任務和環境中有效地執行。最新版本的 MiDaS 通過其更大的訓練集和更新的編碼器骨干將 RDE 的模型精度提高了約 30%。

MiDaS 已被納入許多項目,最著名的是 Stable Diffusion 2.0,它啟用了深度到圖像功能,推斷輸入圖像的深度,然後生成新圖像同時使用文本和深度信息。例如,數字創作者 Scottie Fox 使用了Stable Diffusion 和 MiDaS 可創建 360 度 VR 環境。這項技術可能會帶來新的虛擬應用,包括法庭案件的犯罪現場重建、醫療保健的治療環境和身臨其境的遊戲體驗。

雖然 RDE 具有良好的通用性和實用性,但規模的缺乏降低了它的實用性需要度量深度的下游任務,例如映射、規劃、導航、對象識別、3D 重建和圖像編輯。英特爾實驗室的研究人員正在通過發布 VI-Depth 來解決這個問題,VI-Depth 是另一種提供準確深度估計的 AI 模型。

VI-Depth 是一種視覺慣性深度估計管道,它集成了單目深度估計和視覺慣性里程計 (VIO) 以生成具有公制尺度的密集深度估計。這種方法提供了準確的深度估計,有助於場景重建、映射和對像操作。

結合慣性數據有助於解決尺度歧義。大多數移動設備已經包含慣性測量單元 (IMU)。全局對齊確定適當的全局比例,而密集比例對齊 (SML) 在本地運行並將區域推向或拉向正確的度量深度。 SML 網絡利用 MiDaS 作為編碼器主幹。在模塊化管道中,VI-Depth 將數據驅動的深度估計與 MiDaS 相對深度預測模型以及 IMU 傳感器測量單元相結合。數據源的組合允許 VI-Depth 為圖像中的每個像素生成更可靠的密集度量深度。

MiDaS 3.1VI-Depth 1.0 在開源 MIT 下可用GitHub 上的許可證。

有關詳細信息,請參閱“用於密集預測的視覺轉換器”和“ 實現穩健的單目深度估計:混合數據集以進行零樣本跨數據集傳輸。”

By Henry Taylor

我是後端開發人員。 你們中有些人可能在開發者大會上見過我。 最近我一直在做一個開源項目。