英特爾實驗室通過兩種新的 AI 模型推進計算機視覺開發

VI-Depth 1.0 和 MiDaS 3.1 開源 AI 模型改進了計算機視覺的深度估計。

深度估計是一項具有挑戰性的計算機視覺任務，需要在機器人技術、增強現實 (AR) 和虛擬現實 (VR) 中創建廣泛的應用程序。現有的解決方案往往難以正確估計距離，而這是在視覺導航方面幫助規劃運動和避開障礙物的關鍵方面。英特爾實驗室的研究人員正在通過發布兩種用於單眼深度估計的 AI 模型來解決這個問題:一種用於視覺慣性深度估計，一種用於穩健的相對深度估計 (RDE)。

最新的 RDE 模型，MiDaS 版本3.1，僅使用單個圖像作為輸入來預測穩健的相對深度。由於其在大型和多樣化的數據集上進行訓練，它可以在更廣泛的任務和環境中有效地執行。最新版本的 MiDaS 通過其更大的訓練集和更新的編碼器骨干將 RDE 的模型精度提高了約 30%。

MiDaS 已被納入許多項目，最著名的是 Stable Diffusion 2.0，它啟用了深度到圖像功能，推斷輸入圖像的深度，然後生成新圖像同時使用文本和深度信息。例如，數字創作者 Scottie Fox 使用了Stable Diffusion 和 MiDaS 可創建 360 度 VR 環境。這項技術可能會帶來新的虛擬應用，包括法庭案件的犯罪現場重建、醫療保健的治療環境和身臨其境的遊戲體驗。

雖然 RDE 具有良好的通用性和實用性，但規模的缺乏降低了它的實用性需要度量深度的下游任務，例如映射、規劃、導航、對象識別、3D 重建和圖像編輯。英特爾實驗室的研究人員正在通過發布 VI-Depth 來解決這個問題，VI-Depth 是另一種提供準確深度估計的 AI 模型。

VI-Depth 是一種視覺慣性深度估計管道，它集成了單目深度估計和視覺慣性里程計 (VIO) 以生成具有公制尺度的密集深度估計。這種方法提供了準確的深度估計，有助於場景重建、映射和對像操作。

結合慣性數據有助於解決尺度歧義。大多數移動設備已經包含慣性測量單元 (IMU)。全局對齊確定適當的全局比例，而密集比例對齊 (SML) 在本地運行並將區域推向或拉向正確的度量深度。 SML 網絡利用 MiDaS 作為編碼器主幹。在模塊化管道中，VI-Depth 將數據驅動的深度估計與 MiDaS 相對深度預測模型以及 IMU 傳感器測量單元相結合。數據源的組合允許 VI-Depth 為圖像中的每個像素生成更可靠的密集度量深度。

MiDaS 3.1 和 VI-Depth 1.0 在開源 MIT 下可用GitHub 上的許可證。

有關詳細信息，請參閱“用於密集預測的視覺轉換器”和“ 實現穩健的單目深度估計:混合數據集以進行零樣本跨數據集傳輸。”

英特爾實驗室通過兩種新的 AI 模型推進計算機視覺開發

ByHenry Taylor

By Henry Taylor

Related Post

今天可以買到的 550 美元以下的 5 款最佳筆記本電腦

華碩 ROG Ally 遊戲手持設備（可能）採用 Steam Deck

Stuff 會見獲得 BAFTA 獎的獨立開發者 Andrew Shouldice

You missed

Shokz OpenSwim 評論 2023:不錯的音頻性能

如何將 JavaScript 添加到 WordPress

如何減少 Chrome 內存使用

Skullcandy Jib 特價:比標價低 14% $31.99