I modelli IA open source VI-Depth 1.0 e MiDaS 3.1 migliorano la stima della profondità per la visione artificiale.
La stima della profondità è un’attività impegnativa di visione artificiale necessaria per creare un’ampia gamma di applicazioni in robotica, realtà aumentata (AR) e realtà virtuale (VR). Le soluzioni esistenti spesso faticano a stimare correttamente le distanze, che è un aspetto cruciale per aiutare a pianificare il movimento ed evitare gli ostacoli quando si tratta di navigazione visiva. I ricercatori degli Intel Labs stanno affrontando questo problema rilasciando due modelli AI per la stima della profondità monoculare: uno per la stima della profondità visiva-inerziale e uno per la stima della profondità relativa robusta (RDE).
L’ultimo modello RDE, versione MiDaS 3.1, prevede una profondità relativa robusta utilizzando solo una singola immagine come input. Grazie alla sua formazione su un set di dati ampio e diversificato, può eseguire in modo efficiente una gamma più ampia di attività e ambienti. L’ultima versione di MiDaS migliora la precisione del modello per RDE di circa il 30% con il suo set di addestramento più ampio e i backbone del codificatore aggiornati.
MiDaS è stato incorporato in molti progetti, in particolare Stable Diffusion 2.0, dove abilita la funzione depth-to-image che deduce la profondità di un’immagine di input e quindi genera nuove immagini utilizzando sia il testo che le informazioni di profondità. Ad esempio, il creatore digitale Scottie Fox ha utilizzato una combinazione di Stable Diffusion e MiDaS per creare un ambiente VR a 360 gradi. Questa tecnologia potrebbe portare a nuove applicazioni virtuali, tra cui la ricostruzione della scena del crimine per casi giudiziari, ambienti terapeutici per l’assistenza sanitaria ed esperienze di gioco immersive.
Sebbene RDE abbia una buona generalizzabilità ed è utile, la mancanza di scala ne riduce l’utilità per attività a valle che richiedono una profondità metrica, come la mappatura, la pianificazione, la navigazione, il riconoscimento di oggetti, la ricostruzione 3D e l’editing di immagini. I ricercatori di Intel Labs stanno affrontando questo problema rilasciando VI-Depth, un altro modello di intelligenza artificiale che fornisce una stima accurata della profondità.
VI-Depth è una pipeline di stima della profondità visivo-inerziale che integra la stima della profondità monoculare e visiva-inerziale odometria (VIO) per produrre stime di profondità dense con una scala metrica. Questo approccio fornisce una stima accurata della profondità, che può aiutare nella ricostruzione della scena, nella mappatura e nella manipolazione degli oggetti.
L’incorporazione di dati inerziali può aiutare a risolvere l’ambiguità di scala. La maggior parte dei dispositivi mobili contiene già unità di misura inerziale (IMU). L’allineamento globale determina la scala globale appropriata, mentre l’allineamento della scala densa (SML) opera localmente e spinge o trascina le regioni verso la profondità metrica corretta. La rete SML sfrutta MiDaS come spina dorsale del codificatore. Nella pipeline modulare, VI-Depth combina la stima della profondità basata sui dati con il modello di previsione della profondità relativa MiDaS, insieme all’unità di misurazione del sensore IMU. La combinazione di origini dati consente a VI-Depth di generare una profondità metrica densa più affidabile per ogni pixel in un’immagine.
MiDaS 3.1 e VI-Depth 1.0 sono disponibili sotto un MIT open source licenza su GitHub.
Per ulteriori informazioni, fare riferimento a”Vision Transformers for Dense Prediction“e”Verso una solida stima monoculare della profondità: miscelazione di set di dati per il trasferimento di set di dati incrociati senza scatti.”