Los modelos de IA de código abierto VI-Depth 1.0 y MiDaS 3.1 mejoran la estimación de profundidad para la visión artificial.

La estimación de profundidad es una tarea de visión artificial desafiante que se requiere para crear una amplia gama de aplicaciones en robótica, realidad aumentada (AR) y realidad virtual (VR). Las soluciones existentes a menudo tienen dificultades para estimar correctamente las distancias, lo cual es un aspecto crucial para ayudar a planificar el movimiento y evitar obstáculos cuando se trata de navegación visual. Los investigadores de Intel Labs están abordando este problema mediante el lanzamiento de dos modelos de IA para la estimación de la profundidad monocular: uno para la estimación de la profundidad visual e inercial y otro para la estimación sólida de la profundidad relativa (RDE).

El modelo RDE más reciente, la versión MiDaS 3.1, predice una profundidad relativa robusta usando solo una imagen como entrada. Debido a su entrenamiento en un conjunto de datos grande y diverso, puede desempeñarse de manera eficiente en una gama más amplia de tareas y entornos. La última versión de MiDaS mejora la precisión del modelo para RDE en aproximadamente un 30 % con su conjunto de entrenamiento más grande y codificadores actualizados.

MiDaS se ha incorporado en muchos proyectos, más notablemente Stable Diffusion 2.0, donde habilita la función de profundidad de imagen que infiere la profundidad de una imagen de entrada y luego genera nuevas imágenes utilizando tanto el texto como la información de profundidad. Por ejemplo, el creador digital Scottie Fox usó una combinación de Stable Diffusion y MiDaS para crear un entorno de realidad virtual de 360 ​​grados. Esta tecnología podría conducir a nuevas aplicaciones virtuales, incluida la reconstrucción de la escena del crimen para casos judiciales, entornos terapéuticos para la atención médica y experiencias de juego inmersivas.

Si bien RDE tiene una buena capacidad de generalización y es útil, la falta de escala disminuye su utilidad para tareas posteriores que requieren profundidad métrica, como mapeo, planificación, navegación, reconocimiento de objetos, reconstrucción 3D y edición de imágenes. Los investigadores de Intel Labs están abordando este problema con el lanzamiento de VI-Depth, otro modelo de IA que proporciona una estimación de profundidad precisa.

VI-Depth es una canalización de estimación de profundidad de inercia visual que integra la estimación de profundidad monocular y la inercia visual. odometría (VIO) para producir estimaciones densas de profundidad con una escala métrica. Este enfoque proporciona una estimación precisa de la profundidad, lo que puede ayudar en la reconstrucción de la escena, el mapeo y la manipulación de objetos.

La incorporación de datos inerciales puede ayudar a resolver la ambigüedad de la escala. La mayoría de los dispositivos móviles ya contienen unidades de medida inerciales (IMU). La alineación global determina la escala global apropiada, mientras que la alineación de escala densa (SML) opera localmente y empuja o tira de las regiones hacia la profundidad métrica correcta. La red SML aprovecha MiDaS como columna vertebral del codificador. En la tubería modular, VI-Depth combina la estimación de profundidad basada en datos con el modelo de predicción de profundidad relativa MiDaS, junto con la unidad de medición del sensor IMU. La combinación de fuentes de datos permite que VI-Depth genere una profundidad métrica densa más confiable para cada píxel en una imagen.

MiDaS 3.1 y VI-Depth 1.0 están disponibles bajo un MIT de código abierto licencia en GitHub.

Para obtener más información, consulte “Vision Transformers for Dense Prediction” y “ Hacia una estimación robusta de profundidad monocular: mezcla de conjuntos de datos para la transferencia de conjuntos de datos cruzados de tiro cero.”

By Kaitlynn Clay

Trabajo como experto en UX. Me interesan el diseño web y el análisis del comportamiento del usuario. En mis días libres, siempre visito el museo de arte.