Os modelos de IA de código aberto VI-Depth 1.0 e MiDaS 3.1 melhoram a estimativa de profundidade para visão computacional.
A estimativa de profundidade é uma tarefa desafiadora de visão computacional necessária para criar uma ampla gama de aplicações em robótica, realidade aumentada (AR) e realidade virtual (VR). As soluções existentes muitas vezes lutam para estimar corretamente as distâncias, o que é um aspecto crucial para ajudar a planejar o movimento e evitar obstáculos quando se trata de navegação visual. Pesquisadores do Intel Labs estão abordando esse problema lançando dois modelos de IA para estimativa de profundidade monocular: um para estimativa de profundidade visual inercial e outro para estimativa robusta de profundidade relativa (RDE).
O modelo RDE mais recente, versão MiDaS 3.1, prevê uma profundidade relativa robusta usando apenas uma única imagem como entrada. Devido ao seu treinamento em um conjunto de dados grande e diversificado, ele pode executar com eficiência uma ampla gama de tarefas e ambientes. A versão mais recente do MiDaS melhora a precisão do modelo para RDE em cerca de 30% com seu conjunto de treinamento maior e backbones de codificador atualizados.
O MiDaS foi incorporado a muitos projetos, principalmente o Stable Diffusion 2.0, onde permite o recurso de profundidade para imagem que infere a profundidade de uma imagem de entrada e gera novas imagens usando o texto e informações de profundidade. Por exemplo, o criador digital Scottie Fox usou uma combinação de Difusão estável e MiDaS para criar um ambiente VR de 360 graus. Essa tecnologia pode levar a novos aplicativos virtuais, incluindo a reconstrução da cena do crime para processos judiciais, ambientes terapêuticos para cuidados com a saúde e experiências de jogos imersivas.
Embora o RDE tenha boa capacidade de generalização e seja útil, a falta de escala diminui sua utilidade para tarefas downstream que requerem profundidade métrica, como mapeamento, planejamento, navegação, reconhecimento de objetos, reconstrução 3D e edição de imagens. Pesquisadores do Intel Labs estão abordando esse problema lançando o VI-Depth, outro modelo de IA que fornece estimativa de profundidade precisa.
VI-Depth é um pipeline de estimativa de profundidade visual inercial que integra estimativa de profundidade monocular e visual inercial odometry (VIO) para produzir estimativas de profundidade densa com uma escala métrica. Essa abordagem fornece estimativa de profundidade precisa, o que pode ajudar na reconstrução da cena, mapeamento e manipulação de objetos.
A incorporação de dados inerciais pode ajudar a resolver a ambiguidade da escala. A maioria dos dispositivos móveis já contém unidades de medida inercial (IMUs). O alinhamento global determina a escala global apropriada, enquanto o alinhamento de escala densa (SML) opera localmente e empurra ou puxa regiões para a profundidade métrica correta. A rede SML aproveita o MiDaS como um backbone de codificador. No pipeline modular, o VI-Depth combina a estimativa de profundidade baseada em dados com o modelo de previsão de profundidade relativa MiDaS, juntamente com a unidade de medição do sensor IMU. A combinação de fontes de dados permite que o VI-Depth gere profundidade métrica densa mais confiável para cada pixel em uma imagem.
MiDaS 3.1 e VI-Depth 1.0 estão disponíveis sob um MIT de código aberto licença no GitHub.
Para mais informações, consulte “Vision Transformers for Dense Prediction” e “ Rumo a uma estimativa de profundidade monocular robusta: misturando conjuntos de dados para transferência entre conjuntos de dados zero-shot.”