En el ecosistema de IA, los modelos de difusión están marcando la dirección y el ritmo del avance tecnológico. Están revolucionando la forma en que abordamos tareas complejas de IA generativa. Estos modelos se basan en las matemáticas de los principios gaussianos, la varianza, las ecuaciones diferenciales y las secuencias generativas. (Explicaremos la jerga técnica a continuación)
Los productos y soluciones modernos centrados en la IA desarrollados por Nvidia, Google, Adobe y OpenAI han puesto los modelos de difusión en el centro de atención. DALL.E 2, Difusión estable y Midjourney son ejemplos destacados de modelos de difusión que están dando vueltas recientemente en Internet. Los usuarios proporcionan un mensaje de texto simple como entrada y estos modelos pueden convertirlos en imágenes realistas, como la que se muestra a continuación.
Una imagen generada con Midjourney v5 usando el mensaje de entrada: vibrantes amapolas de California. Fuente: Midjourney
Exploremos los principios fundamentales de funcionamiento de los modelos de difusión y cómo están cambiando las direcciones y normas del mundo a medida que lo vemos hoy.
¿Qué son los modelos de difusión?
Según la publicación de investigación “ Modelos probabilísticos de difusión sin ruido”, los modelos de difusión se definen como:
“Un modelo de difusión o modelo de difusión probabilística es una cadena de Markov parametrizada entrenada mediante inferencia variacional para producir muestras que coincidan con los datos después de un tiempo finito ”
En pocas palabras, los modelos de difusión pueden generar datos similares a aquellos en los que están entrenados. Si el modelo se entrena con imágenes de gatos, puede generar imágenes realistas similares de gatos.
Ahora intentemos desglosar la definición técnica mencionada anteriormente. Los modelos de difusión se inspiran en el principio de funcionamiento y la base matemática de un modelo probabilístico que puede analizar y predecir el comportamiento de un sistema que varía con el tiempo, como predecir el rendimiento del mercado de valores o la propagación de la pandemia.
La definición establece que son cadenas de Markov parametrizadas entrenadas con inferencia variacional. Las cadenas de Markov son modelos matemáticos que definen un sistema que cambia entre diferentes estados a lo largo del tiempo. El estado existente del sistema solo puede determinar la probabilidad de transición a un estado específico. En otras palabras, el estado actual de un sistema contiene los posibles estados que un sistema puede seguir o adquirir en un momento dado.
Entrenar el modelo usando inferencia variacional involucra cálculos complejos para distribuciones de probabilidad. Su objetivo es encontrar los parámetros exactos de la cadena de Markov que coincidan con los datos observados (conocidos o reales) después de un tiempo específico. Este proceso minimiza el valor de la función de pérdida del modelo, que es la diferencia entre el estado predicho (desconocido) y observado (conocido).
Una vez entrenado, el modelo puede generar muestras que coincidan con los datos observados. Estas muestras representan posibles trayectorias o indican que el sistema podría seguir o adquirir con el tiempo, y cada trayectoria tiene una probabilidad diferente de suceder. Por lo tanto, el modelo puede predecir el comportamiento futuro del sistema generando un rango de muestras y encontrando sus respectivas probabilidades (probabilidad de que estos eventos sucedan).
¿Cómo interpretar los modelos de difusión en IA?
Los modelos de difusión son modelos generativos profundos que funcionan agregando ruido (ruido gaussiano) a los datos de entrenamiento disponibles (también conocido como proceso de difusión directa) y luego invirtiendo el proceso (conocido como eliminación de ruido o proceso de difusión inversa) para recuperar los datos. El modelo aprende gradualmente a eliminar el ruido. Este proceso de eliminación de ruido aprendido genera imágenes nuevas de alta calidad a partir de semillas aleatorias (imágenes con ruido aleatorio), como se muestra en la siguiente ilustración.
Proceso de difusión inversa: se elimina el ruido de una imagen para recuperar la imagen original (o generar sus variaciones) mediante un modelo de difusión entrenado. Fuente: Modelos probabilísticos de difusión de eliminación de ruido
3 categorías de modelos de difusión
Hay tres marcos matemáticos fundamentales que sustentan la ciencia detrás de los modelos de difusión. Los tres funcionan con los mismos principios de agregar ruido y luego eliminarlo para generar nuevas muestras. Discutámoslos a continuación.
Un modelo de difusión agrega y elimina ruido de una imagen. Fuente: Modelos de difusión en la visión: una encuesta
1. Modelos probabilísticos de difusión de eliminación de ruido (DDPM)
Como se explicó anteriormente, los DDPM son modelos generativos que se utilizan principalmente para eliminar el ruido de los datos visuales o de audio. Han mostrado resultados impresionantes en varias tareas de eliminación de ruido de imagen y audio. Por ejemplo, la industria cinematográfica utiliza herramientas modernas de procesamiento de imágenes y videos para mejorar la calidad de la producción.
2. Modelos generativos basados en puntajes condicionados por ruido (SGM)
Los SGM pueden generar nuevas muestras a partir de una distribución dada. Funcionan mediante el aprendizaje de una función de puntuación de estimación que puede estimar la densidad logarítmica de la distribución objetivo. La estimación de la densidad de registro hace suposiciones para los puntos de datos disponibles de que es parte de un conjunto de datos desconocido (conjunto de prueba). Esta función de puntaje puede generar nuevos puntos de datos a partir de la distribución.
Por ejemplo, las falsificaciones profundas son conocidas por producir videos y audios falsos de personalidades famosas. Pero en su mayoría se atribuyen a las redes adversarias generativas (GAN). Sin embargo, los SGM han mostrado capacidades similares (a veces superadas) en la generación de rostros de celebridades de alta calidad. Además, los SGM pueden ayudar a expandir los conjuntos de datos de atención médica, que no están disponibles en grandes cantidades debido a las estrictas normas y estándares de la industria.
3. Las ecuaciones diferenciales estocásticas (SDE)
SDE describen cambios en procesos aleatorios relacionados con el tiempo. Son ampliamente utilizados en la física y los mercados financieros que involucran factores aleatorios que afectan significativamente los resultados del mercado.
Por ejemplo, los precios de los productos básicos son muy dinámicos y se ven afectados por una variedad de factores aleatorios. Las SDE calculan derivados financieros como contratos de futuros (como contratos de petróleo crudo). Pueden modelar las fluctuaciones y calcular precios favorables con precisión para dar una sensación de seguridad.
Aplicaciones principales de los modelos de difusión en IA
Veamos algunas prácticas y usos ampliamente adaptados de los modelos de difusión en IA.
Generación de video de alta calidad
La creación de videos de alta calidad mediante el aprendizaje profundo es un desafío, ya que requiere una alta continuidad de los cuadros de video. Aquí es donde los modelos de difusión resultan útiles, ya que pueden generar un subconjunto de fotogramas de vídeo para rellenar los fotogramas que faltan, lo que da como resultado vídeos fluidos y de alta calidad sin latencia.
Los investigadores han desarrollado el Modelo de difusión flexible y técnicas de difusión de video residual para cumplir este propósito. Estos modelos también pueden producir videos realistas agregando sin problemas cuadros generados por IA entre los cuadros reales.
Estos modelos pueden simplemente extender los FPS (cuadros por segundo) de un video de FPS bajo agregando cuadros ficticios después de aprender el patrones de marcos disponibles. Casi sin pérdida de fotogramas, estos marcos pueden ayudar aún más a los modelos basados en aprendizaje profundo para generar videos basados en IA desde cero que parecen tomas naturales de configuraciones de cámara de gama alta.
Una amplia gama de videos de IA extraordinarios generadores está disponible en 2023 para hacer que la producción y edición de contenido de video sea rápida y sencilla.
Generación de texto a imagen
Los modelos de texto a imagen usan indicaciones de entrada para generar contenido de alta calidad. imágenes Por ejemplo, dar entrada”manzana roja en un plato”y producir una imagen fotorrealista de una manzana en un plato. Difusión combinada y unCLIP son dos ejemplos destacados de tales modelos que pueden generar imágenes altamente relevantes y precisas basadas en la entrada del usuario.
Además, GLIDE de OpenAI es otra solución ampliamente conocida lanzada en 2021 que produce imágenes fotorrealistas utilizando la entrada del usuario. Más tarde, OpenAI lanzó DALL.E-2, su modelo de generación de imágenes más avanzado hasta el momento.
Del mismo modo, Google también desarrolló un modelo de generación de imágenes conocido como Imagen, que utiliza un modelo de lenguaje grande para desarrollar una comprensión textual profunda del texto de entrada y luego genera imágenes fotorrealistas.
Hemos mencionado otras herramientas populares de generación de imágenes como Midjourney y Stable Diffusion (DreamStudio) arriba. Eche un vistazo a una imagen generada con Stable Diffusion a continuación.
Una imagen creada con Stable Diffusion 1.5 con el siguiente mensaje: “collages, hiperrealista, muchas variaciones retrato del muy viejo thom yorke, variaciones faciales, cantautor, ( lado ) perfil, varias edades, lente macro, espacio liminal, por lee bermejo, alphonse mucha y greg rutkowski, barba gris, cara lisa, pómulos”
Modelos de difusión en IA: ¿qué esperar en el futuro?
Los modelos de difusión han revelado un potencial prometedor como un enfoque sólido para generar muestras de alta calidad a partir de conjuntos de datos de imágenes y videos complejos. Al mejorar la capacidad humana para usar y manipular datos, los modelos de difusión pueden revolucionar potencialmente el mundo tal como lo vemos hoy. Podemos esperar ver aún más aplicaciones de modelos de difusión que se conviertan en una parte integral de nuestra vida diaria.
Dicho esto, los modelos de difusión no son la única técnica de IA generativa. Los investigadores también utilizan redes adversas generativas (GAN), codificadores automáticos variacionales y modelos generativos profundos basados en flujo para generar contenido de IA. Comprender las características fundamentales que diferencian los modelos de difusión de otros modelos generativos puede ayudar a producir soluciones más efectivas en los próximos días.