在 AI 生態系統中,擴散模型正在確定技術進步的方向和步伐。它們正在徹底改變我們處理複雜的生成式 AI 任務的方式。這些模型基於高斯原理、方差、微分方程和生成序列的數學。 (我們將在下面解釋技術術語)

由 Nvidia、Google、Adobe 和 OpenAI 開發的現代以 AI 為中心的產品和解決方案已將擴散模型置於聚光燈的中心。 DALL.E 2穩定擴散Midjourney 是最近在互聯網上流行的擴散模型的突出例子。用戶提供一個簡單的文本提示作為輸入,這些模型可以將它們轉換成逼真的圖像,如下圖所示。

使用輸入提示使用 Midjourney v5 生成的圖像:生機勃勃的加州罌粟花。資料來源:中途旅行

讓我們探討擴散模型的基本工作原理以及它們如何改變世界的方向和規範我們今天看到了。

什麼是擴散模型?

根據研究出版物“ Denoising Diffusion Probabilistic Models”,擴散模型定義為:

“擴散模型或概率擴散模型是使用變分推理訓練的參數化馬爾可夫鏈,在有限時間後產生與數據匹配的樣本”

簡而言之,擴散模型可以生成與它們所訓練的數據相似的數據。如果模型在貓的圖像上進行訓練,它可以生成類似逼真的貓圖像。

現在讓我們嘗試分解上面提到的技術定義。擴散模型從概率模型的工作原理和數學基礎中汲取靈感,該模型可以分析和預測系統隨時間變化的行為,例如預測股市回報或大流行病的傳播。

定義指出它們是用變分推理訓練的參數化馬爾可夫鏈。馬爾可夫鍊是定義隨時間在不同狀態之間切換的系統的數學模型。系統的現有狀態只能決定過渡到特定狀態的概率。換句話說,系統的當前狀態包含系統在任何給定時間可以遵循或獲得的可能狀態。

使用變分推理訓練模型涉及復雜的概率分佈計算。它旨在找到與特定時間後觀察到的(已知或實際)數據相匹配的馬爾可夫鏈的確切參數。此過程最小化模型損失函數的值,即預測(未知)和觀察(已知)狀態之間的差異。

經過訓練,模型可以生成與觀察數據匹配的樣本。這些樣本表示系統可能隨時間遵循或獲得的軌跡或狀態,並且每個軌跡都有不同的發生概率。因此,該模型可以通過生成一系列樣本並找到它們各自的概率(這些事件發生的可能性)來預測系統的未來行為。

如何解釋 AI 中的擴散模型?

擴散模型是深度生成模型,其工作原理是將噪聲(高斯噪聲)添加到可用的訓練數據中(也稱為正向擴散過程),然後反轉過程(稱為去噪或反向擴散過程)以恢復數據.模型逐漸學會去除噪聲。這種學習去噪過程從隨機種子(隨機噪聲圖像)生成新的高質量圖像,如下圖所示。

反向擴散過程:對噪聲圖像進行降噪以通過訓練好的擴散模型。來源:Denoising Diffusion Probabilistic Models

3個擴散模型類別

三個基本數學框架支撐擴散模型背後的科學。這三者的工作原理相同,即添加噪聲然後將其移除以生成新樣本。讓我們在下面討論它們。

擴散模型在圖像中添加和去除噪聲。資料來源:視覺中的擴散模型:一項調查

1.去噪擴散概率模型 (DDPM)

如上所述,DDPM 是生成模型,主要用於去除視覺或音頻數據中的噪聲。他們在各種圖像和音頻降噪任務中展示了令人印象深刻的結果。例如,電影製作行業使用現代圖像和視頻處理工具來提高製作質量。

2.基於噪聲條件分數的生成模型 (SGM)

SGM 可以從給定分佈生成新樣本。他們通過學習估計得分函數來工作,該函數可以估計目標分佈的對數密度。對數密度估計假設可用數據點是未知數據集(測試集)的一部分。然後,此評分函數可以從分佈中生成新的數據點。

例如,深度造假因製作名人的虛假視頻和音頻而臭名昭著。但它們主要歸因於生成對抗網絡 (GAN)。然而,SGM 在生成高質量名人面孔方面顯示出類似的能力——有時表現優於。此外,SGM 可以幫助擴展醫療保健數據集,由於嚴格的法規和行業標準,這些數據集不容易大量獲得。

3.隨機微分方程 (SDE)

SDE 描述隨時間變化的隨機過程。它們廣泛應用於涉及對市場結果產生重大影響的隨機因素的物理和金融市場。

例如,商品價格具有高度動態性,並受到一系列隨機因素的影響。 SDE 計算金融衍生品,如期貨合約(如原油合約)。他們可以對波動進行建模並準確計算出有利的價格,從而給人一種安全感。

擴散模型在人工智能中的主要應用

讓我們來看看擴散模型的一些廣泛應用的實踐和應用

高質量視頻生成

使用深度學習創建高端視頻具有挑戰性,因為它需要視頻幀的高度連續性。這就是擴散模型派上用場的地方,因為它們可以生成視頻幀的子集來填充缺失的幀,從而產生沒有延遲的高質量和流暢的視頻。

研究人員開發了 Flexible Diffusion Model and Residual Video Diffusion 技術來達到這個目的。這些模型還可以通過在實際幀之間無縫添加 AI 生成的幀來生成逼真的視頻。

這些模型可以通過在學習來自可用框架的模式。由於幾乎沒有幀丟失,這些框架可以進一步協助基於深度學習的模型從頭開始生成基於 AI 的視頻,這些視頻看起來就像來自高端攝像頭設置的自然鏡頭。

範圍廣泛的卓越 AI 視頻生成器將於 2023 年面世,使視頻內容製作和編輯變得快速而直接。

文本到圖像生成

文本到圖像模型使用輸入提示生成高質量的視頻圖片。例如,輸入“盤子上的紅蘋果”並生成盤子上蘋果的逼真圖像。 混合擴散unCLIP 是此類模型的兩個突出示例,它們可以根據用戶輸入生成高度相關且準確的圖像。

此外,OpenAI 的 GLIDE 是 2021 年發布的另一種廣為人知的解決方案,它使用用戶輸入生成逼真的圖像。隨後,OpenAI 發布了迄今為止最先進的圖像生成模型 DALL.E-2。

同樣,Google 也開發了圖像生成模型 Imagen,它使用大型語言模型對輸入文本進行深入的文本理解,然後生成逼真的圖像。

我們提到了其他流行的圖像生成工具,如 Midjourney和上面的穩定擴散 (DreamStudio)。看看下面使用穩定擴散生成的圖像。

使用 Stable Diffusion 1.5 使用以下提示創建的圖像:“拼貼畫,超現實主義,非常古老的 thom yorke 肖像,面部變化,創作歌手,( side ) 側面、不同年齡、微距鏡頭、邊緣空間,作者:lee bermejo、alphonse mucha 和 greg rutkowski,灰鬍子、光滑的臉、顴骨”

AI 中的擴散模型——未來有何期待?

h2>

擴散模型作為一種從復雜的圖像和視頻數據集生成高質量樣本的穩健方法,顯示出巨大的潛力。通過提高人類使用和操縱數據的能力,擴散模型有可能徹底改變我們今天看到的世界。我們可以期待看到擴散模型的更多應用成為我們日常生活中不可或缺的一部分。

儘管如此,擴散模型並不是唯一的生成 AI 技術。研究人員還使用生成對抗網絡 (GAN)、變分自動編碼器和基於流的深度生成模型來生成 AI 內容。了解將擴散模型與其他生成模型區分開來的基本特徵有助於在未來幾天產生更有效的解決方案。

By Maxwell Gaven

我在 IT 行業工作了 7 年。 觀察 IT 行業的不斷變化很有趣。 IT 是我的工作、愛好和生活。