卡內基梅隆大學機器人研究所的研究人員開發了一種名為 FRIDA 的工具,它是一個附有畫筆的機械臂。該工具利用人工智能 (AI) 與人類合作開展藝術項目。
這項研究由 Schalderbrand 以及 RI 教員 Jean Oh 和 Jim McCaam 領導,它吸引了來自 CMU 各地的學生和研究人員。
Collaborative Tool Not Artist
用戶可以通過輸入文字描述、提交其他藝術作品來激發其風格或上傳照片並要求其繪製代表來指導 FRIDA它的。該團隊還在測試其他輸入,例如音頻。
“FRIDA 是一個機器人繪畫系統,但 FRIDA 不是藝術家,”Schalderbrand 繼續說道。 “FRIDA 並沒有產生交流的想法。 FRIDA 是一個藝術家可以與之合作的系統。藝術家可以為 FRIDA 指定高級目標,然後 FRIDA 可以執行它們。”
為了繪製圖像,機器人使用的 AI 模型與支持 OpenAI 的 ChatGPT 和 DALL-E 2 的模型相當,後者根據提示生成文本或圖像。 FRIDA 模擬它如何用筆觸繪製圖像,並利用機器學習來評估其工作進度。
FRIDA 的最終產品是異想天開和印象派的。筆觸大膽,缺乏機器人工作中經常尋求的精確度。
“FRIDA 是一個探索人類和機器人創造力交集的項目,”McCann 補充道。 “Frida 正在使用已開發的 AI 模型來處理圖像說明和理解場景內容,並將其應用於這個藝術生成問題。”
FRIDA 在其開發過程中多次使用 AI 和機器學習藝術創作過程。首先,它會花一個小時或更長時間學習如何使用畫筆。然後,它採用視覺語言模型,這些模型已經在龐大的數據集上訓練,將文本和從互聯網上抓取的圖像配對,例如 OpenAI 的對比語言圖像預訓練 (CLIP),以理解輸入。
製作物理圖像的最重大技術挑戰之一是減少模擬與真實的差距,這是 FRIDA 在模擬中創建的內容與它在畫布上繪製的內容之間的差異。 FRIDA 使用一種稱為 real2sim2real 的想法,其中機器人的實際筆觸用於訓練模擬器以反映和模仿機器人和繪畫材料的物理能力。
FRIDA 的團隊現在旨在解決一些問題通過不斷改進他們使用的模型來消除當前大型視覺語言模型的局限性。他們從新聞文章中為模型提供標題,讓他們了解世界上正在發生的事情,並進一步訓練他們使用更能代表不同文化的圖像和文本,以避免美國或西方的偏見。