ในระบบนิเวศของ AI แบบจำลองการแพร่กระจายกำลังกำหนดทิศทางและก้าวของความก้าวหน้าทางเทคโนโลยี พวกเขากำลังปฏิวัติวิธีที่เราเข้าใกล้งาน AI เชิงกำเนิดที่ซับซ้อน โมเดลเหล่านี้อิงตามคณิตศาสตร์ของหลักการเกาส์เซียน ความแปรปรวน สมการเชิงอนุพันธ์ และลำดับการกำเนิด (เราจะอธิบายศัพท์แสงทางเทคนิคด้านล่าง)
ผลิตภัณฑ์และโซลูชันที่เน้น AI ที่ทันสมัยซึ่งพัฒนาโดย Nvidia, Google, Adobe และ OpenAI ได้วางโมเดลการแพร่กระจายไว้ตรงกลางของไฟแก็ซ DALL.E 2, การแพร่กระจายที่เสถียร และ Midjourney เป็นตัวอย่างที่เด่นชัดของโมเดลการแพร่กระจายที่กำลังแพร่หลายบนอินเทอร์เน็ตเมื่อเร็วๆ นี้ ผู้ใช้เตรียมข้อความง่ายๆ เป็นอินพุต และโมเดลเหล่านี้สามารถแปลงเป็นภาพจริงได้ เช่น ภาพที่แสดงด้านล่าง
ภาพที่สร้างด้วย Midjourney v5 โดยใช้อินพุต: ดอกป๊อปปี้แคลิฟอร์เนียสีสันสดใส ที่มา: กลางการเดินทาง
มาสำรวจหลักการทำงานพื้นฐานของแบบจำลองการแพร่กระจายและวิธีที่พวกมันเปลี่ยนทิศทางและบรรทัดฐานของโลกในฐานะ เราเห็นในวันนี้
แบบจำลองการแพร่กระจายคืออะไร
อ้างอิงจากเอกสารเผยแพร่งานวิจัย “ แบบจำลองความน่าจะเป็นการแพร่กระจายแบบดีนัวส์” แบบจำลองการแพร่กระจายถูกกำหนดเป็น:
“แบบจำลองการแพร่กระจายหรือแบบจำลองการแพร่กระจายแบบความน่าจะเป็นคือเชนมาร์คอฟแบบกำหนดพารามิเตอร์ที่ได้รับการฝึกฝนโดยใช้การอนุมานแบบแปรผันเพื่อสร้างตัวอย่างที่ตรงกับข้อมูลหลังจากเวลาจำกัด ”
พูดง่ายๆ ก็คือ โมเดลการแพร่กระจายสามารถสร้างข้อมูลที่คล้ายกับโมเดลที่ได้รับการฝึกฝน หากโมเดลฝึกภาพแมว ก็จะสร้างภาพแมวที่เหมือนจริงได้เหมือนกัน
ตอนนี้เราจะมาแจกแจงคำจำกัดความทางเทคนิคที่กล่าวถึงข้างต้น แบบจำลองการแพร่กระจายได้รับแรงบันดาลใจจากหลักการทำงานและพื้นฐานทางคณิตศาสตร์ของแบบจำลองความน่าจะเป็นที่สามารถวิเคราะห์และทำนายพฤติกรรมของระบบที่เปลี่ยนแปลงไปตามเวลา เช่น การทำนายผลตอบแทนของตลาดหุ้นหรือการแพร่กระจายของโรคระบาด
คำนิยามระบุ ว่าพวกมันเป็นเชนมาร์คอฟแบบกำหนดพารามิเตอร์ที่ได้รับการฝึกฝนด้วยการอนุมานแบบผันแปร Markov chain เป็นแบบจำลองทางคณิตศาสตร์ที่กำหนดระบบที่สลับไปมาระหว่างสถานะต่างๆ เมื่อเวลาผ่านไป สถานะที่มีอยู่ของระบบสามารถกำหนดความน่าจะเป็นของการเปลี่ยนไปสู่สถานะเฉพาะเท่านั้น กล่าวอีกนัยหนึ่ง สถานะปัจจุบันของระบบถือเป็นสถานะที่เป็นไปได้ที่ระบบสามารถติดตามหรือได้มาในเวลาใดก็ตาม
การฝึกแบบจำลองโดยใช้การอนุมานแบบผันแปรเกี่ยวข้องกับการคำนวณที่ซับซ้อนสำหรับการแจกแจงความน่าจะเป็น มีจุดมุ่งหมายเพื่อค้นหาพารามิเตอร์ที่แน่นอนของห่วงโซ่มาร์คอฟที่ตรงกับข้อมูลที่สังเกต (ทราบหรือจริง) หลังจากเวลาที่กำหนด กระบวนการนี้ลดค่าของฟังก์ชันการสูญเสียของโมเดลให้เหลือน้อยที่สุด ซึ่งเป็นความแตกต่างระหว่างสถานะที่คาดการณ์ (ไม่ทราบ) และสถานะที่สังเกตได้ (ทราบ)
เมื่อผ่านการฝึกอบรมแล้ว แบบจำลองสามารถสร้างตัวอย่างที่ตรงกับข้อมูลที่สังเกตได้ ตัวอย่างเหล่านี้แสดงถึงเส้นทางที่เป็นไปได้หรือสถานะที่ระบบสามารถติดตามหรือได้รับเมื่อเวลาผ่านไป และแต่ละเส้นทางมีความน่าจะเป็นที่จะเกิดขึ้นแตกต่างกัน ดังนั้น แบบจำลองสามารถทำนายพฤติกรรมในอนาคตของระบบได้โดยการสร้างกลุ่มตัวอย่างและค้นหาความน่าจะเป็นตามลำดับ (แนวโน้มของเหตุการณ์เหล่านี้ที่จะเกิดขึ้น)
จะตีความแบบจำลองการแพร่กระจายใน AI ได้อย่างไร
แบบจำลองการแพร่กระจายเป็นแบบจำลองการกำเนิดเชิงลึกที่ทำงานโดยการเพิ่มสัญญาณรบกวน (สัญญาณรบกวนแบบเกาส์เซียน) ให้กับข้อมูลการฝึกอบรมที่มีอยู่ (หรือที่เรียกว่ากระบวนการการแพร่กระจายไปข้างหน้า) จากนั้นย้อนกลับกระบวนการ (เรียกว่า denoising หรือกระบวนการการแพร่กระจายแบบย้อนกลับ) เพื่อกู้คืนข้อมูล. โมเดลค่อยๆ เรียนรู้ที่จะลบเสียงรบกวน กระบวนการ denoising ที่เรียนรู้นี้จะสร้างภาพใหม่ที่มีคุณภาพสูงจากเมล็ดพันธุ์แบบสุ่ม (ภาพสุ่มที่มีสัญญาณรบกวน) ดังที่แสดงในภาพประกอบด้านล่าง
กระบวนการแพร่ย้อนกลับ: ภาพที่มีสัญญาณรบกวนจะถูกลดสัญญาณรบกวนเพื่อกู้คืนภาพต้นฉบับ (หรือสร้างรูปแบบต่างๆ) ผ่าน แบบจำลองการแพร่กระจายที่ได้รับการฝึกฝน แหล่งที่มา: แบบจำลองความน่าจะเป็นของการแพร่ของ Denoising
3 หมวดหมู่ของแบบจำลองการแพร่กระจาย
มี กรอบพื้นฐานทางคณิตศาสตร์สามกรอบที่สนับสนุนวิทยาศาสตร์ที่อยู่เบื้องหลังแบบจำลองการแพร่กระจาย ทั้งสามทำงานบนหลักการเดียวกันในการเพิ่มเสียงรบกวนแล้วลบออกเพื่อสร้างตัวอย่างใหม่ มาพูดคุยกันด้านล่าง
แบบจำลองการแพร่กระจายจะเพิ่มและลบสัญญาณรบกวนออกจากภาพ ที่มา: แบบจำลองการแพร่กระจายในการมองเห็น: การสำรวจ
1. Denoising Diffusion Probabilistic Models (DDPM)
ตามที่อธิบายไว้ข้างต้น DDPM เป็นแบบจำลองเชิงกำเนิดที่ใช้เป็นหลักในการขจัดสัญญาณรบกวนจากข้อมูลภาพหรือเสียง พวกเขาได้แสดงผลลัพธ์ที่น่าประทับใจในงาน denoising ภาพและเสียงต่างๆ ตัวอย่างเช่น อุตสาหกรรมการสร้างภาพยนตร์ใช้เครื่องมือประมวลผลภาพและวิดีโอที่ทันสมัยเพื่อปรับปรุงคุณภาพการผลิต
2. โมเดลกำเนิดคะแนนตามสภาพเสียง (SGM)
SGM สามารถสร้างตัวอย่างใหม่จากการแจกแจงที่กำหนด พวกเขาทำงานโดยการเรียนรู้ฟังก์ชันคะแนนการประเมินที่สามารถประเมินความหนาแน่นของบันทึกของการกระจายเป้าหมาย การประมาณค่าความหนาแน่นของล็อกสร้างสมมติฐานสำหรับจุดข้อมูลที่มีอยู่ซึ่งเป็นส่วนหนึ่งของชุดข้อมูลที่ไม่รู้จัก (ชุดทดสอบ) จากนั้น ฟังก์ชันคะแนนนี้สามารถสร้างจุดข้อมูลใหม่จากการเผยแพร่
ตัวอย่างเช่น การปลอมแปลงที่มีชื่อเสียงโด่งดังในการผลิตวิดีโอปลอมและไฟล์เสียงของบุคคลที่มีชื่อเสียง แต่ส่วนใหญ่มาจาก Generative Adversarial Networks (GANs) อย่างไรก็ตาม SGM แสดงความสามารถที่คล้ายคลึงกัน ซึ่งบางครั้งก็มีประสิทธิภาพดีกว่าในการสร้างใบหน้าคนดังคุณภาพสูง นอกจากนี้ SGM ยังช่วยขยายชุดข้อมูลด้านการดูแลสุขภาพซึ่งไม่พร้อมใช้งานในปริมาณมากเนื่องจากกฎระเบียบที่เข้มงวดและมาตรฐานอุตสาหกรรม
3. สมการเชิงอนุพันธ์สุ่ม (SDE)
SDE อธิบายการเปลี่ยนแปลงในกระบวนการสุ่มที่เกี่ยวข้องกับเวลา มีการใช้กันอย่างแพร่หลายในฟิสิกส์และตลาดการเงินที่เกี่ยวข้องกับปัจจัยสุ่มที่ส่งผลต่อผลลัพธ์ของตลาดอย่างมีนัยสำคัญ
ตัวอย่างเช่น ราคาของสินค้าโภคภัณฑ์มีไดนามิกสูงและได้รับผลกระทบจากปัจจัยสุ่มต่างๆ SDE คำนวณอนุพันธ์ทางการเงิน เช่น สัญญาซื้อขายล่วงหน้า (เช่น สัญญาน้ำมันดิบ) พวกเขาสามารถจำลองความผันผวนและคำนวณราคาที่เหมาะสมได้อย่างแม่นยำเพื่อให้ความรู้สึกปลอดภัย
การประยุกต์ใช้แบบจำลองการแพร่กระจายที่สำคัญใน AI
มาดูแนวทางปฏิบัติและการใช้แบบจำลองการแพร่กระจายที่ปรับใช้กันอย่างแพร่หลาย ใน AI
การสร้างวิดีโอคุณภาพสูง
การสร้างวิดีโอระดับไฮเอนด์โดยใช้การเรียนรู้เชิงลึกเป็นสิ่งที่ท้าทาย เนื่องจากต้องใช้เฟรมวิดีโอที่มีความต่อเนื่องสูง นี่คือจุดที่โมเดลการแพร่กระจายมีประโยชน์เนื่องจากสามารถสร้างชุดย่อยของเฟรมวิดีโอเพื่อเติมเต็มระหว่างเฟรมที่ขาดหายไป ส่งผลให้วิดีโอมีคุณภาพสูงและราบรื่นโดยไม่มีเวลาแฝง
นักวิจัยได้พัฒนาเทคนิครูปแบบการแพร่กระจายแบบยืดหยุ่นและการกระจายวิดีโอตกค้างเพื่อตอบสนองวัตถุประสงค์นี้ โมเดลเหล่านี้ยังสามารถสร้างวิดีโอที่เหมือนจริงได้ด้วยการเพิ่มเฟรมที่สร้างโดย AI ระหว่างเฟรมจริงได้อย่างราบรื่น
โมเดลเหล่านี้สามารถขยาย FPS (เฟรมต่อวินาที) ของวิดีโอ FPS ต่ำได้โดยการเพิ่มเฟรมจำลองหลังจากเรียนรู้ รูปแบบจากเฟรมที่มีอยู่ แทบไม่มีการสูญเสียเฟรม เฟรมเวิร์กเหล่านี้สามารถช่วยโมเดลการเรียนรู้เชิงลึกเพิ่มเติมเพื่อสร้างวิดีโอที่ใช้ AI ตั้งแต่เริ่มต้นซึ่งดูเหมือนภาพถ่ายธรรมชาติจากการตั้งค่ากล้องระดับไฮเอนด์
วิดีโอ AI ที่น่าทึ่งมากมาย ตัวสร้างจะพร้อมใช้งานในปี 2023 เพื่อทำให้การผลิตและแก้ไขเนื้อหาวิดีโอทำได้อย่างรวดเร็วและตรงไปตรงมา
การสร้างข้อความเป็นรูปภาพ
โมเดลการแปลงข้อความเป็นรูปภาพใช้การป้อนข้อความแจ้งเพื่อสร้างคุณภาพสูง ภาพ ตัวอย่างเช่น การป้อนข้อมูล “แอปเปิ้ลแดงบนจาน” และสร้างภาพเสมือนจริงของแอปเปิ้ลบนจาน การแพร่กระจายแบบผสมผสาน และ unCLIP เป็นสองตัวอย่างที่โดดเด่นของโมเดลดังกล่าว ซึ่งสามารถสร้างภาพที่มีความเกี่ยวข้องสูงและแม่นยำตามข้อมูลที่ผู้ใช้ป้อน
นอกจากนี้ GLIDE โดย OpenAI เป็นอีกหนึ่งโซลูชันที่เป็นที่รู้จักอย่างกว้างขวางซึ่งเปิดตัวในปี 2021 ซึ่งสร้างภาพที่เหมือนจริงโดยใช้ข้อมูลของผู้ใช้ ต่อมา OpenAI ได้เปิดตัว DALL.E-2 ซึ่งเป็นโมเดลการสร้างภาพที่ล้ำหน้าที่สุด
ในทำนองเดียวกัน Google ยังได้พัฒนาโมเดลการสร้างภาพที่รู้จักกันในชื่อ Imagen ซึ่งใช้โมเดลภาษาขนาดใหญ่เพื่อพัฒนาความเข้าใจเชิงลึกของข้อความที่ป้อน จากนั้นจึงสร้างภาพที่เหมือนจริงจากภาพถ่าย
เราได้กล่าวถึงเครื่องมือสร้างภาพที่เป็นที่นิยมอื่นๆ เช่น Midjourney และ Stable Diffusion (DreamStudio) ด้านบน ดูภาพที่สร้างโดยใช้การแพร่กระจายแบบเสถียรด้านล่าง
รูปภาพที่สร้างด้วย Stable Diffusion 1.5 โดยใช้คำสั่งต่อไปนี้: “ภาพปะติด สมจริงเกินจริง ภาพบุคคลหลายรูปแบบของธอม ยอร์คที่เก่าแก่มาก ใบหน้าที่เปลี่ยนไป นักร้องนักแต่งเพลง ( ด้านข้าง ) โปรไฟล์ ช่วงอายุต่างๆ เลนส์มาโคร พื้นที่จำกัด โดย lee bermejo, alphonse mucha และ greg rutkowski, เคราสีเทา, ใบหน้าเรียบเนียน, โหนกแก้ม”
แบบจำลองการแพร่กระจายใน AI – สิ่งที่คาดหวังในอนาคต
แบบจำลองการแพร่กระจายใน AI – สิ่งที่คาดหวังในอนาคต
h2>
h2>
แบบจำลองการแพร่กระจายได้เผยให้เห็นศักยภาพที่มีแนวโน้มว่าเป็นแนวทางที่แข็งแกร่งในการสร้างตัวอย่างคุณภาพสูงจากชุดข้อมูลภาพและวิดีโอที่ซับซ้อน ด้วยการพัฒนาความสามารถของมนุษย์ในการใช้และจัดการข้อมูล แบบจำลองการแพร่กระจายสามารถปฏิวัติโลกได้อย่างที่เราเห็นในปัจจุบัน เราคาดหวังได้ว่าจะเห็นการประยุกต์ใช้แบบจำลองการแพร่กระจายมากขึ้นจนกลายเป็นส่วนสำคัญในชีวิตประจำวันของเรา
ต้องบอกว่าแบบจำลองการแพร่กระจายไม่ใช่เทคนิค AI เชิงกำเนิดเพียงอย่างเดียว นักวิจัยยังใช้ Generative Adversarial Networks (GANs), Variational Autoencoders และ Flow-based deep generative model เพื่อสร้างเนื้อหา AI การทำความเข้าใจลักษณะพื้นฐานที่ทำให้โมเดลการแพร่กระจายแตกต่างจากโมเดลการกำเนิดอื่นๆ สามารถช่วยสร้างโซลูชันที่มีประสิทธิภาพมากขึ้นในอีกไม่กี่วันข้างหน้า