ในขณะที่หลายคนประหลาดใจกับการเปิดตัว GPT-4 ของ OpenAI แต่ Monitaur ก็ยุ่งอยู่กับการวิเคราะห์เอกสารประกอบที่ตรวจสอบความเสี่ยงและการออกแบบทางเทคนิคของเครื่องมือล่าสุด ในคำอธิบายนี้ ฉันตรวจสอบสิ่งนี้ผ่านเลนส์ของ ธรรมาภิบาลที่เหมาะสม การใช้งานอย่างรับผิดชอบ และ AI อย่างมีจริยธรรม ในขณะเดียวกันก็คำนึงถึงภูมิทัศน์ที่กว้างขึ้นของโมเดลภาษาภายในที่ OpenAI มีอยู่

ผลการวิเคราะห์ไม่เป็นไปตามที่หวัง

ความเสี่ยงที่อาจเกิดขึ้นทั้งที่ทราบและไม่ทราบของ GPT-4

 “ความสามารถเพิ่มเติมของ GPT-4 ยังนำไปสู่พื้นผิวความเสี่ยงใหม่”

ในระดับสูง การ์ดระบบ กล่าวถึงความเสี่ยงบางประการที่ได้รับการพิจารณาในการตรวจสอบ ซึ่งเชื่อมโยงอย่างกว้างๆ กับโมเดลภาษาขนาดใหญ่ (LLM) เราขอกล่าวถึงความเสี่ยงโดยนัยอื่นๆ ด้านล่าง

ความเสี่ยงที่ระบุไว้ได้รับการจัดหมวดหมู่และเรียงลำดับใหม่เพื่อความเข้าใจที่ดีขึ้น มีการรวมคำพูดที่เกี่ยวข้องจากเอกสารสำหรับบริบท สิ่งสำคัญคือต้องสังเกตว่าความเสี่ยงเหล่านี้เชื่อมโยงกันและไม่ควรมองแยกกัน

อาการประสาทหลอน (ตามที่กำหนดไว้ในเอกสาร) ความลำเอียงในการทำงานอัตโนมัติ (หมายถึง”การพึ่งพามากเกินไป”ในเอกสาร) ความไวต่อการเจลเบรค (อ้างอิงในเอกสาร ) การเสริมอคติ (อ้างอิงในเอกสารว่า sycopancy) ความสามารถในการปรับขนาด (กล่าวถึงในเอกสาร)

ภาพหลอน

“[GPT-4] รักษาแนวโน้มที่จะบิดเบือนความจริง เพื่อเพิ่มข้อมูลที่ไม่ถูกต้องเป็นสองเท่า และดำเนินการงานที่ไม่ถูกต้อง”

ในฐานะที่เป็น LLM ที่น่าจะเป็นไปได้ GPT-4 จึงขาดความสามารถในการประเมินพื้นฐานข้อเท็จจริงหรือตรรกะของผลลัพธ์ เพื่อหลีกเลี่ยงข้อผิดพลาดที่อาจเกิดขึ้น จำเป็นต้องมีการตรวจสอบจากเจ้าหน้าที่โดยผู้เชี่ยวชาญและทักษะการคิดเชิงวิพากษ์ นอกจากนี้ GPT-4 ยังแสดงระดับของการคงอยู่อย่างต่อเนื่องในข้อผิดพลาดที่รุ่นก่อนหน้าไม่แสดง ไม่สามารถรับประกันได้ว่างานที่ร้องขอจะเสร็จสมบูรณ์อย่างถูกต้อง

ท้ายที่สุดแล้ว ความเสี่ยงของแบบจำลองหลอนประสาทนี้เป็นรากฐานของความเสี่ยงเพิ่มเติมในรายการ หากไม่ใช่ทั้งหมด ตัวอย่างเช่น ผู้เขียนมุ่งตรงไปที่อคติของระบบอัตโนมัติ โดยกล่าวว่า”ภาพหลอนอาจกลายเป็นอันตรายมากขึ้นเมื่อแบบจำลองกลายเป็นความจริงมากขึ้น เนื่องจากผู้ใช้สร้างความไว้วางใจในแบบจำลองเมื่อให้ข้อมูลที่เป็นความจริงในพื้นที่ที่พวกเขาคุ้นเคย”

อคติของระบบอัตโนมัติ (“การพึ่งพามากเกินไป”)

“[GPT-4 ทำให้เกิดภาพหลอน] ในรูปแบบที่น่าเชื่อและน่าเชื่อถือกว่ารุ่น GPT ก่อนหน้า (เช่น เนื่องจาก น้ำเสียงที่น่าเชื่อถือหรือนำเสนอในบริบทของข้อมูลที่มีรายละเอียดสูงและถูกต้อง) เพิ่มความเสี่ยงของการพึ่งพาตนเองมากเกินไป”

GPT-4 สร้างการเลียนแบบเสียงมนุษย์ที่มีประสิทธิภาพมาก เนื่องจากความสามารถในการประมวลผลขนาดใหญ่ จำนวนของการสื่อสารของมนุษย์ หากปราศจากการสังเกตอย่างใกล้ชิดและการฝึกอบรมที่ออกแบบมาอย่างดี ผู้ใช้ทั่วไปจะไม่สามารถแยกความแตกต่างระหว่างผลผลิตและการผลิตของมนุษย์จริงได้ เป็นผลให้เรามีแนวโน้มที่จะได้รับอิทธิพลของอคติเกี่ยวกับระบบอัตโนมัติ โดยหลักแล้วเชื่อว่า”เครื่องจักร”จะต้องถูกต้องเพราะคาดคะเนได้ว่าไม่สามารถทำผิดพลาดได้

ผลกระทบทางจิตวิทยานี้เป็นมรดกของโลกที่กำหนดขึ้นเป็นส่วนใหญ่ ของเทคโนโลยีก่อนโมเดลแมชชีนเลิร์นนิง อย่างไรก็ตาม ความสามารถโดยรวมของเราในการประมวลผลและตีความแบบจำลองที่น่าจะเป็นไปได้เหล่านี้มีความล่าช้า ผู้เขียนคาดการณ์ว่า”ผู้ใช้อาจไม่ระแวดระวังข้อผิดพลาดเนื่องจากความเชื่อถือในโมเดล พวกเขาอาจไม่ได้ให้การกำกับดูแลที่เหมาะสมตามกรณีการใช้งานและบริบท หรืออาจใช้โมเดลในโดเมนที่ขาดความเชี่ยวชาญ ทำให้ยาก เพื่อระบุข้อผิดพลาด เมื่อผู้ใช้คุ้นเคยกับระบบมากขึ้น การพึ่งพาโมเดลอาจขัดขวางการพัฒนาทักษะใหม่หรืออาจนำไปสู่การสูญเสียทักษะที่สำคัญ”

ลักษณะพิเศษอีกประการหนึ่งที่ได้รับการฝึกฝนใน GPT-4 คือ”ความอ่อนน้อมถ่อมตนในอุดมคติ”-รูปแบบการสื่อสารที่”ป้องกัน”การตอบสนองหรือปฏิเสธที่จะตอบเพื่อลดความเสี่ยงของอาการประสาทหลอน ซึ่งอาจรวมถึงอาการประสาทหลอนเกี่ยวกับความถูกต้องตามข้อเท็จจริงของตัวเอง ความคุ้นเคยของเรากับรูปแบบเหล่านี้มีแนวโน้มที่จะมองข้ามและไว้วางใจรูปแบบมากเกินไป

ความอ่อนไหวต่อการเจลเบรค

“GPT-4 ยังคงมีความเสี่ยงต่อฝ่ายตรงข้าม การโจมตีและการหาประโยชน์ หรือ’การแหกคุก'”

แม้ว่าจะไม่มีอยู่ในรายการความเสี่ยงของเอกสาร แต่ GPT-4 ก็มีความเสี่ยงสูงที่ผู้ใช้จะหลอกให้โมเดลหลีกเลี่ยงการป้องกันที่ OpenAI สร้างขึ้นสำหรับมัน ในหลายกรณี GPT-4 จะ”ปฏิเสธ”ที่จะตอบคำถามที่ละเมิดนโยบายเนื้อหาของ OpenAI อย่างไรก็ตาม รูปแบบการเจลเบรคจำนวนมากนั้น บันทึกไว้โดยผู้ใช้บนโซเชียลมีเดียและสถานที่ออนไลน์อื่นๆ

Alter ego attacks–ขอให้โมเดลตอบกลับเป็นโมเดลอื่นโดยไม่มีข้อจำกัด (เช่น ทำอะไรตอนนี้ หรือที่เรียกว่า DAN ) เป็นเวอร์ชันที่ชั่วร้ายของตัวมันเองควบคู่กันไป ในเสียงของบุคคลสาธารณะหรือคนดังที่เฉพาะเจาะจง เป็นต้นการโจมตีข้อความระบบ–ตามรายงาน”หนึ่งในวิธีที่มีประสิทธิภาพมากที่สุดในการ’ทำลาย’แบบจำลองในขณะนี้”ข้อความระบบจะให้คำแนะนำเกี่ยวกับพฤติกรรมแก่แบบจำลองพร้อมกับข้อความแจ้งผู้ใช้ที่สามารถสร้างเนื้อหาที่ไม่ต้องการได้

แม้ว่า OpenAI จะดำเนินการบางอย่างเพื่อลดการแหกคุก แต่พวกเขาจะต้องเล่นเกมตีตัวตุ่นด้วยวิธีการโจมตีเหล่านี้เมื่อเกิดขึ้นเนื่องจากลักษณะของกล่องดำของโมเดล ความคิดสร้างสรรค์ของมนุษย์ที่อยู่ในมือของผู้กระทำการที่ไม่ดีจะเปิดโอกาสการโจมตีที่คาดเดาไม่ได้และคาดเดาไม่ได้จำนวนมหาศาลบนขอบเขต และเมื่อพิจารณาจากขนาดการใช้งานแล้ว ปริมาณของการกลั่นกรองและการบรรเทาผลกระทบอาจท่วมท้นความสามารถของ OpenAI ในการจัดการกับปริมาณ มีความเสี่ยงเพิ่มเติมในการเล่น LLM หนึ่งกับอีกที่หนึ่งเพื่อขยายรูปแบบการแหกคุกเพิ่มเติม

การเสริมแรงด้วยอคติหรือความเห็นอกเห็นใจ

[GPT-4] สามารถ แสดงถึงอคติทางสังคมและโลกทัศน์ต่างๆ ที่อาจไม่ได้เป็นตัวแทนของความตั้งใจของผู้ใช้… [ซึ่ง] รวมถึงแนวโน้มที่จะทำสิ่งต่างๆ เช่น ตอบกลับคำตอบที่ต้องการของผู้ใช้บทสนทนาซ้ำ (‘sycophancy’)”

เช่นเดียวกับทุกรุ่น ขับเคลื่อนโดยแมชชีนเลิร์นนิง GPT-4 ได้รับอิทธิพลโดยตรงจากอคติที่มีอยู่ในข้อมูลที่ได้รับการฝึกอบรม เนื่องจากชุดข้อมูลประกอบด้วยเนื้อหาอินเทอร์เน็ตในระดับที่ใหญ่ที่สุดเพื่อสร้างความสามารถในการผลิตภาษาขั้นสูง โดยธรรมชาติแล้วชุดข้อมูลจะมีอคติทั้งหมดของมัน

แต่การ์ดระบบบันทึกแยกต่างหากว่าโมเดลเรียนรู้เพิ่มเติมเพื่อสร้างการเรียงลำดับ ของข้อมูลรอบๆ ตัวผู้ใช้ โดยพิจารณาว่าแต่ละคนชอบอะไรในคำตอบ แน่นอนว่าภาพหลอนช่วยเพิ่มอันตรายให้กับการเห็นพ้องต้องกันเนื่องจากโมเดลไม่มีความสามารถในการแยกแยะข้อเท็จจริงจากเรื่องแต่ง ดังนั้น”โลก”สมมติที่นำเสนอต่อผู้ใช้จึงอาจขยายขอบเขตได้

ความเสี่ยงที่ขยายใหญ่ขึ้น

ความเสี่ยงที่เพิ่มขึ้น

“การพึ่งพามากเกินไปเป็นโหมดความล้มเหลวที่มีแนวโน้มเพิ่มขึ้นตามความสามารถของโมเดลและการเข้าถึง เมื่อข้อผิดพลาดกลายเป็นเรื่องยากขึ้นสำหรับผู้ใช้ที่เป็นมนุษย์ทั่วไปในการตรวจจับ และความเชื่อถือทั่วไปในโมเดลจะเพิ่มขึ้น ผู้ใช้จึงมีโอกาสน้อยที่จะท้าทายหรือ ตรวจสอบการตอบสนองของแบบจำลอง”

จุดประสงค์ของการใช้ประโยชน์จากแนวทางการสร้างแบบจำลองโดยทั่วไปคือ วิธีนี้ช่วยให้เราสามารถปรับขนาดความสามารถของเราในการประมวลผลข้อมูลและดำเนินการตามข้อมูลได้อย่างเต็มที่ ไม่ว่าข้อมูลนั้นจะเชื่อถือได้หรือไม่ และไม่ว่า การดำเนินการนี้เป็นประโยชน์ต่อผู้มีส่วนได้ส่วนเสียทั้งหมดที่อาจได้รับผลกระทบ

ข้อเท็จจริงนี้อาจชัดเจนสำหรับผู้เขียนจนไม่คุ้มที่จะเรียกว่าเป็นตัวขับเคลื่อนหลักของความเสี่ยง แต่ความสามารถในการปรับขนาด โดยเฉพาะในราคาที่ต่ำอย่างไม่น่าเชื่อ ซึ่ง OpenAI เสนอการเข้าถึง API จะเพิ่มความเสี่ยงทั้งหมดที่ครอบคลุมในการวิเคราะห์นี้ ภาพหลอน ความลำเอียงแบบอัตโนมัติ และความรู้สึกสอดรู้สอดเห็นมีแนวโน้มที่จะแย่ลงเมื่อการใช้งานเพิ่มขึ้น สิ่งเหล่านี้จะไม่สามารถจัดการได้มากขึ้นหรือลดขนาดลงได้ง่ายกว่า แต่จะทำได้ยากกว่ามากหากไม่มีความพร้อมเพียงพอในการประเมินแบบจำลองพื้นฐานและความเสี่ยงโดยธรรมชาติของแบบจำลอง

ข้อพิจารณาและขั้นตอนต่อไปกับ GPT-4

บริษัทที่ต้องการพิจารณาใช้ AI เชิงกำเนิดจำเป็นต้องมีความเข้าใจอย่างถ่องแท้เกี่ยวกับความเสี่ยงและวิธีลดความเสี่ยง แม้ว่า AI เชิงกำเนิดจะมีศักยภาพในการเพิ่มประสิทธิภาพการทำงานของพนักงาน แต่ประโยชน์ของมันจะต้องได้รับการชั่งน้ำหนักเทียบกับข้อมูลเท็จและเวลาที่ใช้ในการตรวจทานโดยผู้เชี่ยวชาญเพื่อสร้างเอกสาร การมีความเข้าใจอย่างถ่องแท้ว่า AI เชิงกำเนิดจะมีประโยชน์ในด้านใด เช่น ในการสร้างโครงร่าง แทนที่จะเป็นในส่วนที่ไม่เป็นเช่นนั้น–การร่างเอกสารเกี่ยวกับความแตกต่างทางเทคนิค หรือข้อเท็จจริงที่สำคัญ–จะเป็นกุญแจสำคัญ

โพสต์ในบล็อกนี้สัมผัสเพียงส่วนปลายของภูเขาน้ำแข็งเกี่ยวกับปัญหาที่อาจเกิดขึ้นกับ GPT-4 นอกขอบเขตของเอกสารนี้คือความเป็นส่วนตัวของข้อมูลและการป้องกัน IP รวมถึงความเสี่ยงอื่นๆ คอยติดตามโพสต์ต่อไปที่จะเปิดเผยความเสี่ยงลำดับแรกที่ตามมา ความเสี่ยงในระดับมหภาคและเชิงระบบ ตลอดจนแนวทางปฏิบัติที่สามารถใช้เพื่อควบคุมการใช้ generative AI อย่างมีความรับผิดชอบ

หมายเหตุ: หากบุคคลที่เกี่ยวข้องกับโครงการเหล่านี้ให้รายละเอียดเพิ่มเติมหรือเราเรียนรู้เพิ่มเติมเกี่ยวกับกระบวนการในรายงานของสื่อ เราจะอัปเดตโพสต์นี้ตามนั้น

เครดิตรูปภาพ: Wayne Williams

Tom Heys เป็นผู้นำด้านกลยุทธ์ผลิตภัณฑ์สำหรับ Monitaur ด้วยการเป็นผู้นำ SaaS สตาร์ทอัพมากว่า 15 ปี เขาอุทิศตนเพื่อทำให้โลกดีขึ้นผ่านการประยุกต์ใช้เทคโนโลยี AI ที่มีความรับผิดชอบและมีจริยธรรม ทอมสำเร็จการศึกษาระดับปริญญาตรีจากมหาวิทยาลัยสแตนฟอร์ด สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ Monitaur โปรดไปที่ www.monitaur.ai และติดตามบริษัทบน LinkedIn ที่ www.linkedin.com/company/monitaur

By Maxwell Gaven

ฉันทำงานด้านไอทีมา 7 ปี เป็นเรื่องสนุกที่ได้เห็นการเปลี่ยนแปลงอย่างต่อเนื่องในภาคไอที ไอทีคืองาน งานอดิเรก และชีวิตของฉัน