ในขณะที่หลายคนประหลาดใจกับการเปิดตัว GPT-4 ของ OpenAI แต่ Monitaur ก็ยุ่งอยู่กับการวิเคราะห์เอกสารประกอบที่ตรวจสอบความเสี่ยงและการออกแบบทางเทคนิคของเครื่องมือล่าสุด ในคำอธิบายนี้ ฉันตรวจสอบสิ่งนี้ผ่านเลนส์ของ ธรรมาภิบาลที่เหมาะสม การใช้งานอย่างรับผิดชอบ และ AI อย่างมีจริยธรรม ในขณะเดียวกันก็คำนึงถึงภูมิทัศน์ที่กว้างขึ้นของโมเดลภาษาภายในที่ OpenAI มีอยู่
ผลการวิเคราะห์ไม่เป็นไปตามที่หวัง
ความเสี่ยงที่อาจเกิดขึ้นทั้งที่ทราบและไม่ทราบของ GPT-4
“ความสามารถเพิ่มเติมของ GPT-4 ยังนำไปสู่พื้นผิวความเสี่ยงใหม่”
ในระดับสูง การ์ดระบบ กล่าวถึงความเสี่ยงบางประการที่ได้รับการพิจารณาในการตรวจสอบ ซึ่งเชื่อมโยงอย่างกว้างๆ กับโมเดลภาษาขนาดใหญ่ (LLM) เราขอกล่าวถึงความเสี่ยงโดยนัยอื่นๆ ด้านล่าง
ความเสี่ยงที่ระบุไว้ได้รับการจัดหมวดหมู่และเรียงลำดับใหม่เพื่อความเข้าใจที่ดีขึ้น มีการรวมคำพูดที่เกี่ยวข้องจากเอกสารสำหรับบริบท สิ่งสำคัญคือต้องสังเกตว่าความเสี่ยงเหล่านี้เชื่อมโยงกันและไม่ควรมองแยกกัน
อาการประสาทหลอน (ตามที่กำหนดไว้ในเอกสาร) ความลำเอียงในการทำงานอัตโนมัติ (หมายถึง”การพึ่งพามากเกินไป”ในเอกสาร) ความไวต่อการเจลเบรค (อ้างอิงในเอกสาร ) การเสริมอคติ (อ้างอิงในเอกสารว่า sycopancy) ความสามารถในการปรับขนาด (กล่าวถึงในเอกสาร)
ภาพหลอน
“[GPT-4] รักษาแนวโน้มที่จะบิดเบือนความจริง เพื่อเพิ่มข้อมูลที่ไม่ถูกต้องเป็นสองเท่า และดำเนินการงานที่ไม่ถูกต้อง”
ในฐานะที่เป็น LLM ที่น่าจะเป็นไปได้ GPT-4 จึงขาดความสามารถในการประเมินพื้นฐานข้อเท็จจริงหรือตรรกะของผลลัพธ์ เพื่อหลีกเลี่ยงข้อผิดพลาดที่อาจเกิดขึ้น จำเป็นต้องมีการตรวจสอบจากเจ้าหน้าที่โดยผู้เชี่ยวชาญและทักษะการคิดเชิงวิพากษ์ นอกจากนี้ GPT-4 ยังแสดงระดับของการคงอยู่อย่างต่อเนื่องในข้อผิดพลาดที่รุ่นก่อนหน้าไม่แสดง ไม่สามารถรับประกันได้ว่างานที่ร้องขอจะเสร็จสมบูรณ์อย่างถูกต้อง
ท้ายที่สุดแล้ว ความเสี่ยงของแบบจำลองหลอนประสาทนี้เป็นรากฐานของความเสี่ยงเพิ่มเติมในรายการ หากไม่ใช่ทั้งหมด ตัวอย่างเช่น ผู้เขียนมุ่งตรงไปที่อคติของระบบอัตโนมัติ โดยกล่าวว่า”ภาพหลอนอาจกลายเป็นอันตรายมากขึ้นเมื่อแบบจำลองกลายเป็นความจริงมากขึ้น เนื่องจากผู้ใช้สร้างความไว้วางใจในแบบจำลองเมื่อให้ข้อมูลที่เป็นความจริงในพื้นที่ที่พวกเขาคุ้นเคย”
อคติของระบบอัตโนมัติ (“การพึ่งพามากเกินไป”)
“[GPT-4 ทำให้เกิดภาพหลอน] ในรูปแบบที่น่าเชื่อและน่าเชื่อถือกว่ารุ่น GPT ก่อนหน้า (เช่น เนื่องจาก น้ำเสียงที่น่าเชื่อถือหรือนำเสนอในบริบทของข้อมูลที่มีรายละเอียดสูงและถูกต้อง) เพิ่มความเสี่ยงของการพึ่งพาตนเองมากเกินไป”
GPT-4 สร้างการเลียนแบบเสียงมนุษย์ที่มีประสิทธิภาพมาก เนื่องจากความสามารถในการประมวลผลขนาดใหญ่ จำนวนของการสื่อสารของมนุษย์ หากปราศจากการสังเกตอย่างใกล้ชิดและการฝึกอบรมที่ออกแบบมาอย่างดี ผู้ใช้ทั่วไปจะไม่สามารถแยกความแตกต่างระหว่างผลผลิตและการผลิตของมนุษย์จริงได้ เป็นผลให้เรามีแนวโน้มที่จะได้รับอิทธิพลของอคติเกี่ยวกับระบบอัตโนมัติ โดยหลักแล้วเชื่อว่า”เครื่องจักร”จะต้องถูกต้องเพราะคาดคะเนได้ว่าไม่สามารถทำผิดพลาดได้
ผลกระทบทางจิตวิทยานี้เป็นมรดกของโลกที่กำหนดขึ้นเป็นส่วนใหญ่ ของเทคโนโลยีก่อนโมเดลแมชชีนเลิร์นนิง อย่างไรก็ตาม ความสามารถโดยรวมของเราในการประมวลผลและตีความแบบจำลองที่น่าจะเป็นไปได้เหล่านี้มีความล่าช้า ผู้เขียนคาดการณ์ว่า”ผู้ใช้อาจไม่ระแวดระวังข้อผิดพลาดเนื่องจากความเชื่อถือในโมเดล พวกเขาอาจไม่ได้ให้การกำกับดูแลที่เหมาะสมตามกรณีการใช้งานและบริบท หรืออาจใช้โมเดลในโดเมนที่ขาดความเชี่ยวชาญ ทำให้ยาก เพื่อระบุข้อผิดพลาด เมื่อผู้ใช้คุ้นเคยกับระบบมากขึ้น การพึ่งพาโมเดลอาจขัดขวางการพัฒนาทักษะใหม่หรืออาจนำไปสู่การสูญเสียทักษะที่สำคัญ”
ลักษณะพิเศษอีกประการหนึ่งที่ได้รับการฝึกฝนใน GPT-4 คือ”ความอ่อนน้อมถ่อมตนในอุดมคติ”-รูปแบบการสื่อสารที่”ป้องกัน”การตอบสนองหรือปฏิเสธที่จะตอบเพื่อลดความเสี่ยงของอาการประสาทหลอน ซึ่งอาจรวมถึงอาการประสาทหลอนเกี่ยวกับความถูกต้องตามข้อเท็จจริงของตัวเอง ความคุ้นเคยของเรากับรูปแบบเหล่านี้มีแนวโน้มที่จะมองข้ามและไว้วางใจรูปแบบมากเกินไป
ความอ่อนไหวต่อการเจลเบรค
“GPT-4 ยังคงมีความเสี่ยงต่อฝ่ายตรงข้าม การโจมตีและการหาประโยชน์ หรือ’การแหกคุก'”
แม้ว่าจะไม่มีอยู่ในรายการความเสี่ยงของเอกสาร แต่ GPT-4 ก็มีความเสี่ยงสูงที่ผู้ใช้จะหลอกให้โมเดลหลีกเลี่ยงการป้องกันที่ OpenAI สร้างขึ้นสำหรับมัน ในหลายกรณี GPT-4 จะ”ปฏิเสธ”ที่จะตอบคำถามที่ละเมิดนโยบายเนื้อหาของ OpenAI อย่างไรก็ตาม รูปแบบการเจลเบรคจำนวนมากนั้น บันทึกไว้โดยผู้ใช้บนโซเชียลมีเดียและสถานที่ออนไลน์อื่นๆ
Alter ego attacks–ขอให้โมเดลตอบกลับเป็นโมเดลอื่นโดยไม่มีข้อจำกัด (เช่น ทำอะไรตอนนี้ หรือที่เรียกว่า DAN ) เป็นเวอร์ชันที่ชั่วร้ายของตัวมันเองควบคู่กันไป ในเสียงของบุคคลสาธารณะหรือคนดังที่เฉพาะเจาะจง เป็นต้นการโจมตีข้อความระบบ–ตามรายงาน”หนึ่งในวิธีที่มีประสิทธิภาพมากที่สุดในการ’ทำลาย’แบบจำลองในขณะนี้”ข้อความระบบจะให้คำแนะนำเกี่ยวกับพฤติกรรมแก่แบบจำลองพร้อมกับข้อความแจ้งผู้ใช้ที่สามารถสร้างเนื้อหาที่ไม่ต้องการได้
แม้ว่า OpenAI จะดำเนินการบางอย่างเพื่อลดการแหกคุก แต่พวกเขาจะต้องเล่นเกมตีตัวตุ่นด้วยวิธีการโจมตีเหล่านี้เมื่อเกิดขึ้นเนื่องจากลักษณะของกล่องดำของโมเดล ความคิดสร้างสรรค์ของมนุษย์ที่อยู่ในมือของผู้กระทำการที่ไม่ดีจะเปิดโอกาสการโจมตีที่คาดเดาไม่ได้และคาดเดาไม่ได้จำนวนมหาศาลบนขอบเขต และเมื่อพิจารณาจากขนาดการใช้งานแล้ว ปริมาณของการกลั่นกรองและการบรรเทาผลกระทบอาจท่วมท้นความสามารถของ OpenAI ในการจัดการกับปริมาณ มีความเสี่ยงเพิ่มเติมในการเล่น LLM หนึ่งกับอีกที่หนึ่งเพื่อขยายรูปแบบการแหกคุกเพิ่มเติม
การเสริมแรงด้วยอคติหรือความเห็นอกเห็นใจ
[GPT-4] สามารถ แสดงถึงอคติทางสังคมและโลกทัศน์ต่างๆ ที่อาจไม่ได้เป็นตัวแทนของความตั้งใจของผู้ใช้… [ซึ่ง] รวมถึงแนวโน้มที่จะทำสิ่งต่างๆ เช่น ตอบกลับคำตอบที่ต้องการของผู้ใช้บทสนทนาซ้ำ (‘sycophancy’)”
เช่นเดียวกับทุกรุ่น ขับเคลื่อนโดยแมชชีนเลิร์นนิง GPT-4 ได้รับอิทธิพลโดยตรงจากอคติที่มีอยู่ในข้อมูลที่ได้รับการฝึกอบรม เนื่องจากชุดข้อมูลประกอบด้วยเนื้อหาอินเทอร์เน็ตในระดับที่ใหญ่ที่สุดเพื่อสร้างความสามารถในการผลิตภาษาขั้นสูง โดยธรรมชาติแล้วชุดข้อมูลจะมีอคติทั้งหมดของมัน
แต่การ์ดระบบบันทึกแยกต่างหากว่าโมเดลเรียนรู้เพิ่มเติมเพื่อสร้างการเรียงลำดับ ของข้อมูลรอบๆ ตัวผู้ใช้ โดยพิจารณาว่าแต่ละคนชอบอะไรในคำตอบ แน่นอนว่าภาพหลอนช่วยเพิ่มอันตรายให้กับการเห็นพ้องต้องกันเนื่องจากโมเดลไม่มีความสามารถในการแยกแยะข้อเท็จจริงจากเรื่องแต่ง ดังนั้น”โลก”สมมติที่นำเสนอต่อผู้ใช้จึงอาจขยายขอบเขตได้