เมื่อเร็วๆ นี้ Microsoft ได้พาดหัวข่าวด้วยการประกาศว่ากำลังทำงานในรูปแบบปัญญาประดิษฐ์ (AI) ที่เรียกว่าVALL-E ที่สามารถ โคลนเสียงจากคลิปเสียงสามวินาที ลองนึกภาพว่าตอนนี้ AI สามารถให้เสียงของใครก็ตามพูดได้โดยไม่ต้องพูดจริงๆ! เมื่อไม่นานมานี้ Samsungประกาศว่า Bixby ผู้ช่วยซอฟต์แวร์ของตนสามารถโคลนนิ่งผู้ใช้ได้แล้ว เสียงเพื่อรับสาย โดยเฉพาะอย่างยิ่ง ตอนนี้ Bixby ช่วยให้ผู้พูดภาษาอังกฤษรับสายได้โดยพิมพ์ข้อความที่ Bixby แปลงเป็นเสียงและส่งต่อไปยังผู้โทรในนามของพวกเขา

เทคโนโลยีอย่าง VALL-E และ Bixby กำลังทำให้การโคลนเสียงเป็นจริงและมี มีศักยภาพในการเป็นผู้เปลี่ยนเกมของอุตสาหกรรม คำว่าการโคลนเสียงหมายถึงความสามารถในการใช้ AI เพื่อสร้างสำเนาดิจิทัลของเสียงที่เป็นเอกลักษณ์ของบุคคล รวมถึงรูปแบบการพูด การเน้นเสียง และการผันเสียง โดยการฝึกอัลกอริทึมด้วยตัวอย่างคำพูดของบุคคล เมื่อสร้างรูปแบบเสียงแล้ว ข้อความล้วนก็เป็นสิ่งที่จำเป็นในการสังเคราะห์เสียงพูดของบุคคล จับภาพและเลียนแบบเสียงของบุคคล อันที่จริง ขณะนี้บริษัททำสำเนาเสียงประเภทต่างๆ มากมายกำลังเปิดตัว ทำให้เทคโนโลยีนี้เข้าถึงได้มากขึ้น

การโคลนเสียงที่ใช้ AI เมื่อทำอย่างถูกหลักจริยธรรมสามารถมีแอปพลิเคชันที่ยอดเยี่ยมมากมาย โดยเฉพาะในอุตสาหกรรมบันเทิง ตัวอย่างเช่น ลองนึกภาพว่าสามารถฟังเสียงของนักแสดงคนโปรดของคุณบรรยายรายการซื้อของขณะที่คุณเดินผ่านทางเดิน ในเหตุการณ์ที่น่าเสียดายที่นักแสดงเสียชีวิตระหว่างการผลิต เสียงของพวกเขายังคงสามารถ”เติมเต็ม”ภาพยนตร์ได้ด้วยการใช้เสียงปลอมที่ทุ้มลึก

อื่นๆ พื้นที่ที่การโคลนเสียงจะเป็นประโยชน์คือการช่วยเหลือบุคคลที่มีความบกพร่องทางการพูด ในกรณีนี้ คุณสามารถสร้างเสียงสังเคราะห์ที่สามารถช่วยให้บุคคลที่มีความบกพร่องสามารถแสดงออกด้วยเสียงที่เป็นเอกลักษณ์ของตนเองได้ ตัวอย่างเช่น ผู้ป่วยที่เป็นมะเร็งลำคอซึ่งอาจต้องรับการผ่าตัดเอากล่องเสียงออก อาจมีการจำลองเสียงของเขาก่อนเข้ารับการผ่าตัดเพื่อให้เสียงที่เหมือนเสียงจริงดังขึ้น

ในทางกลับกัน มีปัญหาจริงบางประการเกี่ยวกับเทคโนโลยีนี้ที่กำลังเป็นกระแสหลัก นอกเหนือจากข้อกังวลด้านจริยธรรมที่ชัดเจนแล้ว การสร้างและใช้เสียงจำลองของใครบางคนโดยไม่ได้รับอนุญาต และอาจเป็นกิจกรรมที่มุ่งร้าย ถือเป็นการละเมิดตัวตนและความเป็นส่วนตัวอย่างร้ายแรง นอกจากนี้ยังมีข้อพิจารณาทางกฎหมายที่สามารถใช้การโคลนเสียงในทางที่ผิดเพื่อทำให้เสียชื่อเสียง หลอกลวง หรือปรักปรำผู้คน แม้ว่าจะมีบางกรณีของนักต้มตุ๋นที่บันทึกผู้คนโดยไม่รู้ตัวและขัดต่อความประสงค์ของพวกเขา เราต้องใช้ขั้นตอนการยินยอม/ไม่เข้าร่วมแบบเดียวกับที่กลายเป็นเรื่องธรรมดาสำหรับการจดจำใบหน้า เมื่อใดก็ตามที่เราพยายามบันทึกเสียงของบุคคล นี่เป็นวิธีเดียวที่จะทำให้ผู้คนสามารถควบคุมการระบุตัวตนทางชีววิทยาตามธรรมชาติที่ไม่เหมือนใคร

เกี่ยวกับนักต้มตุ๋น ศักยภาพในการใช้ในทางที่ผิดนั้นสูงมาก ก่อนหน้านี้ ในการโคลนเสียง คุณจะต้องบันทึกคำพูดจำนวนมากเพื่อฝึกอัลกอริทึม แต่เทคโนโลยีการโคลนเสียงกำลังพัฒนาไปอย่างรวดเร็วจนทุกวันนี้ สิ่งที่ต้องการก็คือการพูดเพียงไม่กี่นาที หรือในกรณีของ Microsoft VALL-E ก็แค่ไม่กี่วินาที ซึ่งหมายความว่า หากสแกมเมอร์ให้คุณคุยโทรศัพท์เพียงสามวินาที นั่นคือทั้งหมดที่พวกเขาต้องการเพื่อสังเคราะห์เสียงของคุณโดยไม่ได้รับความยินยอมจากคุณ ความจริงแล้ว FBI ได้ออกคำเตือนเกี่ยวกับเทคโนโลยีการโคลนเสียงที่ใช้ในการหลอกลวงปู่ย่าตายาย โดยมิจฉาชีพจะโทรหาคู่รักสูงอายุและเลียนแบบคนรักว่าพวกเขาติดคุก ติดอยู่ในต่างประเทศ หรืออยู่ในสถานการณ์ที่ยากลำบากอื่นๆ เพื่อรีดไถเงิน น่าเสียดายที่เราคาดว่าจะเห็นการใช้การโคลนเสียงเพื่อวัตถุประสงค์อันธพาลอื่นๆ เช่นกัน เช่น การสร้างคำพูดปลอมๆ ของนักการเมืองที่อาจเผยแพร่ข้อมูลที่ผิดหรือก่อให้เกิดความขัดแย้ง

การพิจารณาที่สำคัญอีกประการหนึ่งคือข้อเท็จจริงที่ว่าหลายๆ องค์กรต่าง ๆ ใช้การจดจำเสียงเป็นรูปแบบหนึ่งของการรับรองความถูกต้องด้วยไบโอเมตริก ลองนึกถึง fintech ที่เกิดขึ้นใหม่ที่ใช้การจดจำเสียงเพื่อให้ผู้ใช้สามารถเข้าถึงบัญชีและแลกเปลี่ยนเงินได้ ในกรณีที่เกี่ยวข้องกับเสียง อาจเป็นเรื่องยากมากที่จะบอกได้ว่าสิ่งใดจริงและสิ่งใดไม่จริง เมื่อการโคลนเสียงแพร่ขยายออกไปในโลกแห่งความเป็นจริง อย่างที่หลายคนคาดไว้ องค์กรเหล่านี้จะต้องดำเนินการเพื่อให้แน่ใจว่าระบบของพวกเขาจะไม่ถูกทำลายโดยการใช้งานที่เป็นอันตราย

มีสองกุญแจสำคัญ วิธีที่องค์กรสามารถทำได้ หนึ่งคือการใช้การตรวจจับความมีชีวิตชีวา ซึ่งเป็นกระบวนการที่ใช้กันอย่างแพร่หลายในการจดจำใบหน้า การตรวจจับความมีชีวิตชีวาขัดขวางความพยายามในการลอกเลียนแบบระบบ โดยการตัดสินใจว่าเป็นคนจริงหรือตัวปลอม เช่น ภาพถ่ายหรือวิดีโอ หรือใช้การบันทึกเสียงแทนเสียงสด เทคนิคที่สองเกี่ยวข้องกับการใช้การรับรองความถูกต้องด้วยหลายปัจจัย (MFA) เพื่อว่าหากมีการระบุเสียงของบุคคล เขาหรือเธอจะได้รับแจ้งให้ระบุรูปแบบที่สองของการรับรองความถูกต้อง เช่น รหัสผ่านหรือรหัสแบบใช้ครั้งเดียวที่ส่งไปยังอุปกรณ์มือถือของพวกเขา. วิธีการรับรองความถูกต้องรองเหล่านี้ไม่สามารถป้องกันได้ (สามารถดักฟังได้ทั้งสองวิธี) และอาจสร้างปัญหาให้ผู้ใช้ได้บ้าง แต่อาจมีประสิทธิภาพในการช่วยป้องกันการปลอมแปลง

โดยสรุป การโคลนเสียงเป็นพรมแดนใหม่ที่น่าตื่นเต้น สามารถก่อให้เกิดประโยชน์มากมายโดยเฉพาะในด้านการช่วยเหลือผู้ที่มีความบกพร่องทางการพูด แต่เราจำเป็นต้องระมัดระวังด้วยเทคโนโลยีที่มีแนวโน้มนี้ เนื่องจากศักยภาพในการรับผิดทางจริยธรรมและกฎหมายและการหลอกลวงอาจมีนัยสำคัญ นี่คือเหตุผลที่องค์กรที่ลงทุนกับการรู้จำเสียงเป็นรูปแบบหนึ่งของการรับรองความถูกต้องด้วยไบโอเมตริกจะได้รับคำแนะนำอย่างดีให้ใช้มาตรการพิเศษเพื่อป้องกันภัยคุกคามจากการหลอกลวง

เครดิตรูปภาพ: nevarpp/ฝากรูปภาพ.com

ดร. Mohamed Lazzouni เป็น CTO Aware

By Maisy Hall

ฉันทำงานเป็นนักเขียนอิสระ ฉันยังเป็นวีแก้นและนักอนุรักษ์สิ่งแวดล้อมด้วย พอมีเวลาก็ตั้งใจทำสมาธิ