Mentre molti si meravigliavano del rilascio del GPT-4 di OpenAI, Monitaur era impegnato ad analizzare i documenti di accompagnamento che esaminavano i rischi e la progettazione tecnica del suo ultimo motore. In questo commento, esamino questo attraverso la lente di una governo corretto , uso responsabile e IA etica, considerando anche il panorama più ampio di modelli linguistici in cui si colloca OpenAI.
I risultati dell’analisi non erano quelli sperati.
I potenziali rischi, noti e sconosciuti, del GPT-4
“Le funzionalità aggiuntive di GPT-4 portano anche a nuove superfici di rischio.”
Ad alto livello, la Scheda di sistema evidenzia alcuni rischi che sono stati presi in considerazione nella loro revisione, che associano ampiamente ai modelli linguistici di grandi dimensioni (LLM). Di seguito riportiamo altri rischi impliciti.
I rischi elencati sono stati classificati e riordinati per una migliore comprensione. Citazioni pertinenti dal documento sono state incluse per il contesto. È importante notare che questi rischi sono interconnessi e non devono essere considerati isolatamente.
Allucinazioni (come definito nel documento) Pregiudizio di automazione (definito come”eccessiva dipendenza”nel documento) Suscettibilità ai jailbreak (a cui si fa riferimento nel documento ) Rinforzo del pregiudizio (a cui si fa riferimento nel documento come servilismo) Scalabilità (a cui si allude nel documento)
Allucinazioni
“[GPT-4] mantiene la tendenza a inventare fatti , per raddoppiare le informazioni errate e per eseguire attività in modo errato.”
In quanto LLM probabilistico, GPT-4 non ha la capacità di valutare la base fattuale o logica del suo output. Per evitare potenziali errori, sono necessarie una revisione umana esperta e capacità di pensiero critico. Inoltre, GPT-4 ha mostrato un livello di persistenza nei suoi errori che i modelli precedenti non mostravano. Non è possibile garantire che le attività richieste vengano completate accuratamente.
In definitiva, questo rischio di allucinazioni del modello è alla base di molti, se non tutti, dei rischi aggiuntivi nell’elenco. Ad esempio, gli autori tracciano una linea diretta con il pregiudizio dell’automazione, affermando che”le allucinazioni possono diventare più pericolose man mano che i modelli diventano più veritieri, poiché gli utenti creano fiducia nel modello quando fornisce informazioni veritiere in aree in cui hanno una certa familiarità”.
Bias da automazione (“eccessiva dipendenza”)
“[GPT-4 allucinazioni] in modi che sono più convincenti e credibili rispetto ai precedenti modelli GPT (ad es. tono autoritario o di essere presentato nel contesto di informazioni altamente dettagliate che sono accurate), aumentando il rischio di eccessivo affidamento.”
GPT-4 produce un’imitazione molto efficace della voce umana grazie alla sua capacità di elaborare enormi quantità di comunicazione umana. Senza un’attenta osservazione e una formazione potenzialmente ben progettata, gli utenti medi non possono distinguere tra la sua produzione e le effettive produzioni umane. Di conseguenza, siamo inclini all’influenza del pregiudizio dell’automazione, credendo essenzialmente che la”macchina”debba essere corretta perché presumibilmente non può commettere errori.
Questo effetto psicologico è un retaggio del mondo ampiamente deterministico della tecnologia prima dei modelli di machine learning. Tuttavia, la nostra capacità collettiva di elaborare e interpretare questi modelli più probabilistici è rimasta indietro. Gli autori prevedono che”gli utenti potrebbero non essere vigili per gli errori dovuti alla fiducia nel modello; potrebbero non fornire una supervisione adeguata in base al caso d’uso e al contesto; oppure potrebbero utilizzare il modello in domini in cui mancano di esperienza, rendendo difficile per identificare gli errori. Man mano che gli utenti diventano più a loro agio con il sistema, la dipendenza dal modello può ostacolare lo sviluppo di nuove competenze o addirittura portare alla perdita di competenze importanti.”
Un’altra caratteristica addestrata in GPT-4 è una”umiltà epistemica”-uno stile di comunicazione che”copre”le risposte o si rifiuta di rispondere per ridurre il rischio di allucinazioni, che possono includere allucinazioni sulla propria accuratezza fattuale. È probabile che la nostra familiarità con questi schemi trascuri e crei troppa fiducia nel modello.
Suscettibilità ai jailbreak
“GPT-4 può ancora essere vulnerabile agli avversari attacchi ed exploit o’jailbreak'”.
Sebbene non sia presente nell’elenco dei rischi del documento, GPT-4 è estremamente suscettibile agli utenti che ingannano il modello per aggirare le protezioni che OpenAI ha creato per esso. In molti casi, GPT-4″rifiuterà”di rispondere a domande che violano le politiche sui contenuti di OpenAI. Tuttavia, un numero molto elevato di pattern di jailbreak è stato documentato dagli utenti sui social media e altri luoghi online.
Attacchi di alter ego–Chiedi alla modella di rispondere come un’altra modella senza restrizioni (ad es., fai qualsiasi cosa ora, ovvero DAN ), come una versione malvagia di se stesso in parallelo, nella voce di specifici personaggi pubblici o celebrità, ecc. Attacchi di messaggi di sistema–Secondo il rapporto,”uno dei metodi più efficaci per’il modello attualmente”, i messaggi di sistema forniscono al modello una guida comportamentale insieme a un prompt dell’utente che può generare contenuto indesiderato.
Sebbene OpenAI abbia adottato alcune misure per mitigare i jailbreak, dovrà giocare a colpire la talpa con questi metodi di attacco man mano che si presentano a causa della natura della scatola nera del modello. La creatività umana nelle mani di cattivi attori apre un numero enorme di vettori di assalto non verificabili e imprevedibili ai confini e, data la portata dell’utilizzo, la quantità di moderazione e mitigazione potrebbe benissimo sopraffare la capacità di OpenAI di affrontare il volume. C’è il rischio aggiuntivo di giocare un LLM contro un altro per ridimensionare ulteriormente i modelli di jailbreak.
Rinforzo del pregiudizio o servilismo
“[GPT-4] può rappresentano vari pregiudizi della società e visioni del mondo che potrebbero non essere rappresentative dell’intento degli utenti… [che] include tendenze a fare cose come ripetere la risposta preferita di un utente di dialogo (‘servitù’).”
Come con tutti i modelli basato sull’apprendimento automatico, GPT-4 è direttamente influenzato dai pregiudizi che esistono nei dati su cui è stato addestrato. Poiché il suo set di dati è costituito da contenuti Internet su larga scala per creare le sue capacità avanzate di produzione linguistica, naturalmente contiene tutti i suoi pregiudizi.
Ma la System Card nota separatamente che il modello impara anche a creare un ordinamento di informazioni circolano intorno agli utenti riconoscendo ciò che ogni individuo preferisce nelle risposte. Le allucinazioni, ovviamente, aumentano i pericoli del servilismo perché il modello non ha la capacità di separare i fatti dalla finzione, e quindi il”mondo”immaginario presentato agli utenti può diventare più radicato.
Rischi di ridimensionamento
strong>
“L’eccessiva dipendenza è una modalità di fallimento che probabilmente aumenta con la capacità e la portata del modello. Man mano che gli errori diventano più difficili da rilevare per l’utente umano medio e cresce la fiducia generale nel modello, è meno probabile che gli utenti mettano in discussione o verificare le risposte del modello.”
Il punto di trarre vantaggio dagli approcci di modellazione in generale è che ci consentono di ridimensionare radicalmente le nostre capacità di elaborare le informazioni e agire di conseguenza, indipendentemente dal fatto che tali informazioni siano affidabili o meno e se l’azione è vantaggiosa per tutte le parti interessate che potrebbero essere influenzate.
Questo fatto era forse così ovvio per gli autori che non valeva la pena considerarlo un fattore chiave di rischio. Ma la capacità di scalare, in particolare ai prezzi incredibilmente bassi a cui OpenAI offre l’accesso alle API, moltiplica ogni rischio coperto in questa analisi. È molto probabile che allucinazioni, bias di automazione e servilismo peggiorino con l’aumentare dell’utilizzo. Non diventeranno più gestibili o più facili da mitigare con la scala, ma sarà molto più difficile farlo se non adeguatamente attrezzati per valutare i modelli sottostanti e i loro rischi intrinseci.
Considerazioni e passaggi successivi con GPT-4
Le aziende che vogliono prendere in considerazione l’utilizzo dell’IA generativa devono avere una forte comprensione dei rischi e di come mitigarli. Sebbene l’intelligenza artificiale generativa abbia il potenziale per aumentare la produttività dei lavoratori, i suoi vantaggi devono essere soppesati rispetto alle informazioni false e al tempo necessario per avere una revisione esperta dei documenti generati. Avere una solida comprensione di dove l’IA generativa può essere utile, ad esempio nella generazione di schemi, rispetto a dove non lo è (in realtà redigere documentazioni su fatti sfumati, tecnici o dove contano), sarà fondamentale.
Questo post sul blog ha toccato solo la punta dell’iceberg sui potenziali problemi con GPT-4. Fuori dall’ambito di questo documento c’erano la privacy dei dati e la protezione della proprietà intellettuale, tra gli altri rischi. Resta sintonizzato per i post successivi che illustrano i rischi conseguenti di primo ordine, i rischi macro e sistematici, nonché gli approcci pratici che possono essere utilizzati per governare adeguatamente l’uso responsabile dell’IA generativa.
NOTA: Se le persone associate a questi progetti forniscono ulteriori dettagli o apprendiamo di più sul processo nei resoconti dei media, aggiorneremo questo post di conseguenza.
Credito immagine: Wayne Williams
Tom Heys è il leader della strategia di prodotto per Monitaur. Con oltre 15 anni di leadership nelle startup SaaS, si dedica a migliorare il mondo attraverso applicazioni tecnologiche dell’IA che siano responsabili ed etiche. Tom ha conseguito una laurea presso la Stanford University. Per ulteriori informazioni su Monitaur, visitare www.monitaur.ai e seguire l’azienda su LinkedIn all’indirizzo www.linkedin.com/company/monitaur.