Microsoft ha recentemente pubblicato un documento di ricerca intitolato: Scintille di intelligenza artificiale generale: primi esperimenti con GPT-4. Come descritto da Microsoft:

Questo documento riporta la nostra indagine su una prima versione di GPT-4, quando era ancora in fase di sviluppo attivo da parte di OpenAI. Sosteniamo che (questa prima versione di) GPT-4 fa parte di una nuova coorte di LLM (insieme a ChatGPT e PaLM di Google, ad esempio) che mostrano una maggiore intelligenza generale rispetto ai precedenti modelli di intelligenza artificiale.

In questo documento, ci sono prove conclusive che dimostrano che GPT-4 va ben oltre la memorizzazione e che ha una comprensione profonda e flessibile di concetti, abilità e domini. Infatti la sua capacità di generalizzare supera di gran lunga quella di qualsiasi essere umano vivente oggi.

Mentre abbiamo discusso in precedenza i vantaggi di AGI, dovremmo riassumere rapidamente il consenso generale su cosa sia un sistema AGI. In sostanza, un’AGI è un tipo di IA avanzata che può essere generalizzata su più domini e non ha una portata ristretta. Esempi di IA ristretta includono un veicolo autonomo, un chatbot, un bot di scacchi o qualsiasi altra IA progettata per un unico scopo.

Un AGI in confronto sarebbe in grado di alternare in modo flessibile uno qualsiasi dei precedenti o qualsiasi altro campo di competenza. È un’intelligenza artificiale che trarrebbe vantaggio da algoritmi nascenti come l’apprendimento di trasferimento e l’apprendimento evolutivo, sfruttando anche algoritmi legacy come l’apprendimento per rinforzo profondo.

La descrizione sopra di AGI corrisponde alla mia esperienza personale con l’utilizzo di GPT-4, così come le prove condivise nel documento di ricerca rilasciato da Microsoft.

Uno dei suggerimenti delineati nel documento è che GPT-4 scriva una prova dell’infinità di numeri primi sotto forma di una poesia.

Se analizziamo i requisiti per creare una tale poesia, ci rendiamo conto che richiede ragionamento matematico, espressione poetica e generazione del linguaggio naturale. Questa è una sfida che supererebbe la capacità media della maggior parte degli esseri umani.

Il documento voleva capire se GPT-4 stava semplicemente producendo contenuti basati sulla memorizzazione generale rispetto alla comprensione del contesto e alla capacità di ragionare. Quando gli è stato chiesto di ricreare una poesia nello stile di Shakespeare, è stato in grado di farlo. Ciò richiede un livello multiforme di comprensione che supera di gran lunga le capacità della popolazione generale e include la teoria della mente e genio matematico.

Come calcolare l’intelligenza GPT-4?

La domanda quindi diventa: come possiamo misurare l’intelligenza di un LLM? E GPT-4 mostra comportamenti di vero apprendimento o mera memorizzazione?

L’attuale modo di testare un sistema di intelligenza artificiale consiste nel valutare il sistema su una serie di set di dati di riferimento standard e garantire che siano indipendenti da i dati sulla formazione e che coprono una gamma di compiti e domini. Questo tipo di test è quasi impossibile a causa della quantità quasi illimitata di dati su cui è stato addestrato GPT-4.

Il documento approfondisce quindi il territorio della generazione di compiti e domande nuovi e difficili che dimostrano in modo convincente che GPT-4 va ben oltre la memorizzazione e ha una comprensione profonda e flessibile di concetti, abilità e domini.

Quando si tratta di intelligenza, GPT-4 può generare racconti, sceneggiature e può calcolare le formule più complicate.

GPT-4 è anche in grado di codificare a un livello molto alto, sia in termini di scrittura del codice a partire dalle istruzioni che di comprensione del codice esistente. GPT-4 è in grado di gestire un’ampia gamma di attività di codifica, dalle
sfide di codifica alle applicazioni del mondo reale, dall’assemblaggio di basso livello ai framework di alto livello, dalle semplici strutture di dati a programmi complessi come i giochi. GPT-4 può anche ragionare sull’esecuzione del codice, simulare gli effetti delle istruzioni e spiegare i risultati in linguaggio naturale. GPT-4 può persino eseguire pseudocodice,

GPT-4 può offrire risposte razionali a quasi tutti i prompt forniti. In effetti, la sua intelligenza è quasi invincibile nella sua complessità.

Limiti GPT-4

Il documento continua quindi a descrivere come hanno sondato le risposte e i comportamenti di GPT-4, per verificarne la coerenza , coerenza e correttezza, e per scoprire i suoi limiti e pregiudizi.

Il limite più ovvio è la sua tendenza ad avere allucinazioni. Ecco un esempio di allucinazione che viene fornito nel documento in cui GPT-4 era fiducioso nella sua risposta che era completamente falsa.

Sembra che anche GPT-4 comprenda questa limitazione attuale con le allucinazioni poiché questa è stata la risposta che ha dato quando l’ho chiesto cos’è un’allucinazione GPT:

Un’allucinazione GPT si riferisce a un fenomeno in cui un modello GPT (Generative Pre-trained Transformer), come quello con cui stai attualmente interagendo, produce una risposta che non è basato su informazioni fattuali o non è coerente con il contesto fornito. Queste allucinazioni si verificano quando il modello genera un testo che può sembrare plausibile ma in realtà è errato, fuorviante o privo di senso.

In altre parole, quando alleni un’intelligenza artificiale LLM sui dati del mondo, come evitare che un sistema apprenda dati errati? Un grande modello linguistico che impara e rigurgita disinformazione e teorie del complotto potrebbero effettivamente essere una delle più grandi insidie ​​​​e minacce che l’umanità deve affrontare con l’adozione su larga scala di LLM. Questa potrebbe effettivamente essere una delle più grandi minacce dell’AGI, una che sorprendentemente non si nota quando si discute dei pericoli dell’AGI.

GPT-4 Proofs of Intelligence

Il documento illustra che lo ha fatto indipendentemente dal tipo di prompt complessi indirizzati verso di esso, GPT-4 supererebbe le aspettative. Come affermato nel documento:

La sua impareggiabile padronanza del linguaggio naturale. Non solo può generare un testo fluido e coerente, ma anche comprenderlo e manipolarlo in vari modi, come riassumere, tradurre o rispondere a una serie estremamente ampia di domande. Inoltre, per traduzione intendiamo non solo tra diverse lingue naturali, ma anche traduzioni nel tono e nello stile, nonché tra domini come medicina, diritto, contabilità, programmazione informatica, musica e altro ancora.

Sono state fornite revisioni tecniche fittizie a GPT-4, in questo contesto passava facilmente significato se si trattava di un essere umano dall’altra parte che sarebbe stato immediatamente assunto come ingegnere del software. Un simile test preliminare della competenza di GPT-4 sul Multistate Bar Exam ha mostrato un’accuratezza superiore al 70%. Ciò significa che in futuro potremmo automatizzare molti dei compiti attualmente affidati agli avvocati. Infatti ci sono alcune startup che ora stanno lavorando per creare avvocati robot utilizzando GPT-4.

Produrre nuove conoscenze h2>

Uno degli argomenti nel documento è che l’unica cosa rimasta a GPT-4 per dimostrare i veri livelli di comprensione è produrre nuove conoscenze, come dimostrare nuovi teoremi matematici, un’impresa che attualmente rimane fuori raggiungere gli LLM.

Anche questo è il Santo Graal di un AGI. Mentre ci sono pericoli con un AGI controllato nelle mani sbagliate, i vantaggi di un AGI in grado di analizzare rapidamente tutti i dati storici per scoprire nuovi teoremi, cure e trattamenti sono quasi infiniti.

Un AGI potrebbe essere l’anello mancante verso la ricerca di cure per le malattie genetiche rare che attualmente mancano di finanziamenti dell’industria privata, verso la cura del cancro una volta per tutte e per massimizzare l’efficienza dell’energia rinnovabile per rimuovere la nostra dipendenza dall’energia insostenibile. In effetti potrebbe risolvere qualsiasi problema consequenziale che viene immesso nel sistema AGI. Questo è ciò che capiscono Sam Altman e il team di OpenAI, un AGI è davvero l’ultima invenzione ciò è necessario per risolvere la maggior parte dei problemi e per avvantaggiare l’umanità.

Naturalmente ciò non risolve il problema del pulsante nucleare di chi controlla l’AGI e quali sono le sue intenzioni. Indipendentemente da questo documento fa un lavoro fenomenale sostenendo che GPT-4 è un balzo in avanti verso il raggiungimento del sogno che i ricercatori di intelligenza artificiale hanno avuto dal 1956, quando fu lanciato per la prima volta il workshop estivo del Dartmouth Summer Research Project on Artificial Intelligence.

Anche se è discutibile se GPT-4 sia un AGI, si potrebbe facilmente sostenere che per la prima volta nella storia umana è un sistema di intelligenza artificiale in grado di superare il test di Turing.

By Henry Taylor

Lavoro come sviluppatore back-end. Alcuni di voi mi avranno visto alla conferenza degli sviluppatori. Ultimamente sto lavorando a un progetto open source.