Alta risoluzione utilizzando la diffusione stabile

I cervelloni giapponesi dell’Università di Osaka hanno arruolato l’intelligenza artificiale per ricostruire immagini accurate e ad alta risoluzione dall’attività cerebrale umana generata durante l’osservazione alle immagini di fronte a loro.

Il nuovo articolo della Graduate School of Frontier Biosciences di Osaka descrive in dettaglio come usano Stable Diffusion, un programma di generazione di immagini AI, per tradurre l’attività cerebrale nella corrispondente rappresentazione visiva. Sebbene ci siano stati molti precedenti esperimenti simili di immagini pensate al computer, questo test è il primo a utilizzare la diffusione stabile. Per ulteriore formazione sul sistema, i ricercatori hanno collegato le descrizioni testuali di migliaia di foto ai modelli cerebrali dei volontari rilevati durante la visualizzazione delle immagini tramite scansioni di risonanza magnetica funzionale (fMRI).

I livelli di flusso sanguigno fluttuano all’interno del cervello a seconda di quali aree vengono attivate. Il sangue che viaggia verso i lobi temporali umani, ad esempio, aiuta a decodificare le informazioni sui”contenuti”dell’immagine. mentre il lobo occipitale gestisce qualità dimensionali come prospettiva, scala e posizionamento. Un set di dati online esistente di scansioni fMRI generate da quattro persone che guardano oltre 10.000 immagini è stato inserito in Stable Diffusion, seguito dalle descrizioni testuali e dalle parole chiave delle immagini. Ciò ha permesso al programma di”imparare”a tradurre l’attività cerebrale applicabile in rappresentazioni visive.

Durante i test, un essere umano ha guardato l’immagine di una torre dell’orologio. L’attività cerebrale registrata dalla fMRI corrispondeva al precedente addestramento di parole chiave di Stable Diffusion, che ha poi inserito le parole chiave nel suo generatore di testo in immagine esistente. Da lì, una torre dell’orologio ricreata è stata ulteriormente dettagliata in base al layout del lobo occipitale e alle informazioni prospettiche per formare un’immagine finale impressionante.

La generazione di immagini Stable Diffusion aumentata del team è limitata solo al database di immagini di quattro persone —ulteriori test richiederanno ulteriori scansioni cerebrali di tester per scopi di formazione. Detto questo, i progressi rivoluzionari del team mostrano un’immensa promessa in aree come la neuroscienza cognitiva e, come osserva Science, potrebbero aiutare i ricercatori ad approfondire il modo in cui le altre specie percepiscono i loro ambienti.

By Kaitlynn Clay

Lavoro come esperto di UX. Mi interesso di web design e analisi del comportamento degli utenti. Nei giorni liberi visito sempre il museo d'arte.