Hochauflösend mit stabiler Diffusion

Japanische Tüftler an der Universität Osaka haben KI angeworben, um genaue, hochauflösende Bilder aus der menschlichen Gehirnaktivität zu rekonstruieren, die beim Betrachten erzeugt werden auf Bilder vor ihnen.

Das neue Papier der Graduate School of Frontier Biosciences in Osaka beschreibt, wie sie Stable Diffusion, ein KI-Bilderzeugungsprogramm, verwenden, um die Gehirnaktivität in eine entsprechende visuelle Darstellung zu übersetzen. Obwohl es viele frühere, ähnliche Experimente mit dem Gedanken an Computerbilder gegeben hat, ist dieser Test der erste, der stabile Diffusion verwendet. Für ein zusätzliches Systemtraining verknüpften die Forscher die Textbeschreibungen von Tausenden von Fotos mit den Gehirnmustern von Freiwilligen, die beim Betrachten der Bilder durch funktionelle Magnetresonanztomographie (fMRI)-Scans erkannt wurden.

Die Blutflusswerte schwanken im Gehirn je nachdem, welche Bereiche aktiviert werden. Blut, das zum Beispiel in die Schläfenlappen des Menschen gelangt, hilft bei der Entschlüsselung von Informationen über den „Inhalt“ von Bildern. während der Okzipitallappen dimensionale Qualitäten wie Perspektive, Maßstab und Positionierung verarbeitet. Ein bestehender Online-Datensatz von fMRI-Scans, die von vier Menschen erstellt wurden, die sich über 10.000 Bilder ansahen, wurde in Stable Diffusion eingegeben, gefolgt von den Textbeschreibungen und Schlüsselwörtern der Bilder. Dadurch konnte das Programm „lernen“, wie die entsprechende Gehirnaktivität in visuelle Darstellungen übersetzt werden konnte.

Während des Tests betrachtete ein Mensch das Bild eines Uhrturms. Die vom fMRI registrierte Gehirnaktivität entsprach dem vorherigen Keyword-Training von Stable Diffusion, das die Keywords dann in seinen bestehenden Text-to-Image-Generator einspeiste. Von dort aus wurde ein rekonstruierter Uhrturm basierend auf dem Layout des Okzipitallappens und perspektivischen Informationen weiter detailliert, um ein endgültiges, beeindruckendes Bild zu erhalten.

Die erweiterte Stable Diffusion-Bilderzeugung des Teams ist nur auf die Bilddatenbank für vier Personen beschränkt —Weitere Tests erfordern zusätzliche Gehirnscans der Tester zu Schulungszwecken. Allerdings sind die bahnbrechenden Fortschritte des Teams in Bereichen wie der kognitiven Neurowissenschaft äußerst vielversprechend und könnten, wie Science anmerkt, Forschern dabei helfen, sich damit zu befassen, wie andere Arten ihre Umwelt wahrnehmen.

By Maxwell Gaven

Ich habe 7 Jahre im IT-Bereich gearbeitet. Es macht Spaß, den stetigen Wandel im IT-Bereich zu beobachten. IT ist mein Job, Hobby und Leben.