Alta resolução usando difusão estável

Boffins japoneses da Universidade de Osaka recrutaram IA para reconstruir imagens precisas e de alta resolução da atividade cerebral de humanos gerada durante a observação em imagens na frente deles.

O novo artigo da Escola de Biociências de Fronteira de Osaka detalha como eles usam a Difusão Estável, um programa de geração de imagens de IA, para traduzir a atividade cerebral em uma representação visual correspondente. Embora tenha havido muitos experimentos anteriores semelhantes de imagem de pensamento para computador, este teste é o primeiro a empregar difusão estável. Para treinamento adicional do sistema, os pesquisadores vincularam milhares de descrições textuais de fotos a padrões cerebrais de voluntários detectados ao visualizar as imagens por meio de varreduras de ressonância magnética funcional (fMRI).

Os níveis de fluxo sanguíneo flutuam dentro do cérebro, dependendo de quais áreas estão sendo ativadas. O sangue que viaja para os lobos temporais dos humanos, por exemplo, ajuda na decodificação de informações sobre o “conteúdo” da imagem. enquanto o lobo occipital lida com qualidades dimensionais como perspectiva, escala e posicionamento. Um conjunto de dados on-line existente de varreduras fMRI gerados por quatro humanos olhando para mais de 10.000 imagens foi inserido no Stable Diffusion, seguido pelas descrições de texto e palavras-chave das imagens. Isso permitiu que o programa “aprendesse” como traduzir a atividade cerebral aplicável em representações visuais.

Durante o teste, um humano olhou para a imagem de uma torre de relógio. A atividade cerebral registrada pelo fMRI correspondeu ao treinamento de palavras-chave anterior do Stable Diffusion, que então alimentou as palavras-chave em seu gerador de texto para imagem existente. A partir daí, uma torre de relógio recriada foi detalhada com base no layout do lobo occipital e nas informações de perspectiva para formar uma imagem final impressionante.

A geração de imagens de difusão estável aumentada da equipe é limitada apenas ao banco de dados de imagens de quatro pessoas-testes adicionais exigirão varreduras cerebrais dos testadores adicionais para fins de treinamento. Dito isso, os avanços inovadores da equipe mostram uma imensa promessa em áreas como a neurociência cognitiva e, como observa a Science, podem ajudar os pesquisadores a investigar como outras espécies percebem seus ambientes.

By Henry Taylor

Eu trabalho como desenvolvedor back-end. Alguns de vocês devem ter me visto na conferência de desenvolvedores. Ultimamente tenho trabalhado em um projeto de código aberto.