Última atualização em 3 de abril de 2023
O Stable Diffusion é um dos melhores geradores de imagem de IA, ajudando milhões de usuários a criar imagens em seus prompts de texto. Não se preocupe, se você usa Difusão Estável sem estar familiarizado com este fato, não se preocupe.
A leitura abaixo irá informá-lo sobre isso.
Como é treinada a difusão estável?
A difusão estável é apenas outro processador de linguagem neural de IA. Ele funciona processando os prompts de texto humano para criar uma imagem mais parecida que o represente. A LAION construiu seus conjuntos de dados de imagem a partir do rastreamento comum, outra organização sem fins lucrativos.
O que é o processo de coleta de dados?
LAION coleta todas as tags de imagem do HTML que apresentam atributos de texto alternativo. Posteriormente, ele classificou os 5 bilhões de pares de imagens de acordo com seu idioma geral.
Em seguida, começou a filtrar os conjuntos de dados de acordo com sua resolução, marcas d’água e pontuações estéticas previstas.
Treinamento inicial
O treinamento inicial do Stable Diffusion foi em imagens de baixa resolução de 256 × 256 pixels. Mais tarde, ele atualizou para a alta resolução do LAION, um subconjunto do LAION-5b, e tinha 170 milhões de fotos com resolução de mais de 1024 × 1024 pixels. No entanto, todos foram reduzidos posteriormente para 512 × 512 devido aos resultados de eficiência.
Seria possível executar a difusão estável com uma GPU?
Sim, você pode executar a difusão estável sem uma GPU de algumas maneiras possíveis. Por exemplo, pode-se usá-lo com o DreamStudio, que está online e não requer atualizações de hardware para funcionar sem problemas.
Conclusão
O Stable Diffusion usa diferentes conjuntos de dados, palavras-chave, artistas e personagens. Como a tecnologia de IA não pode fazer nada de forma independente, ela ainda precisa de dados de entrada cujo tamanho seja importante. No entanto, é de código aberto e muito flexível para uso ao alcance de todos.