Stable Cascade é o nome do novo modelo de inteligência artificial (IA) para criação de imagens a partir de textos da Stability AI. De acordo com a companhia, a novidade tem tecnologia que promete tornar a geração de conteúdo visual mais eficiente que as atuais versões do Stable Diffusion, também de sua responsabilidade.
O Stable Diffusion foi lançado em agosto de 2022 e, em poucas semanas, se tornou popular. Até certo ponto, a ferramenta lembra o funcionamento do ChatGPT. A diferença é que, em vez de gerar resposta em texto, o Stable Diffusion apresenta uma imagem seguindo as instruções digitadas pelo usuário.
Se é assim, por que não lançar uma nova versão do Stable Diffusion? Na verdade, esse sistema vem recebendo atualizações. Lançado em novembro de 2023, a versão SDXL Turbo é a mais recente, sendo capaz de gerar imagens em apenas uma etapa contra algumas dezenas de passos das versões anteriores.
Porém, o Stable Cascade é baseado na arquitetura Würstchen, que é diferente daquela que é a base do SDXL Turbo. Daí a decisão da Stability AI de trabalhar em um sistema novo.
O que o Stable Cascade tem de diferente?
A Stability AI explica que a arquitetura Würstchen foi projetada com base em uma série de técnicas novas para melhorar o desempenho e a precisão dos resultados.
Uma dessas técnicas consiste em fazer o Würstchen funcionar como uma arquitetura modular de três estágios, ao contrário da arquitetura do Stable Diffusion, que funciona como um único modelo grande e, portanto, mais “pesado”.
O primeiro estágio é o C, que transforma os prompts de texto em imagens de 24×24 pixels. Na sequência, os estágios B e A tratam de decodificar esse resultado introdutório em imagens completas, de alta resolução.
A separação da geração de texto para imagem da fase de decodificação de imagem já é suficiente para aumentar a eficiência do sistema. Isso significa que as imagens são geradas mais rapidamente e com custos menores.
Entre os demais atributos que favorecem o desempenho do Stable Cascade estão o Direct Preference Optimization (DPO), que otimiza a qualidade da imagem, e tempos menores de inferência (realização completa de uma tarefa de IA), mesmo com o novo sistema contando com 1,4 bilhão de parâmetros a mais que o SDXL.
Por enquanto, só para uso não comercial
O Stable Cascade está em fase “preview” para pesquisa, portanto, será lançado oficialmente só depois de passar pelos devidos aprimoramentos. Por ora, é possível testar o sistema obtendo-o no GitHub do Stable Cascade, desde que ele não seja empregado em uso comercial.
Stable Cascade promete gerar imagem por IA melhor que Stable Diffusion
You must be logged in to post a comment.