O novo modelo de inteligência artificial usa texto também, mas vai além e engloba áudio, dados visuais, temperatura, profundidade e leituras de movimento.
A Meta acredita que o trabalho poderá, no futuro, criar uma inteligência artificial generativa de experiências multisensoriais e imersivas. Se você leu isso e pensou em metaverso, saiba que não foi o único.
O projeto está na fase inicial, de pesquisa, e não tem aplicações práticas. Mesmo assim, o código é aberto, e outros especialistas podem conhecer melhor como ele funciona.
Este ponto é interessante: como observa o Verge, OpenAI e Google compartilham muito pouco de suas tecnologias, enquanto a Meta vem fazendo o oposto e abrindo suas pesquisas.
Meta quer usar ImageBind para experiências imersivas
Falar em seis tipos de dados pode soar complicado, mas é menos do que parece. O que o ImageBind faz é relacionar todos eles, da mesma forma que outras IAs generativas.
As ferramentas para gerar imagens, por exemplo, foram treinadas com grandes conjuntos de texto e imagens. Assim, elas aprenderam a relacionar descrições a fotos, desenhos, obras de arte e mais. Com isso, elas conseguem entender o que você gostaria de criar quando digita um pedido.
O ImageBind vai além e tenta relacionar textos, imagens (estáticas e vídeos), sons, temperaturas, profundidades e movimentos.
Um dos exemplos compartilhados pela Meta mostra a relação entre uma buzina de trem, vídeos de trens chegando a uma estação, dados de profundidade que mostram a aproximação de um objeto, e descrições como “trem para em uma estação movimentada” e “o vento sopra enquanto o trem se move por uma paisagem gramada”.
Outros casos imaginados servem para ilustrar aonde a Meta quer chegar. Combinar uma imagem de pombo com barulho de motor, por exemplo, deveria trazer uma imagem das aves voando enquanto uma moto se aproxima. Já os gritos de pinguins poderiam gerar uma imagem dos animais.
A Meta não quer parar por aí. No blog post com o anúncio, a empresa diz que modelos futuros poderiam incluir toque, fala e sinais cerebrais obtidos por ressonância magnética funcional.
A ideia é que o ImageBind chegue na realidade virtual. Assim, ele poderia gerar ambientes digitais que vão além de áudio e vídeo, com movimentos e ambientação.
Parece que, mesmo investindo mais em inteligência artificial, a Meta não desistiu da ideia do metaverso.
Com informações: Meta, The Verge
Meta anuncia IA que combina seis tipos de dados para criar ambientes virtuais
You must be logged in to post a comment.