A Meta anunciou o desenvolvimento de uma ferramenta de inteligência artificial capaz de gerar falas humanas. O modelo precisa ser abastecido com algumas frases gravadas pelo usuário. Depois, o Voicebox permite criar novos áudios a partir de texto escrito. O próprio Mark Zuckerberg surgiu, num clipe divulgado via Instagram, falando bom português – com direito a um “s” bastante carioca na palavra “ todos”. Tudo gerado por IA.

Em 2023, principal foco da Meta está na inteligência artificial
Em 2023, principal foco da Meta está na inteligência artificial (Imagem: Vitor Pádua/Tecnoblog)

De acordo com o conglomerado digital, bastam apenas 2 segundos de amostra de áudio para que o sistema consiga produzir novas falas. A ideia é realizar o text-to-speech para evitar os transtornos de eventualmente regravar todo o material de áudio.

Ainda segundo a empresa, a tecnologia permitiria que pessoas com deficiência visual ouçam as mensagens dos amigos ou que personagens não-jogáveis de games – os famosos NPCs – tenham voz. O Voicebox também poderia fornecer sons naturais para assistentes de voz.

Confira em ação no vídeo abaixo:

Edição fácil de conteúdo

Outro ponto importante diz respeito à edição de conteúdo. No exemplo, Zuckerberg está gravado um áudio quando se escuta uma buzina. A ferramenta, porém, consegue “limpar” o material. Hoje em dia existem softwares profissionais e outros amadores com função similar, então resta saber de que forma o recurso chegaria aos aplicativos da Meta.

Aliás, a empresa não fez nenhum anúncio oficial da implementação do Voicebox no Instagram, WhatsApp ou Facebook. Por enquanto, tudo leva a crer que Zuckerberg deseja apenas demonstrar os avanços que a empresa está fazendo no campo da IA generativa. Este é o principal foco do momento, junto com o desenvolvimento (de longo prazo) em tecnologias de metaverso.

Concorrência também está agindo

A Meta não está sozinha na pesquisa e desenvolvimento de IA generativa para voz. O anúncio desta sexta-feira me lembrou do Vall-E, sistema apresentado pela Microsoft em janeiro com a proposta de receber áudios curtos, da própria pessoa falando, para gerar novos arquivos.

O Vall-E requer uma amostra de apenas três segundos (imagem: divulgação/Microsoft)
O Vall-E requer uma amostra de apenas três segundos (imagem: divulgação/Microsoft)

Já a Apple apresentou um recurso batizado de Personal Voice na WWDC 2023, realizada na semana passada. Ele estará no iOS 17. Como parte dos esforços de acessibilidade, usuários poderão ler em voz alta um script de frases. Depois, o sistema do iPhone passará a recriar a voz sintetizada da pessoa. A tecnologia da Apple, porém, requer cerca de 15 minutos de gravação original.

Com informações: Meta, Facebook Research e 9to5 Mac

Ferramenta da Meta recria voz da pessoa em questão de segundos