A Microsoft desenvolve uma nova arquitetura que promete escalar o processamento de informações em modelos de linguagem de grande escala como os que alimentam o ChatGPT e outras ferramentas de IA generativa. Chamado de LongNet, o método pode ser até 250 mil vezes mais potente do que o ChatGPT.

  • 8 IAs para conversar com você e resolver problemas
  • Robô prevê cenário em que inteligência artificial manipula humanos

Mudança de método no processamento de dados

No método atual de funcionamento das IAs, os modelos de linguagem de grande escala precisam ter a capacidade de lidar com sequências cada vez mais longas, enquanto os dados são interpretados pelos chamados modelos transformadores.

O problema na arquitetura atual é que a relação entre o comprimento da sequência e a necessidade de capacidade computacional é exponencial, à medida que quanto maior a sequência, muito mais uso de hardware é necessário para tratar os dados.


Podcast Porta 101: a equipe do discute quinzenalmente assuntos relevantes, curiosos, e muitas vezes polêmicos, relacionados ao mundo da tecnologia, internet e inovação. Não deixe de acompanhar.

Para que os transformadores consigam processar essas informações, elas são divididas em pequenas unidades — os tokens. Atualmente, os modelos têm uma capacidade limitada de leitura, pois não conseguem assimilar todos os tokens de uma só vez sem perder dados ou velocidade.

A Microsoft desenvolve uma nova arquitetura que promete escalar o processamento de informações em modelos de linguagem de grande escala
A Microsoft desenvolve método que promete escalar o processamento de informações em modelos de linguagem de grande escala

A proposta que a Microsoft elabora é criar uma arquitetura que se assemelha com a lógica neural. O LongNet seria capaz de potencializar o processamento de tokens com um mecanismo de “atenção dilatada”.

Nesse método, a alocação de “atenção” diminui à medida que a distância entre os tokens fica maior, enquanto os tokens próximos são examinados com a atenção padrão. Dessa forma, o processamento é utilizado para focar nas relações mais próximas enquanto os tokens mais distantes recebem um nível de atenção mais grosseiro.

250 mil vezes mais poderosa que o ChatGPT

O ChatGPT da OpenAI processa 4.096 tokens por vez, o que representa cerca de 3 mil palavras, mas há variantes do GPT-3.5-turbo com 8 mil tokens e do GPT-4 de até 32 mil tokens. O LongNet, por sua vez, teria uma capacidade de leitura de até 1 bilhão de tokens, ou 750 milhões de palavras processadas ao mesmo tempo.

Com esse método, portanto, a Microsoft LongNet poderia elevar a capacidade de leitura de modelos de linguagem de grande escala para ser até 250 mil vezes mais potente do que o ChatGPT disponível gratuitamente.

Por enquanto, o LongNet ainda está em fase de estudo. O modelo foi publicado em um artigo acadêmico pela Univeridade Cornell, nos Estados Unidos. No entanto, se a arquitetura se mostrar viável, pode representar mais um salto tecnológico imenso na capacidade de processamento dos modelos que alimentam as IAs.

Leia mais matérias no ItechNews .

Trending no :

  • Barbie │ Quais os combos dos cinemas para o filme no Brasil
  • 5 motivos para usar o Google Bard
  • Detalhes ocultos em arte egípcia de 3 mil anos são descobertos
  • Passagem para o “submundo” zapoteca é achada sob igreja no México
  • Por que o Xbox Series X não faz mais sentido no Brasil?
  • IA pode ajudar no diagnóstico do transtorno do espectro autista