A OpenAI, criadora do ChatGPT, revelou uma nova avaliação chamada SimpleQA para medir a precisão factual das respostas geradas por modelos de inteligência artificial. Os resultados divulgados nessa última semana mostram que até mesmo os modelos mais avançados ainda apresentam uma alta proporção de respostas incorretas.

  • ChatGPT | OpenAI revela riscos e respostas inesperadas do GPT-4o
  • CriticGPT | OpenAI lança ferramenta para corrigir erros do ChatGPT

A avaliação destaca os desafios na produção de respostas factuais, revelando que, em muitos casos, as IAs se mostram excessivamente confiantes em respostas erradas, o que aumenta a preocupação com a confiabilidade dessas ferramentas.

Desenvolvimento do SimpleQA

O benchmark SimpleQA foi projetado para avaliar a habilidade dos modelos de responder a perguntas curtas e objetivas com respostas verificáveis. A OpenAI explica que a factualidade é um tema complexo para as IAs, pois é difícil medir a precisão de afirmações em um contexto amplo.


Entre no Canal do WhatsApp do e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.

Segundo a empresa, “modelos de linguagem podem gerar longas conclusões que contêm dezenas de alegações factuais”. Porém, no SimpleQA, o foco está nas “consultas curtas em busca de fatos, o que reduz o escopo do benchmark, mas torna a medição da factualidade muito mais tratável”.

Para garantir a qualidade das respostas, a companhia envolveu dois treinadores de IA independentes na criação de um conjunto de perguntas com 4.326 itens que abrangem diversas áreas, como ciência, política, cultura e tecnologia.

Gráfico mostra a distribuição de categorias do benchmark SimpleQA da OpenAI
SimpleQA relacionou perguntas simples em diversas categorias, incluindo ciência, tecnologia, geografia arte e política (Imagem: Reprodução/OpenAI)

Cada pergunta foi avaliada por esses treinadores e apenas as questões onde as respostas coincidiam foram incluídas no benchmark. Um terceiro avaliador revisou 1.000 amostras, confirmando uma taxa de precisão interna de aproximadamente 94,4%, segundo a OpenAI.

Para realizar a avaliação, a OpenAI estruturou o SimpleQA de forma a classificar as respostas geradas pelos modelos de IA utilizados no ChatGPT em três categorias: “corretas”, “incorretas” e “não respondidas”. Vale notar que a classificação “não respondida” foi adicionada para avaliar a capacidade dos modelos de identificar suas próprias limitações e evitar a geração de conteúdo potencialmente incorreto.

Resultados com os modelos da OpenAI

Nos testes realizados, a OpenAI submeteu diferentes versões de seus modelos ao benchmark SimpleQA. Os dados obtidos revelaram variações significativas na precisão, dependendo do porte e do design de cada modelo.

Os modelos de menor porte, como o GPT-4o-mini e o o1-mini, demonstraram taxas de acerto mais baixas, o que, segundo a OpenAI, era esperado devido ao menor conhecimento de mundo dessas versões. No entanto, o que chama a atenção é a alta de taxa de respostas incorretas de todos os modelos de IA.

Os resultados foram os seguintes:

  • GPT-4o-mini: obteve uma taxa de 8,6% de respostas corretas, 0,9% de respostas não respondidas e 90,5% de respostas incorretas;
  • o1-mini: apresentou 8,1% de respostas corretas, 28,5% de respostas não respondidas e 63,4% de respostas incorretas;
  • GPT-4o: alcançou uma taxa de 38,2% de respostas corretas, 1,0% de respostas não respondidas e 60,8% de respostas incorretas;
  • o1-preview: o modelo mais avançado registrou 42,7% de respostas corretas, 9,2% de respostas não respondidas e 48% de respostas incorretas.
Gráfico mostra resultados do teste SimpleQA com os modelos de linguagem da OpenAI
Taxas de respostas incorrestas com os modelos da OpenAI são altíssimas (Imagem: Reprodução/OpenAI)

A OpenAI observou que modelos como o o1-mini e o o1-preview, projetados para “refletir” mais antes de responder, apresentaram uma maior propensão a “não responder” em comparação com versões como o GPT-4o-mini e o GPT-4o. Essa característica sugere que modelos com maior capacidade de raciocínio conseguem identificar situações em que não possuem uma resposta adequada, evitando a geração de informações falsas e alucinações.

Longe da precisão factual

Os resultados do SimpleQA refletem os desafios contínuos enfrentados pela OpenAI e outras empresas na tentativa de aprimorar a precisão factual dos modelos de linguagem de IA generativa.

A confiança excessiva em respostas incorretas continua sendo uma barreira significativa para o uso dessas ferramentas em contextos que exigem confiabilidade e rigor informativo. A capacidade de um modelo reconhecer suas limitações e optar por não responder é vista como um avanço importante, mas ainda é limitada em muitas das versões avaliadas.

A OpenAI destacou que, apesar dos avanços recentes, a factualidade plena continua sendo um objetivo distante. A empresa sugere que futuros desenvolvimentos devem focar não apenas na expansão do conhecimento dos modelos, mas também no aprimoramento de sua capacidade de avaliar a validade das informações antes de apresentar uma resposta.

 

Leia também:

  • O que é o colapso dos modelos de IA, sobre o qual alertam pesquisadores
  • O que é singularidade tecnológica e o que isso tem a ver com IA
  • Há 70% de chance de a IA gerar um colapso na humanidade, diz ex-OpenAI

Leia mais matérias no ItechNews .