ChatGPT bloqueia repetição de palavras após ataque revelar dados pessoais

Após pesquisadores descobrirem falhas de segurança, a OpenAI atualizou as proteções do ChatGPT. Agora, o chatbot não atende mais a pedidos para repetir uma palavra “para sempre”.

O problema foi revelado na última quarta-feira (29) por pesquisadores do Google DeepMind e de universidades. Ao pedir para a inteligência artificial repetir palavras “para sempre” (ou “forever”, já que os pedidos eram em inglês), ela acabava mostrando textos raspados da internet.

Alguns desses textos raspados continham dados pessoais. Em um dos casos, aparecia uma assinatura de email, contendo nome, cargo, empresa, telefone e endereço eletrônico.

Pedido viola políticas e termos, diz OpenAI

Segundo o site 404 Media, agora, ao pedir para o ChatGPT repetir uma palavra “para sempre”, ele cumpre a ordem algumas vezes, até mostrar uma mensagem de erro, dizendo que este conteúdo pode violar as políticas de conteúdo ou os termos de uso. Os testes do Engadget tiveram o mesmo resultado.

Em português, porém, a situação é um pouco diferente. Nos testes que o Tecnoblog realizou, as palavras “celular” e “olá” foram repetidas, sem a mensagem de alerta. O botão para continuar gerando resposta ainda apareceu duas vezes, até ocorrer um erro. Nenhum dado foi revelado.

Diálogo no ChatGPT. Eu peço para repetir a palavra "olá" para sempre. O ChatGPT repete inúmeras vezes a palavra "olá". — Em português, ChatGPT continua aceitando pedidos para repetir palavras (Imagem: Reprodução/Tecnoblog)

Como nota a 404 Media, não há nada nas políticas de conteúdo que proíba a repetição de palavras. Nos termos de uso, a OpenAI diz que os usuários não devem usar métodos programáticos ou automatizados para extrair dados. Por mais que fazer um pedido para o ChatGPT não envolva programação, pode ser esta a linha de raciocínio da empresa.

Procurada pela reportagem da 404 Media, a OpenAI não respondeu aos contatos.

Pesquisadores usaram ataque “bobo”

O problema envolvendo os dados do ChatGPT foi revelado em um artigo científico ainda não publicado. A pesquisa envolveu especialistas do Google DeepMind e também de universidades norte-americanas como Washington, Cornell e California Berkley, além da ETH Zurich (Suíça).

Eles demonstraram que é possível extrair informações de identificação privada de modelos de linguagem abertos, semi-abertos (como o LLaMa, da Meta) e fechados (como o ChatGPT).

No caso do ChatGPT, o trabalho mostra que o robô é capaz de entregar dados usados em seu treinamento de forma exata, sem qualquer alteração.

Entre os dados, estão poemas completos, identificadores aleatórios como endereços de bitcoin, artigos científicos protegidos por copyright e as chamadas informações pessoais identificáveis, como nomes completos, números de telefone, endereços de email, datas de aniversário, nomes de usuário em redes sociais, entre outras. Elas são reveladas aleatoriamente, não podendo ser direcionadas.

Os próprios pesquisadores admitem que o ataque é “bobo”. Mesmo assim, ele revela algumas coisas importantes. Em primeiro lugar, a falta de testes de segurança na hora de liberar tais ferramentas. Além disso, confirma que esses modelos foram treinados raspando indiscriminadamente os textos encontrados na internet, mesmo que fossem privados ou protegidos por copyright.

Com informações: 404 Media, Engadget

ChatGPT bloqueia repetição de palavras após ataque revelar dados pessoais