OpenAI e outras empresas podem ter que revelar uso de material com copyright

A inteligência artificial é um assunto em alta, e seus aspectos positivos e negativos ainda estão sob avaliação. A União Europeia, por exemplo, agora está interessada na questão dos direitos autorais. O bloco discute obrigar as empresas a revelar se materiais protegidos por copyright foram usados para treinar robôs como o ChatGPT.

Bandeiras da União Europeia (Imagem: Thijs ter Haar/Wikimedia Commons)

Esta exigência foi adicionada ao Regulamento da Inteligência Artificial nas duas últimas semanas, disse uma fonte interna à Reuters. Alguns membros do Parlamento Europeu queriam proibir o uso de material com copyright, mas uma proposta mais branda, exigindo apenas transparência, venceu as discussões.

Dessa forma, empresas que desenvolvem ferramentas geradoras de conteúdo, como o ChatGPT, o Dall-E, o Midjourney e muitas outras, precisarão revelar qualquer uso de material protegido por direitos autorais para treinar seus sistemas.

O Regulamento da Inteligência Artificial (ou AI Act, em inglês) vem sendo discutido há dois anos, antes mesmo do lançamento do ChatGPT pela OpenAI e de todo o destaque sobre o tema que veio desde então.

O Parlamento Europeu já tinha um rascunho da lei, e seus membros concordaram em avançar com a matéria para a fase de discussões.

As inteligências artificiais generativas dependem de treinamento com grandes quantidades de dados. Assim, elas entendem diversas formas de escrever, acumulam informações, aprendem como desenhar em vários estilos, e assim por diante.

Processos contra empresas podem aumentar

Empresas como a OpenAI se recusam a abrir detalhes sobre os dados usados para treinar seu software. Caso a legislação europeia seja aprovada, elas precisarão revelar de onde foi retirado o conteúdo.

Isso pode ter consequências negativas para as companhias: os processos por violação de direitos autorais devem se multiplicar.

Imagem gerada pelo Stable Diffusion (Imagem: Reprodução/The Verge) — Imagem gerada pelo Stable Diffusion tem marca d’água da Getty Images (Imagem: Reprodução/The Verge)

A questão do copyright já é uma realidade no cenário da inteligência artificial, principalmente entre artistas e fotógrafos. A empresa de bancos de imagens Getty Images está processando a Stability AI, por exemplo.

O Stable Diffusion, modelo desenvolvido pela Stability AI, foi “pego” criando imagens com a marca d’água da Getty. Isso indica que as fotos da empresa foram usadas indevidamente para treinar a inteligência artificial.

Além da briga entre as duas empresas, três artistas moveram uma ação coletiva contra a Stability AI, a Midjourney e a DeviantArt.

Eles alegam que as desenvolvedoras violaram os direitos de milhões de artistas ao usar 5 bilhões de imagens raspadas da internet sem o consentimento dos artistas.

Deixando as imagens um pouco de lado, a Microsoft e sua subsidiária GitHub foram acionadas na Justiça dos EUA por causa da ferramenta Copilot.

O Copilot foi treinado usando códigos abertos. A licença desses códigos, porém, exige que o autor esteja listado em trabalhos derivados.

Mesmo assim, o Copilot cria longos scripts a partir de trabalhos protegidos por essas licenças sem dar nenhum crédito, o que seria uma violação da lei de direitos autorais.

Com informações: Reuters, The Verge

OpenAI e outras empresas podem ter que revelar uso de material com copyright