Reddit Processa Anthropic por Uso Indevido de Dados para Treinar IA

O Reddit está processando a empresa de inteligência artificial (IA) Anthropic, alegando que a empresa raspou ilegalmente comentários de usuários para treinar seu chatbot Claude. A ação judicial, movida na quarta-feira em um tribunal superior da Califórnia, em São Francisco, acusa a Anthropic de acessar a plataforma do Reddit mais de 100.000 vezes desde julho de 2024, mesmo após ter afirmado que havia bloqueado seus bots de fazê-lo.

O Reddit alega que a Anthropic usou bots automatizados para acessar conteúdo do Reddit apesar de ter sido solicitada a não fazê-lo, e “intencionalmente treinou com dados pessoais de usuários do Reddit sem nunca solicitar seu consentimento”. Ben Lee, diretor jurídico do Reddit, afirmou que a “exploração comercial” do conteúdo do Reddit pela Anthropic pode valer bilhões de dólares.

Em resposta, a Anthropic declarou que discorda das alegações do Reddit e se defenderá vigorosamente. A empresa alega ter interrompido a coleta de dados do Reddit em maio de 2024.

O Valor dos Dados Humanos para Treinamento de IA

Ben Lee enfatizou a importância das conversas humanas autênticas no Reddit para o treinamento de modelos de linguagem como o Claude. Ele argumenta que o Reddit hospeda quase 20 anos de discussões ricas e humanas sobre praticamente todos os tópicos imagináveis, e que essas conversas são exclusivas da plataforma e cruciais para o desenvolvimento de IA.

O Reddit já firmou acordos de licenciamento com Google, OpenAI e outras empresas que pagam para treinar seus sistemas de IA com os comentários públicos de seus mais de 100 milhões de usuários diários. Esses acordos permitem que o Reddit aplique proteções significativas para seus usuários, incluindo o direito de excluir conteúdo, proteger a privacidade do usuário e evitar spam.

Implicações da Ação Judicial

A ação judicial do Reddit contra a Anthropic levanta questões importantes sobre o uso de dados de plataformas de mídia social para treinar sistemas de IA. O caso pode ter implicações significativas para o futuro do treinamento de IA e os direitos dos usuários de mídia social sobre seus dados.

A alegação do Reddit é que a Anthropic está se beneficiando indevidamente do conteúdo gerado por seus usuários, sem o devido consentimento ou compensação. O resultado deste caso poderá moldar a forma como as empresas de IA acessam e usam os dados da Internet no futuro.