Os scrapers de IA estão ficando sem espaço à medida que as restrições fecham a rede

os-scrapers-de-ia-estao-ficando-sem-espaco-a-medida-que-as-restricoes-fecham-a-rede

Os scrapers de IA estão enfrentando cada vez mais ambientes online hostis à medida que as fontes de dados secam.

O crawling de dados, também conhecido como scraping, significava anteriormente que vastos tesouros de texto, imagens e vídeos poderiam ser extraídos da internet sem muitos problemas. Modelos de IA poderiam ser treinados na fonte aparentemente infinita, mas esse não é mais o caso.

Um estudo do grupo de pesquisa em IA Data Provenance Initiative, chamado “Consent In Crisis”, descobriu que um ambiente hostil agora aguarda os scrapers de sites, especialmente aqueles para o desenvolvimento de IA generativa.

Pesquisadores investigaram os domínios utilizados em três dos conjuntos de dados mais importantes usados ​​para treinar modelos de IA e esses dados agora estão mais restritos do que nunca.

14.000 domínios da web foram avaliados com a descoberta de uma “crise emergente em consentimento”, já que os publicadores online reagiram à presença de rastreadores e à coleta de dados. Os pesquisadores descreveram nos três conjuntos de dados – conhecidos como C4, RefinedWeb e Dolman – que cerca de 5% de todos os dados e 25% do conteúdo das melhores fontes tinham restrições impostas.

Em particular, os crawlers GPTBot e Google-Extended da OpenAI provocaram uma reação dos sites para mudar suas restrições robot.txt. O estudo descobriu que entre 20 e 33 por cento dos principais domínios da web introduziram restrições extensivas em scrapers, em comparação com um número muito menor no início do ano passado.

Rastreamentos intensos resultando em proibições totais

De toda a base de domínios, 5-7% aplicaram restrições, contra apenas 1% no mesmo período.

Foi observado que muitos sites alteraram seus termos de serviço para proibir completamente o rastreamento e a coleta de conteúdo para uso em IA generativa, mas não na extensão das restrições do robot.txt.

As empresas de IA possivelmente desperdiçaram tempo e recursos devido ao rastreamento excessivo que provavelmente não era necessário. Os pesquisadores mostraram que, embora cerca de 40% dos principais sites usados ​​nos três conjuntos de dados estivessem relacionados a notícias, mais de 30% das consultas do ChatGPT eram para escrita criativa, em comparação com apenas 1% que apresentava notícias.

Outros pedidos importantes incluíam tradução, ajuda com codificação e interpretação sexual.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *