Débutup d'IA accusé d'ignorer les protocoles du site Web, suscitant des inquiétudes juridiques et éthiques
Anthropic, le débutup d'IA reconnu pour ses grands modèles de langage, est sous le feu des critiques pour avoir prétendument ignoré le protocole "ne pas explorer" robots.txt, entraînant un grattage de données non autorisé à partir de sites Web tels que Freelancer et iFixit. Le PDG de Freelancer, Matt Barrie, a qualifié le bot ClaudeBot d'Anthropic d'explorateur excessif, affirmant qu'il avait un impact important sur les performances et les revenus de leur site. De même, le PDG d'iFixit, Kyle Wiens, a mis en évidence la nature perturbatrice du bot d'Anthropic, qui a accédé à leurs serveurs des millions de fois en un court laps de temps, entraînant des contraintes importantes en termes de ressources.
Ces incidents mettent en lumière un problème plus vaste dans l'industrie de l'IA, car plusieurs entreprises sont accusées de contourner les signaux robots.txt. TollBit, un débutup facilitant les connexions entre les entreprises d'IA et les éditeurs de contenu, a révélé que ce comportement dépasse une seule entreprise, mettant en cause des géants de l'industrie comme OpenAI et Anthropic.
Bien que Freelancer ait tenté de limiter l'accès, ils ont finalement dû bloquer complètement le grattoir d'Anthropic en raison de ses effets négatifs. En revanche, iFixit a réussi à maîtriser le grattage en mettant à jour leur fichier robots.txt pour spécifiquement bloquer le bot d'Anthropic.
En réponse, Anthropic a revendiqué le respect des protocoles robots.txt et a initié une enquête pour minimiser les perturbations. De tels incidents mettent en évidence la pratique controversée des entreprises d'IA utilisant des bots d'exploration pour recueillir des données pour la formation de leurs technologies d'IA, ce qui pourrait entraîner des différends juridiques avec les éditeurs au sujet de la violation du droit d'auteur. Par conséquent, des entreprises comme OpenAI s'engagent dans des partenariats avec de grands éditeurs pour atténuer les risques juridiques. Le PDG d'iFixit, Wiens, a également manifesté son ouverture à l'exploration des accords de licence pour une utilisation commerciale de leur contenu.
Points clés à retenir
- Accusations contre Anthropic pour avoir ignoré les "ne pas explorer" des directives sur Freelancer et iFixit
- Décision de Freelancer de bloquer le grattoir d'Anthropic suite à une augmentation des visites sur le site
- Expérience d'iFixit de nombreux coups de serveur de la part du bot d'Anthropic dans une période de 24 heures
- Entreprises d'IA confrontées à des actions juridiques en raison de la violation du droit d'auteur provenant des pratiques de grattage Web
- Éditeurs comme iFixit envisageant des accords de licence pour naviguer dans les défis juridiques potentiels
Analyse
Le mépris d'Anthropic pour les protocoles robots.txt a des effets immédiatement négatifs sur des sites comme Freelancer et iFixit, sollicitant des ressources et des revenus. Ce comportement reflète les pratiques plus larges de l'industrie, suscitant des préoccupations juridiques et éthiques. À court terme, les sites Web touchés subissent des revers de performances et des pertes de revenus potentiels, tandis que les implications à long terme comprennent un examen juridique accru et des ajustements potentiels à l'échelle de l'industrie dans les méthodes d'acquisition de données. Les entreprises d'IA peuvent s'orienter vers des accords de licence formels, façonnant les normes d'accès et d'utilisation du contenu.
Saviez-vous que?
- Protocole robots.txt : Le fichier
robots.txt
sert d'outil de communication standard entre les sites Web et les crawlers et les bots, spécifiant quelles zones ne doivent pas être accédées. Le non-respect de ce protocole, comme l'allegue Anthropic, peut entraîner une