Enquête d'Amazon's AWS sur Perplexity AI pour violation de règles

Enquête d'Amazon's AWS sur Perplexity AI pour violation de règles

Par
Natalia Vargas
3 min de lecture

Enquête de la division cloud d'Amazon sur Perplexity AI pour violation potentielle des règles d'AWS

La division cloud d'Amazon enquête actuellement sur Perplexity AI, une startup d'IA de recherche soutenue par le fonds Jeff Bezos family fund et Nvidia, pour d'éventuelles violations des règles d'Amazon Web Services (AWS). L'objet de cette enquête est de déterminer si Perplexity contrevenait aux protocoles en récupérant le contenu de sites web qui ont expressément interdit un tel accès via le protocole Robots Exclusion Protocol. AWS exige que les clients respectent strictement la norme robots.txt, qui est une norme web indiquant quelles pages les robots automatisés ne doivent pas accéder.

Perplexity, évaluée récemment à 3 milliards de dollars, a fait l'objet d'accusations selon lesquelles elle ignorerait ces protocoles et récupérerait le contenu de sites tels que Forbes, The Guardian et The New York Times. WIRED a découvert des preuves que Perplexity a accédé à un serveur via une adresse IP non publique pour récupérer du contenu sur les propriétés de Condé Nast, malgré le blocage d'un fichier robots.txt.

Initialement, le PDG d'Perplexity, Aravind Srinivas, a rejeté les questions de WIRED comme une mécompréhension, mais a par la suite admis qu'une entreprise tierce était impliquée dans le grattage et l'indexation web. Il a refusé de divulguer le nom de l'entreprise en raison d'un accord de non-divulgation. Le porte-parole d'Perplexity, Sara Platnick, a soutenu qu'PerplexityBot, fonctionnant sur AWS, respectait les règles robots.txt, mais a admis qu'il les ignorait lorsqu'un utilisateur fournissait une URL spécifique.

Digital Content Next, une association professionnelle représentant de grands éditeurs, a exprimé des inquiétudes quant au fait qu'Perplexity pourrait violer des principes visant à prévenir les violations de copyright dans l'IA générative. Le PDG Jason Kint a insisté sur le fait que les sociétés d'IA ne devraient pas présumer qu'elles ont le droit de réutiliser le contenu des éditeurs sans leur permission. Si Perplexity contourne réellement les conditions de service ou les robots.txt, cela pourrait indiquer un comportement inapproprié.

Points clés à retenir

  • Amazon Web Services enquête sur Perplexity AI pour d'éventuelles violations de web scraping.
  • Perplexity AI, soutenue par le Jeff Bezos family fund et Nvidia, évaluée à 3 milliards de dollars.
  • AWS exige le respect du protocole Robots Exclusion Protocol ; les conditions de service interdisent les activités illégales.
  • Perplexity AI a accédé aux sites web de Condé Nast via une adresse IP non publique, contournant ainsi les règles robots.txt.
  • Perplexity prétend respecter les règles robots.txt mais admet ignorer les protocoles pour les invites d'utilisateurs spécifiques.

Analyse

Le contrôle d'Amazon sur Perplexity AI pourrait entraîner des sanctions ayant un impact sur la réputation d'AWS et les opérations d'Perplexity. Les bailleurs de fonds tels que la famille Jeff Bezos et Nvidia pourraient faire face à des risques de valorisation. Les éditeurs tels que Forbes et The New York Times pourraient subir des conséquences de mésusage de contenu, ce qui pourrait entraîner des actions en justice. À court terme, Perplexity pourrait faire face à des contraintes opérationnelles ; à long terme, des réglementations plus strictes en matière d'IA pourraient émerger. Cet incident met en lumière la tension entre l'innovation de l'IA et les droits de propriété du contenu.

Le saviez-vous ?

  • Protocole d'exclusion des robots (REP):
    • Le protocole d'exclusion des robots est un standard qui permet aux propriétaires de sites web de contrôler l'interaction des robots automatisés, tels que les crawlers web, avec leurs sites. En utilisant un fichier robots.txt, les propriétaires de sites web peuvent spécifier quelles parties de leur site ne doivent pas être accessibles par les robots. C'est essentiel pour maintenir les performances du site et protéger le contenu sensible ou non public.
  • Récolte web et implications éthiques:
    • La récolte web consiste à utiliser des robots pour extraire des données à partir de sites web. Bien que cela soit une pratique courante dans l'analyse des données et l'apprentissage automatique, cela doit être fait de manière éthique et légale. Les considérations éthiques comprennent le respect du fichier robots.txt et l'obtention de l'autorisation des propriétaires de sites web lorsque cela est nécessaire. Le grattage web non autorisé peut entraîner des problèmes juridiques et des dommages à la réputation d'une entreprise.
  • IA générative et préoccupations en matière de droits d'auteur:
    • L'IA générative, qui crée du contenu sur la base de données existantes, soulève des problèmes importants de droits d'auteur. Les sociétés d'IA doivent veiller à ne pas enfreindre les droits d'auteur lorsqu'elles utilisent du contenu provenant d'autres sources. Cela inclut le respect des conditions de service de sites web et l'obtention des autorisations appropriées pour l'utilisation de matériel soumis à des droits d'auteur. L'échec à le faire peut entraîner des actions en justice et compromettre l'utilisation éthique de la technologie d'IA.

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres