Les robots web des IA commencent à peser lourd sur les ressources des sites internet, soulève cet article intéressant de Roger Montti publié sur Search Engine Journal. Ces « AI Crawlers », déployés par des entreprises comme OpenAI, Anthropic ou même Amazon, génèrent une lourde charge en sollicitant fréquemment les serveurs de nombreux sites web, parfois à des intervalles très courts, entraînant ainsi une augmentation sensible de la consommation de bande passante et des coûts associés.

Selon l’article, ces explorations intensives ne sont pas sans conséquences : certains acteurs, tels que SourceHut, ont même choisi de bloquer totalement l’accès aux grands fournisseurs de services cloud pour contrer les perturbations causées par ces robots. Read the Docs, par exemple, a réalisé une économie de 1 500 dollars par mois après avoir bloqué ces robots, avec une baisse drastique de son trafic de 800 Go à seulement 200 Go quotidiennement.

Un autre problème majeur abordé est la perturbation potentielle des données analytiques. Une société spécialisée a relevé une augmentation significative du trafic invalide lié aux robots IA, impactant la précision des statistiques, et donc potentiellement les décisions stratégiques prises à partir de ces mesures.

Par ailleurs, bien que différentes stratégies existent pour gérer ce flux intense de trafic robotisé (comme la directive robots.txt Google-Extended ou encore les pièges intelligents « AI Labyrinth » de Cloudflare), ces solutions techniques ne semblent être que partiellement efficaces face aux techniques sophistiquées employées par ces crawlers.

Personnellement, je trouve que cette problématique est révélatrice des défis à venir à mesure que l’intelligence artificielle gagne en ubiquité sur internet. Il est légitime pour les sites de ne pas vouloir supporter à leurs frais l’entraînement de modèles d’IA commerciaux. L’équilibre entre accessibilité à l’information et coûts engendrés par cette accessibilité est fragile et mériterait davantage de régulation ou de meilleures pratiques partagées au sein de l’industrie. Les outils tels que l’extension « Google-Extended » apportent une première réponse, mais ce ne sera sûrement pas suffisant à long terme.

Et vous, pensez-vous que les entreprises exploitant des modèles d’intelligence artificielle devraient contribuer financièrement à l’entretien des ressources des sites web qu’elles utilisent pour leur apprentissage ?

(Image principale : Lightspring/Shutterstock)

Source : Roger Montti, Search Engine Journal, https://www.searchenginejournal.com/ai-crawlers-draining-site-resources/543011/

Catégories : SEO

0 commentaire

Laisser un commentaire

Emplacement de l’avatar

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *