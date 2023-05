L’Internet Archive est la grande bibliothèque de journaux du réseau des réseaux, même si cela l’amène parfois à avoir des problèmes. Grâce à ce projet, nous pouvons, par exemple, faire un voyage dans le passé du Web, profiter de contenus audio et vidéo, rappeler l’utilisation de calculatrices scientifiques ou même jouer de vieux tubes rétro grâce à l’émulation. Ce type de service est l’un des joyaux d’Internet, mais de nos jours, quelque chose d’inouï s’est produit : Internet Archive était en panne. Ce qui s’est passé?

Erreur 502. Dimanche dernier, le 28 mai, ceux qui ont tenté d’accéder au service ont trouvé le message « Server Error 502 ». Ou ce qui revient au même : les serveurs ils portaient trop de charge.

Une IA gourmande. Mark Graham, responsable de la « machine à voyager dans le temps » de The Internet Archive (Wayback Machine), en a expliqué la raison : l’intelligence artificielle était en cause. Et plus précisément, une entreprise non précisée qui entraînait son modèle d’IA sur les données de The Internet Archive.

des milliers de demandes. Peu de temps après, l’un des responsables de la plateforme, Brewster Kahle, donnait plus de détails sur l’événement sur le blog officiel de The Internet Archive : un ensemble de 64 machines virtuelles hébergées sur la plateforme AWS d’Amazon lançaient « des dizaines de milliers de requêtes par seconde » pour collecter vos fichiers OCR du domaine public.

Solution : bloquer les adresses IP« Même selon les normes du Web, des dizaines de milliers de requêtes par seconde, c’est beaucoup », a expliqué Kahle, notant que cela avait provoqué une interruption de service d’environ une heure. Les ingénieurs ont réussi à résoudre le problème avec une mesure précise : ils ont bloqué l’accès aux adresses IP d’où provenaient ces requêtes.

Deuxième essai. La chose ne s’est pas arrêtée là, et après l’arrêt de ces demandes, une deuxième série de 64 adresses IP est apparue, ce qui a encore une fois mis le service en difficulté. Encore une fois, il y a eu une autre heure pendant laquelle le service Internet Archive était inaccessible, et encore une fois, ils ont dû bloquer ces adresses IP.

Mieux vaut demander la permission. Le problème de drop était dû à la taille des requêtes. Kahle a expliqué que « ceux qui veulent utiliser nos matériaux en masse devraient commencer petit et augmenter ». De plus, a-t-il indiqué, « si vous allez créer un grand projet, veuillez nous contacter à [email protected], nous sommes là pour vous aider ». L’idée ici était claire : utiliser The Internet Archive est parfait, mais « ne nous écrasez pas dans le processus ».

modèles affamés. Le problème auquel The Internet Archive a été confronté pourrait se répéter à l’avenir pour d’autres plates-formes : les grands modèles d’IA comme ChatGPT sont entraînés sur de grandes quantités de données : les référentiels de code Wikipedia ou GitHub en sont un bon exemple, mais ces requêtes, faites de manière massive , peut affecter le service pour le reste des utilisateurs ou même devenir inaccessible. Par conséquent, il est commode pour ces types d’entreprises de contacter ces plateformes pour éviter ce type de problème.

Image: Jason Scott

