L’Internet Archive est la grande bibliothèque de journaux du réseau des réseaux, même si cela l’amène parfois à avoir des problèmes. Grâce à ce projet, nous pouvons, par exemple, faire un voyage dans le passé du Web, profiter de contenus audio et vidéo, rappeler l’utilisation de calculatrices scientifiques ou même jouer de vieux tubes rétro grâce à l’émulation. Ce type de service est l’un des joyaux d’Internet, mais de nos jours, quelque chose d’inouï s’est produit : Internet Archive était en panne. Ce qui s’est passé?

Erreur 502. Dimanche dernier, le 28 mai, ceux qui ont tenté d’accéder au service ont trouvé le message « Server Error 502 ». Ou ce qui revient au même : les serveurs ils portaient trop de charge.

Une IA gourmande. Mark Graham, responsable de la « machine à voyager dans le temps » de The Internet Archive (Wayback Machine), en a expliqué la raison : l’intelligence artificielle était en cause. Et plus précisément, une entreprise non précisée qui entraînait son modèle d’IA sur les données de The Internet Archive.

des milliers de demandes. Peu de temps après, l’un des responsables de la plateforme, Brewster Kahle, donnait plus de détails sur l’événement sur le blog officiel de The Internet Archive : un ensemble de 64 machines virtuelles hébergées sur la plateforme AWS d’Amazon lançaient « des dizaines de milliers de requêtes par seconde » pour collecter vos fichiers OCR du domaine public.

Solution : bloquer les adresses IP« Même selon les normes du Web, des dizaines de milliers de requêtes par seconde, c’est beaucoup », a expliqué Kahle, notant que cela avait provoqué une interruption de service d’environ une heure. Les ingénieurs ont réussi à résoudre le problème avec une mesure précise : ils ont bloqué l’accès aux adresses IP d’où provenaient ces requêtes.

Deuxième essai. La chose ne s’est pas arrêtée là, et après l’arrêt de ces demandes, une deuxième série de 64 adresses IP est apparue, ce qui a encore une fois mis le service en difficulté. Encore une fois, il y a eu une autre heure pendant laquelle le service Internet Archive était inaccessible, et encore une fois, ils ont dû bloquer ces adresses IP.

Mieux vaut demander la permission. Le problème de drop était dû à la taille des requêtes. Kahle a expliqué que « ceux qui veulent utiliser nos matériaux en masse devraient commencer petit et augmenter ». De plus, a-t-il indiqué, « si vous allez créer un grand projet, veuillez nous contacter à [email protected], nous sommes là pour vous aider ». L’idée ici était claire : utiliser The Internet Archive est parfait, mais « ne nous écrasez pas dans le processus ».

modèles affamés. Le problème auquel The Internet Archive a été confronté pourrait se répéter à l’avenir pour d’autres plates-formes : les grands modèles d’IA comme ChatGPT sont entraînés sur de grandes quantités de données : les référentiels de code Wikipedia ou GitHub en sont un bon exemple, mais ces requêtes, faites de manière massive , peut affecter le service pour le reste des utilisateurs ou même devenir inaccessible. Par conséquent, il est commode pour ces types d’entreprises de contacter ces plateformes pour éviter ce type de problème.

Image: Jason Scott

À 45secondes.fr | Quelqu’un doit trier les données que nous utilisons pour former une IA, mais beaucoup ne gagnent que 2,50 €/h pour cela

45secondes est un nouveau média, n’hésitez pas à partager notre article sur les réseaux sociaux afin de nous donner un solide coup de pouce. ?

Article précédent

La Chine vient d’ouvrir un nouveau scénario dans sa « guerre froide » avec les États-Unis : le sol de la Lune

Article suivant

Indiana Jones et les affiches des personnages de Dial of Destiny mettent en lumière les héros et les méchants

Autres articles

Internet Archive était en panne. La raison s’est avérée surprenante : quelqu’un entraînait une IA

Top Infos

Voiture électrique : Découvrez l’usage surprenant que veut faire cette société française avec nos vieux lampadaires

Voiture électrique : un nouveau modèle réussit à rouler plus de 1000 km avec une seule charge

Scandale voiture électrique : sitôt achetée et bonne pour la casse avec l’obsolescence programmée ?

Stellantis : Les actionnaires valident l’incroyable et très polémique rémunération du DG Carlos Tavares

Réforme des bulletins de salaire : Explication sur la simplification à venir

Coups de cœur

Tom Holland dit que Spider-Man n’a pas besoin d’une scène de sexe

Netflix a confirmé la date de sortie de la deuxième partie de Selena: la série

Terry Crews veut un film Brooklyn Nine-Nine Reunion sur Peacock

Actualités

Stellantis : Les actionnaires valident l’incroyable et très polémique rémunération du DG Carlos Tavares

TikTok : Gagnez 3 centimes pour chaque vidéo regardée jusqu’au bout ave cette nouvelle application

Immobilier 2024 : Acheter maintenant ou patienter encore un peu ?

Taxe Lapin : Le PDG de Doctolib se déchaîne contre !

Impôts 2024 : Un E-mail de la DGFiP dans votre boîte de réception, pas de panique !

Jeux vidéo

Dans Star Wars Outlaws, nous jouons « l’un des plus grands cambriolages » de l’histoire de Star Wars

La phasmophobie arrive sur les consoles de nouvelle génération et le PSVR2

Les 400 grottes de Zelda : Tears of the Kingdom et où les trouver sur la carte

Trouvez les 120 racines de lumière dans Zelda Tears of the Kingdom Underground (solution pas à pas)

Quête Résoudre un nouveau festin de village dans Zelda: Totk – Comment obtenir le fromage Hateno

Manga

Black Clover 316: Asta contre Lucifero

Blue Exorcist : Ordre de veille pour les séries et les films, Guide de remplissage

Qui est le père d’Izuku Midoriya (Deku)?

Les yeux de Boruto : le vrai pouvoir de Jougan

Tout sur la technique de respiration solaire : Tueur de démons