in

Facebook introduit un logiciel basé sur l’IA, M2M-100, qui peut traduire 100 langues sans se fier aux données anglaises

Facebook a dévoilé un logiciel basé sur l’apprentissage automatique qui est capable de traduire à partir de n’importe quelle langue sans s’appuyer sur l’anglais. Selon un Article de blog Facebook, M2M-100 est le premier modèle de traduction automatique multilingue (MMT) qui peut traduire entre n’importe quelle paire de 100 langues sans se fier aux données anglaises. Déclarant que briser les barrières linguistiques grâce à la traduction automatique (MT) est l’un des moyens les plus importants de rassembler les gens et de fournir des informations sur COVID-19, Facebook a déclaré que le modèle multilingue unique fonctionnait aussi bien que les modèles bilingues traditionnels et a réussi à obtenir Amélioration de 10 points BLEU par rapport aux modèles multilingues centrés sur l’anglais.

  Facebook introduit un logiciel basé sur l'IA, M2M-100, qui peut traduire 100 langues sans se fier aux données anglaises

Facebook a utilisé un certain nombre de techniques de mise à l’échelle pour créer un modèle universel avec 15 milliards de paramètres.

Selon le blog, il a utilisé de nouvelles stratégies de minage pour créer des données de traduction et a construit le premier ensemble de données véritablement «  peut-à-plusieurs  » avec 7,5 milliards de phrases pour 100 langues.

Selon l’article, Facebook a utilisé un certain nombre de techniques de mise à l’échelle pour créer un modèle universel avec 15 milliards de paramètres. Cela capture les informations des langues associées et montre une écriture plus variée de langues et de morphologie.

Le message a révélé que l’un des plus gros problèmes dans la création d’un modèle MMT plusieurs-à-plusieurs est de rassembler des volumes massifs de paires de phrases de qualité pour des directions de traduction arbitraires n’impliquant pas l’anglais. Cependant, ils ont relevé le défi et l’ont rendu possible en combinant des ressources d’exploration de données complémentaires qui ont été élaborées depuis des années, notamment ccAligned, ccMatrix et LASER.

Un nouveau LASER 2.0 et une identification de langage FastText améliorée ont été créés qui améliorent la qualité de l’exploitation minière et incluent des scripts de formation et d’évaluation open-source.

Selon Facebook, le déploiement de M2M-100 améliorera la qualité des traductions pour des milliards de personnes, en particulier celles qui parlent des langues à faibles ressources.

.

45secondes est un nouveau média, n’hésitez pas à partager notre article sur les réseaux sociaux afin de nous donner un solide coup de pouce. 🙂