10 janvier 2023 13:39:35 IST

Une équipe de chercheurs de Microsoft a développé un nouveau modèle d’IA de synthèse vocale appelé VALL-E qui peut simuler presque parfaitement la voix d’une personne, une fois qu’elle a été entraînée. Et que pour former ce nouveau robot IA, tout ce dont ils ont besoin est un échantillon audio de trois secondes.

De plus, les chercheurs affirment qu’une fois que le bot AI apprend une voix spécifique, VALL-E peut synthétiser l’audio de cette personne disant n’importe quoi, et le faire d’une manière qui tente de préserver le ton émotionnel de l’orateur.

Les développeurs de VALL-E peuvent potentiellement être utilisés pour des applications de synthèse vocale de haute qualité, l’édition de la parole où un enregistrement d’une personne peut être édité et modifié à partir d’une transcription de texte, et en conjonction avec la création de contenu avec d’autres modèles d’IA génératifs comme GPT-3.

Le VALL-E de Microsoft s’appuie sur une technologie appelée EnCodec, que Meta a annoncée en octobre 2022. Contrairement à d’autres méthodes de synthèse vocale qui synthétisent généralement la parole en manipulant des formes d’onde, VALL-E génère des codes de codec audio discrets à partir d’invites textuelles et acoustiques. Fondamentalement, VALL-E analyse le son d’une personne et décompose la voix en jetons. Ensuite, il utilise les données d’entraînement pour faire correspondre ce qu’il « sait » sur la façon dont cette voix sonnerait si elle prononçait d’autres phrases.

Microsoft a utilisé LibriLight, une bibliothèque audio créée par Meta, pour former les compétences de synthèse de VALL-voice E. La majorité des 60 000 heures de discours en anglais sont tirées des livres audio du domaine public LibriVox et sont parlées par plus de 7 000 personnes différentes. La voix dans l’échantillon de trois secondes doit ressembler étroitement à une voix dans les données d’apprentissage pour VALL-E pour obtenir un résultat satisfaisant.

En plus de préserver le timbre vocal et le ton émotionnel d’un locuteur, VALL-E peut également imiter « l’environnement acoustique » de l’échantillon audio. La sortie audio, par exemple, imitera les qualités acoustiques et fréquentielles d’un appel téléphonique dans sa sortie synthétique, ce qui est une manière élégante de dire qu’elle sonnera également comme un appel téléphonique. De plus, les exemples de Microsoft (inclus dans la section « Synthèse de la diversité ») montrent comment VALL-E peut produire différentes tonalités de voix en modifiant la graine aléatoire utilisée lors de la création.

