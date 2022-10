12 octobre 2022 15:21:05 IST

Si vous avez été un fan de technologie et que vous appréciez les podcasts de Joe Rogan, il y a de fortes chances que vous vous soyez demandé à quoi aurait ressemblé un podcast entre Joe Rogan et l’icône légendaire de la technologie, Steve Jobs. Eh bien, une entreprise technologique basée à Dubaï a trouvé une réponse plutôt cool à cette question.

Une société de synthèse vocale basée sur l’IA basée à Dubaï appelée Play.ht a mis au point un podcast fictif unique entre Joe Rogan et Steve Jobs. Le podcast créé numériquement utilise des voix réalistes clonées numériquement des deux hommes à partir de vidéos accessibles au public et d’autres sources audio. Le podcast entre Jobs et Rogan était le premier épisode d’une nouvelle série de podcasts appelée « Podcast.ai », créée par Play.ht, qui vend des services de synthèse vocale.

Dans l’interview, vous entendez d’abord une réplique de la voix de Rogan créée par la technologie de clonage de la voix. La technologie d’apprentissage en profondeur a permis aux modèles d’IA de reproduire des voix distinctives avec un degré élevé de précision, comme dans le cas de Dark Vador dans la série télévisée Obi-Wan Kenobi de Disney.

Cloner la voix de Rogan était la partie la plus facile – après tout, Rogan publie régulièrement un nouveau podcast, et il existe de nombreux échantillons de voix pour que les systèmes puissent apprendre. Cloner la voix de Steve Jobs, cependant, était plutôt difficile. Sa voix a été générée à l’aide de keynotes Apple et d’interviews All Things Digital de la fin des années 2000. Parce que la source des fichiers qui ont entraîné le modèle d’IA était ancienne et pas particulièrement de haute qualité, La voix de Steve Jobs était quelque peu robotique et saccadé parfois.

Quant à générer ce que ces deux personnages diraient pendant l’interview, Play.ht affirme que le texte de l’interview a également été généré par l’IA, peut-être à partir d’un grand modèle de langage similaire à GPT-3.

« Les transcriptions sont générées avec des modèles de langage affinés », écrit Play.ht sur le site Web Podcast.ai. « Par exemple, l’épisode de Steve Jobs a été formé sur sa biographie et tous les enregistrements de lui que nous avons pu trouver en ligne afin l’IA pourrait le ramener à la vie avec précision.

Dans la vidéo, par conséquent, Jobs ne peut être entendu que parler de sujets qui sont devenus ses principaux sujets de discussion – l’esthétique, les produits révolutionnaires, des concurrents tels que Google, Microsoft et Adobe, et les triomphes du Macintosh d’origine.

Il sera intéressant de voir s’il y a des litiges à cause de cela. Alors qu’à titre expérimental, Rogan apprécierait certainement le fait que sa voix ait été créée numériquement, nous sommes à peu près sûrs qu’il n’approuverait pas le fait que sa voix ait été utilisée pour promouvoir un produit ou un service, d’autant plus qu’il n’est pas payé. . L’image de Jobs, d’un autre côté, est très précieuse pour Apple, une entreprise qui a été notoirement litigieuse pour quiconque utilise l’image de Jobs sans autorisation.

