Take a fresh look at your lifestyle.

Microsoft présente une IA capable d’imiter votre voix en 3 secondes

Les chercheurs de Microsoft ont dévoilé VALL-E, une intelligence artificielle capable de synthétiser la voix de n’importe quelle personne après l’avoir entendue pendant seulement trois secondes. Le résultat est aussi impressionnant qu’inquiétant.

En synthétisant la voix d’un humain après l’avoir entendu, l’IA de Microsoft peut « parler à sa place » tout en préservant la tonalité, les émotions et l’environnement sonore de la personne. Les créateurs de VALL-E restent cependant prudents.

Plus besoin de parler, l’IA le fait pour vous

Chez Microsoft, VALL-E est qualifié de « modèle de langage de codec neuronal ». L’IA est un modèle de synthèse vocale capable de générer des paroles. Cela n’a rien d’inédit, mais VALL-E se distingue par sa rapidité d’apprentissage, en seulement trois secondes, et sa capacité à répliquer les émotions de la personne qui parle. Autre élément de différenciation de l’intelligence artificielle : créer un enregistrement de mots et de phares que l’orateur n’a jamais prononcés.

Pour y parvenir, l’intelligence artificielle a été entrainée sur plus de 60 000 heures de données vocales en anglais prononcées par plus de 7 000 locuteurs lisant des livres audio gratuits du domaine public disponibles sur LibriVox.

Les extraits partagés par Microsoft sur Github sont divisés en quatre colonnes. La première, « Speaker Prompt », est l’audio de 3 secondes que doit imiter VALL-E. Le deuxième, « Ground Truth », est un enregistrement préexistant du même locuteur afin de pouvoir le comparer. Le troisième, « Baseline », est un exemple de synthèse vocale conventionnelle. Enfin, « VALL-E » est l’extrait prononcé par l’IA de Microsoft.

LIRE LA SUITE ICI

Les commentaires sont fermés.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More