VALL-E 2 : Une IA trop puissante ?

Par Francis MILLOT Le samedi, 20 juillet 2024 0

Microsoft présente une nouvelle intelligence artificielle qui permet d'imiter la voix humaine avec une précision encore inégalée à ce jour. Cette technologie est tellement puissante que pour des raisons de sécurité, l'éditeur a décidé de ne pas la diffuser pour éviter qu'elle ne soit exploitée par des individus malveillants.

Le voile est donc levé, l’arrivée de la deuxième itération du modèle de synthèse vocale VALL-E, présentée pour la première fois en janvier 2023, est annoncée par son éditeur. Nommée « VALL-E 2 », cette nouvelle intelligence artificielle est capable d’imiter une voix humaine en quelques secondes, en adoptant des variations de prononciation et d’intonation, capables de produire un discours artificiel. D’après Microsoft, VALL-E 2 est si efficace, que l’IA vient d’atteindre « la parité humaine ».Il est en effet impossible de différencier le deepfake vocal de VALL-E 2, de la voix d’une véritable personne, les petites imperfections dans la formulation ou l’intonation ont vraiment disparues.

Pour y parvenir, Microsoft a ajouté deux innovations dans la manière dont l’IA traite les données vocales :

L'échantillonnage sensible à la répétition (Repetition Aware Sampling). Il utilise une nouvelle méthode pour le processus de décodage où les codes appris sont convertis en paroles audibles. La sélection des codes s'adapte dynamiquement à leur répétition dans la séquence de sortie précédente. Au lieu de sélectionner au hasard les codes possibles comme sa version n-1, l'IA passe intelligemment d'une méthode d'échantillonnage à l'autre. Cette commutation adaptative améliore considérablement la stabilité du processus de décodage et évite les problèmes tels que les boucles infinies, évitant les répétitions de jetons*.
La modélisation des codes des codec en groupes. Elle accroît l'efficacité de l'outil en réduisant le nombre de jetons qu'il doit traiter dans une seule séquence d'entrée, ce qui permet d'accélérer la vitesse de génération de la parole.

* Les jetons sont de petites unités de langage, comme des mots ou des parties de mots.

Le danger des deepfakes vocaux

Les usages de VALL-E 2 sont multiples. Microsoft entrevoit la possibilité de se servir de l’IA pour aider les personnes en situation de handicap où encore pour être utilisée dans des secteurs, tels que :

L’apprentissage éducatif
Le divertissement
Le journalisme
Le contenu auto-écrit
Les fonctionnalités d’accessibilité
Les systèmes de réponse vocale interactifs
La traduction
Le chatbot
Etc...

Maintenant, les risques encourus avec ce type de générateur de voix sont loin d’être négligeables. Microsoft est conscient qu’en exploitant un modèle comme VALL-E 2, une personne malveillante serait en mesure d’usurper la voix d’un proche, d’une célébrité ou d’un homme politique lors d’un appel téléphonique. Les conséquences associées pourraient être désastreuses (versement d’argent, communication d’informations sensibles, etc…). L’utilisation abusive de ce modèle, comporte également des risques liés à l’usurpation d’identité vocale. Bref, c’est la porte ouverte à une multitude d’abus, surtout quand on sait que de nombreux cybercriminels exploitent déjà la technologie deepfake pour orchestrer leurs cyberattaques. De plus, ce n'est pas la première fois que des escrocs utilisent l’IA pour réaliser des fraudes financières d’envergure.

C’est pour toutes ces raisons que VALL-E 2 est aujourd’hui uniquement utilisé à des fins de recherche. Pour l'instant, Microsoft refuse d'intégrer cette IA dans ses produits ou d’élargir son accès à tout public.

IA Microsoft deepfakes VALL-E 2

★ ★ ★ ★ ★

11 votes. Moyenne 5 sur 5.

Vous devez être connecté pour poster un commentaire