La inteligencia artificial que imita voces en 3 segundos

La IA nos permitirá imitar voces, algo que también podrá prestarse para delitos informáticos.

La inteligencia artificial sigue creciendo a pasos agigantados. Cada semana encontramos nuevos avances en distintas materias y una de las más innovadores es la imitación de voces, como lo propone VALLE-E. Se trata de un sistema de IA desarrollado por Microsoft, el cual puede detectar e imitar voces en solo 3 segundos. Algo sensacional, aunque muchos temen de las falsificaciones que puede incitar esta IA.

Este sistema de Microsoft es capaz de imitar voces con un alto grado de realismo, igualando tonos de voz tal cual lo haría la propia persona hablante. Además, se caracteriza porque los datos de entrada que no necesariamente deben ser extensos, siendo así una de sus mayores virtudes y convirtiéndose en una IA única, hasta el momento.

 

  • ¿Cómo surgió VALL-E?

La mencionada inteligencia artificial tiene sus bases en ‘EnCodec’, una tecnología de compresión de audio de Meta que usa IA para operar con sonidos con mejor calidad que un CD, sin pérdidas de calidad. Originalmente, ese método tenía como fin mejorar la calidad de las llamadas telefónicas y reducir la demanda en los servicios de streaming de música. Pero la IA fue más allá, redobló la apuesta y comenzó a utilizar esta tecnología para imitar voces.

En consecuencia, con pocos datos y en solo 3 segundos se pueden captar voces e imitarlas, algo que no sucede con otras tecnologías similares como los asistentes virtuales de Apple, Amazon o Google Assistant. En este marco, VALL-E tiene las herramientas necesarias para producir voces digitales disponibles en la actualidad con resultados muy realistas y naturales.

La excelencia alcanzada requiere de muchos datos y de alta calidad, que habitualmente se graban con equipos profesionales, algo que la compañía todavía no reveló. Sin dudas que se trata de una inteligencia artificial innovadora la que desarrolló Microsoft, capaz de simular la voz de casi cualquier persona sin pasar semanas en un estudio de grabación. Aunque esta ventaja podría ser usada para comer actos ilícitos, por lo que debería medirse el uso de VALL-E.

ver en sitio completo: La inteligencia artificial que imita voces en 3 segundos