La inteligencia artificial seguirá pisando fuerte en 2023. Muchos negocios y empresas han adoptado esta nueva era. Mencionemos que Microsoft es una de estas empresas. La cual incorporó la IA de diversas maneras, VALL-E es el arma más secreta de Microsoft.
¿Qué es VALL-E?
El modelo lingüístico que utiliza esta inteligencia artificial es para la síntesis de texto a voz. En otras palabras, es un programa que le permitirá introducir texto al tiempo que duplica cualquier voz. Microsoft asegura que todo lo que se necesita para imitar con éxito la voz son tres segundos de grabación.
Parece increíble, ¿verdad? La colaboración entre Microsoft y ChatGPT para hacer compatibles ambos sistemas es el aspecto más intrigante de todo esto. Si se piensa un poco, esto implica que se integrarán las tecnologías de IA de voz e IA generativa.
Para que sea más fácil de comprender. Piensa en ello como una actualización de ChatGPT que nos da la oportunidad de elegir la voz en la que se muestran los resultados. Puedes utilizar esta opción para pedir que lea los resultados con la voz de tu famoso preferido. Basta una grabación de tres segundos para que tu deseo se haga realidad.
Además de poder imitar la voz, también puede replicar el ritmo y el tono de las grabaciones en el idioma original. No sólo es compatible con ChatGPT, sino que también se puede utilizar con otros programas de síntesis de voz como TTS y programas de edición de voz.
¿Cómo funciona VALL-E?
Sólo tiene que introducir el texto que desea sintetizar en una cara para iniciar el proceso. Como alternativa, puede incluir un clip de audio de tres segundos de la voz de la persona que desea que la tecnología replique.
A continuación, el texto se traduce a fonemas y la grabación de audio se codifica mediante un códec de audio.
Una vez hecho esto, los dos se combinan para formar un modelado lingüístico para un códec neural. Esta combinación de texto y voz pasa por un descodificador de códecs de audio para producir el habla personalizada.
Advertencias del VALL-E
¿Y la suplantación de voz?
La postura ética de VALL-E se discute en esta sección hacia el final de la página. Reconocen que puede haber problemas relacionados con el abuso, incluida la suplantación de la voz.
Por otro lado, aclara que los ensayos se realizan con la suposición de que el orador tiene la intención de ser el objetivo de la síntesis de voz. Por lo tanto, es esencial y recomendable incluir un proceso para asegurarse de que el hablante está de acuerdo.
Inciden en los principios morales y éticos humanos, como ocurre siempre con las preocupaciones relacionadas con la inteligencia artificial. Es sin duda un problema que no podemos ignorar a medida que se desarrolla la inteligencia artificial.
No debemos perder de vista que la tecnología es una herramienta que puede utilizarse para bien o para mal, dependiendo de la persona que la tenga en sus manos. La tecnología se está desarrollando y seguirá desarrollándose, pero también debemos educarnos y tomar precauciones contra posibles abusos.
Para ver un poco sobre nuestro contenido visita el blog.