Pronto la voz humana se confundirá con la robótica

Saúl Ameliach

hace 8 años

La inteligencia artificial de Google puede crear sus propias imágenes surrealistas y hasta vencer al humano campeón del antiguo juego de Go. Y ahora, puede imitar de manera muy realista el habla humana, incluyendo los sonidos no hablados que emiten la boca y el sistema respiratorio cuando una persona habla.

El sistema se llama WaveNet, que consiste de una red neuronal generadora de ondas de audio. Tenemos generadores de texto al habla, y son muy útiles, especialmente para aquellos que padecen de ceguera. Sin embargo, estos generadores están constituidos por grabaciones de una persona diciendo y articulando una variedad de sonidos, y luego realizando distintas combinaciones de esos sonidos para concordar con el texto.

Esto se conoce como síntesis concatenativa y, como te imaginarás, suena muy artificial.La síntesis paramétrica de voz genera audio con el uso de vocodificadores y sintetizadores que analizan y reproducen el habla; sin embargo, también suenan poco naturales y robóticos.

WaveNet es una inteligencia artificial, lo que significa que puede aprender. Los investigadores lo nutrieron de ejemplos del habla humana. Esto le permite a WaveNet modelar las ondas (más de 16,000 muestras por segundo) y generar un modelo predictivo que produce sonidos que vienen de los sonidos emitidos anteriormente.

El resultado es tan realista que suena como una persona, aun y especialmente cuando WaveNet tuvo que generar sus propios sonidos.

FUENTE