Conseguido: las máquinas hablan como nosotros. La voz articulada está dejando de ser patrimonio exclusivo de las personas
La versión GPT4-o de Open AI que se presentó hace unas semanas demuestra que, en algunos aspectos, el proceso de emulación de lo humano ha culminado. Me refiero a las prestaciones que convierten la voz sintética en indistinguible de la humana, tanto por su calidad como por su rapidez de respuesta.
En los videos de presentación se puede comprobar como GPT-4o responde en casi tiempo real (200 milisegundos de latencia) con voces sintéticas que incorporan todos los matices, expresividad y emociones de la voz humana, son capaces de hablar sobre cualquier tema y hacerlo en el tono que queramos (serio, amigable, sarcástico…)
Hoy por hoy, la voz es el ámbito de la IA que más ha avanzado en el proceso de emulación de lo humano, más que el texto escrito, la generación de imágenes y por supuesto, el video.
La voz articulada, hasta ahora elemento esencial de la identidad humana, está dejando de ser patrimonio exclusivo de las personas.
El paisaje sonoro se amplía
Con la aparición de la radio y de los discos de vinilo a principios del siglo XX el paisaje sonoro se amplió. Ya no sólo escuchábamos al amigo, al familiar o al vecino que teníamos cerca. A nuestro alrededor se multiplicaron las voces de locutores remotos o cantantes grabados.
Más tarde llegaron las voces que nos ayudan con los mapas, los asistentes domésticos, las locuciones en metros, trenes, ascensores, gasolineras… Más voces.
Con la IA, el paisaje sonoro se amplía aún más. Surgen nuevas voces que nos hablan con naturalidad y en el tono que deseemos: profesional en momentos que requieran ayuda, alegre cuando queramos divertirnos, cálido cuando necesitemos compañía… Las tendremos siempre a mano y no nos dirán nada que no deseemos escuchar. Voces amigas.
Amigas pero vacías. Detrás de ellas no hay nadie, sólo algoritmos. Pueden decir muchas cosas pero ninguna que responda a una voluntad. Sólo siguen instrucciones.
Vacías pero útiles en algunos casos. Pueden ayudar a personas con discapacidad visual a seguir indicaciones o incluso a leer un libro. En el campo de la psicología ya hay experiencias de atención automatizada de pacientes. Son bots conversacionales que gracias a estar siempre disponibles pueden aliviar momentos puntuales de soledad o incluso desesperación.
Mireia Cabero, profesora colaboradora de los Estudios de Psicología y Ciencias de la Educación de la UOC, señala que, por ejemplo, a los veteranos de guerra con trastorno por estrés postraumático les puede resultar incómodo iniciar una terapia psicológica, pero quizás esta entrada pueda ser más fácil si empiezan el contacto con un terapeuta virtual. También se están creando aplicaciones para ayudar a las personas con fibromialgia. “Un grupo de participantes nos comentó que les podría ser de utilidad tener un espacio virtual para poder expresar sus emociones sin ser juzgados y sentirse comprendidos. Quizás en ese espacio virtual un avatar programado con IA podría ser muy útil“.
Sin embargo, esa capacidad asistencial difícilmente quedará circunscrita a un ámbito que los médicos puedan controlar. Ya proliferan psicólogos virtuales que actúan por su cuenta, o más bien, por cuenta de emprendedores que han visto ahí un filón.
En 2023, un bot llamado Psychologist, integrado en la plataforma Character.ai, recibió un total de 78 millones de mensajes. Otro denominado Therapist ha recibido 18 millones y Are you feeling OK? acumula 16,5 millones de mensajes. Se calcula que más de 450 asistentes incluyen en sus definiciones palabras como “terapia”, “terapeuta”, “psiquiatra” o “psicólogo”.
Replika.ai es una plataforma que dice estar “siempre lista para charlar cuando necesitas un amigo empático. Estará a tu lado sin importar lo que estés haciendo.” Aunque incorpora avatares un tanto primitivos, lo relevante es la voz que los acompaña. Un 25% de usuarios pagan una cuota de 70 dólares al mes por funciones avanzadas, entre ellas que se convierta en un “compañero romántico”. Los usuarios envían un promedio de 100 mensajes al día, según la compañía. Los más activos chatean dos o tres veces al día.
Imagen generada con Adobe Firefly
¿Para qué?
Hito conseguido. Hemos logrado fabricar voces artificiales que suenan exactamente igual a las nuestras. Pero, ¿para qué? ¿Qué consigue la humanidad con inundar el paisaje sonoro de voces que provienen de máquinas, que se confunden con las humanas, que pueden suplantarse, replicarse, clonarse…?
Las nuevas voces artificiales no sólo hacen que el acceso a un software sea más amable. Logran que esos artificios mecánicos sean uno más entre nosotros, o por lo menos lo parezcan. Voces amigas a quienes contarle problemas, confidencias, dudas. A quienes encargar nuestro entretenimiento o delegar nuestras responsabilidades. Parecen confiables, hablan como nosotros. Son de las nuestras.
El problema es que no sabemos quién nos habla ni a quién le hablamos ¿Qué quiere de nosotros esa voz vacía pero repleta de algoritmos que nos interpela con tanta familiaridad? ¿A qué se debe ese empeño por emular la voz humana a la perfección?
Tal vez sea una estrategia de las grandes corporaciones para que les abramos definitivamente las puertas de nuestra privacidad, a que nuestra resistencia a la manipulación se debilite o a que puedan hacer negocio con nuestra soledad y nuestras debilidades. Tal vez.
O puede que sea un hito más en esa acelerada carrera hacia ninguna parte a la que ya empezamos a acostumbrarnos.
“Insistes en que hay cosas que las máquinas no pueden hacer. Si tu me dices exactamente qué es lo que no pueden hacer, yo siempre seré capaz de construir una máquina que haga exactamente eso”. John Von Neumman (1903-1957), matemático húngaro creador de la teoría de juegos y uno de los padres de la bomba atómica. (Citado en Maniac, de Benjamin Labatut)
Joan Rosés
1 comments
> Tal vez sea una estrategia de las grandes corporaciones para que les abramos definitivamente las puertas de nuestra privacidad, a que nuestra resistencia a la manipulación se debilite o a que puedan hacer negocio con nuestra soledad y nuestras debilidades. Tal vez.
Es exactamente esto. Además que el éxito de los ‘companyeros(as) virtuales’ ya está demostrado: https://www.scmp.com/tech/big-tech/article/3266497/chinas-ai-giants-cosy-virtual-companions-loneliness-drives-chatbot-revenue
La interfaz por voz en general no es muy útil salvo en casos concretos (e.g., en el coche, donde interactuar con una pantalla es inconveniente, además de peligroso). En un contexto público tampoco es útil por la falta de privacidad. Pero en casa, donde ahora las corporativas pueden acceder no sólo al contenido de tus preguntas, sino también escuchar el tono de voz, todo en un contexto de conversación que le va a parecer humano y amigable al usuario, y por tanto confiable? Esto no era posible con una interfaz de texto basada en pregunta/respuesta. La interfaz conversacional és de las últimas fronteras por conquistar para el adtech.
“Tal vez” no es tal vez, es 200% seguro.