El asistente de voz Maya, creado por Sesame, y un nuevo modelo chino (R1-Omni) buscan dotar a los asistentes virtuales de la capacidad para transmitir y entender algo tan humano como las emociones
El terreno de los robots y las emociones se ha explorado desde hace tiempo en la ficción. Ahora, que muchas veces la interacción con la IA es casi indistinguible de la humana, las empresas buscan perfeccionar sus modelos.
Porque el terreno de las emociones es un reto mayúsculo: se trata muchas veces de identificar rasgos del lenguaje no verbal. En cada cultura, estos pueden variar, lo que dificulta aún más el trabajo de los desarrolladores. Por no hablar de la cara de póquer que ponemos a veces cuando no podemos expresar lo que sentimos realmente. ¿Podrán los robots entender eso algún día?
Hay dos fechas que han sido grandes puntos de inflexión. La primera, mayo de 2024. OpenAI presenta su modelo multimodal 4o. De repente, los asistentes de voz comienzan a susurrar y expresar tímidas emociones. De nuevo, la legislación pone topes que a veces hacen que los modelos deban ‘robotizarse’ de nuevo: OpenAI decidió capar su asistente para que no pudiera cantar, por ejemplo.
La segunda fecha es febrero de 2025. La startup Sesame lanza Maya. Este asistente es capaz de interpretar emociones humanas y responder en consecuencia. Las primeras demos dejan momentos curiosos: incluso es capaz de ‘flirtear’ con su interlocutor. No hablemos ya de su potencial de convicción: las emociones son lo que mueve el mundo.
Lo rompedor con respecto a OpenAI es que este modelo es open source y cualquier desarrollador puede usarlo (la licencia es Apache 2.0, que permite uso comercial). La empresa ‘confía’ en que sean precisamente los desarrolladores quienes hagan un uso ético, por eso lo han liberado sin filtros. Ahora bien: eso añade complejidad a las tareas de supervisión de la UE. Ya no se trata de silenciar a una tecnológica multinacional, se trata de revisar millones de servicios de desarrolladores pequeños y medianos. ¡Ahí es nada!
R1-Omni: un modelo multimodal para ‘leer’ las emociones
Y siguiendo en el ámbito de las emociones, Alibaba ha presentado esta semana un interesante ‘paper’ sobre su modelo R1-Omni. Ellos han usado un modelo de refuerzo con recompensa verificable. Cuando la IA produce una respuesta, esta es comparada automáticamente con una solución que sabemos que es correcta. Si la respuesta coincide exactamente, recibe una recompensa positiva; si no, la recompensa es cero. Esto elimina la necesidad de supervisión humana constante, haciendo el entrenamiento más rápido y objetivo.
De esta forma, el modelo puede explicar con claridad cómo llega a una conclusión emocional, detallando cómo usa la información visual (expresiones faciales, movimientos corporales) y auditiva (tono de voz, ritmo, volumen). Esto permite entender exactamente qué factores influyen más al reconocer emociones y, si no funcionan, corregirlos.
En definitiva: se abre un terreno interesante a la par que inexplorado. Estas tecnologías capaces de entender nuestra cara más humana podrían usarse para otros fines éticamente cuestionables, por eso la UE incide en ellas en su AI Act. Sobre todo en el aspecto de la transparencia: que los humanos sepamos cuándo hablamos con un robot. Sin embargo, podría llegar un día en el que a los humanos nos parezca irrelevante saber si hablamos o no con una máquina. Y tú, ¿por qué hipotético futuro te decides?
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.