Skip to main content

Los errores aumentan considerablemente si hay silencios en el audio, ya que el modelo se inventa la transcripción

El modelo de audio a texto Whisper es uno de los más usados en la actualidad para transcribir conversaciones. No solo para uso personal, sino que existen múltiples aplicaciones, también en el sector médico, que permiten transcribir y tomar notas con facilidad. Ahora, un estudio de las universidades de Nueva York, Cornell, Washington y Virginia ha llegado a la conclusión de que se inventa gran parte de la transcripción. En concreto, el porcentaje de errores podría llegar a superar el 1,7%.

Aunque parece una cifra insignificante, una mala transcripción puede dar lugar a errores de mayor calado, sobre todo en sectores como la medicina o la justicia, en los que ya se estaría usando para tomar notas en conversaciones entre los médicos y los pacientes y en juicios. Un error de este tipo podría conducir a un diagnóstico erróneo del paciente o en transcribir declaraciones de acusados que nunca ocurrieron.

Whisper inventa la conversación cuando hay silencios

Pero sin duda, uno de los hallazgos más importantes es la capacidad del modelo para ‘alucinar’ en aquellos momentos en los que simplemente no hay conversación (silencios en los que ninguno de los interlocutores habla). En este caso, las personas con afasia, un trastorno que afecta a la expresión verbal, son particularmente vulnerables ante estas alucinaciones. Al realizar pausas prolongadas durante la conversación, el modelo se inventa lo que no han dicho. Por eso el estudio concluye que en este grupo se producen un 40% más de alucinaciones, ya que estas pausas son aprovechadas por el modelo para «rellenar» el espacio con contenido imaginario, lo cual puede distorsionar profundamente el mensaje del usuario.

Un aspecto notable de las alucinaciones documentadas es su categorización en tres tipos: perpetuación de violencia, asociaciones incorrectas y falsa autoridad. Estas alucinaciones pueden no solo cambiar el significado del mensaje original, sino también generar representaciones inapropiadas que podrían perjudicar al usuario en contextos específicos. Por ejemplo, en aplicaciones médicas, una alucinación podría derivar en la inclusión de información errónea en los registros médicos de un paciente, mientras que en contextos legales, podría llevar a decisiones judiciales basadas en interpretaciones falsas del habla de una persona.

Los servicios de transcripción de Google y Amazon no alucinan

La investigación también contrasta el rendimiento de Whisper con otros sistemas de transcripción automática como Google Speech-to-Text y Amazon Web Services, hallando que las alucinaciones son un problema casi exclusivo de Whisper. Esto sugiere que el modelo de OpenAI puede estar más predispuesto a estos errores debido a su dependencia de modelos generativos como GPT, que tienen sesgos hacia la creación de contenido coherente pero no necesariamente preciso.

Finalmente, los autores hacen un llamamiento a OpenAI y a otros desarrolladores de IA para que consideren estas limitaciones y ajusten sus modelos. Recomiendan que se incluya a personas con dificultades en el habla en el desarrollo y prueba de estos sistemas para reducir sesgos y garantizar una mayor equidad. Además, destacan la necesidad de informar a los usuarios sobre el riesgo de alucinaciones en las transcripciones de Whisper, sugiriendo medidas como ajustes en los parámetros de generación de texto y una supervisión ética más rigurosa en el uso de tecnologías de transcripción automática.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.