Skip to main content

Sesame, la empresa de inteligencia artificial, ha anunciado el lanzamiento de su modelo base, el cual impulsa a Maya, su voz generada con inteligencia artificial hiperrealista.

Con el debut de Conversational Speech Model-1B (CSM-1B), Sesame da un gran paso en el desarrollo de generadores de voz con inteligencia artificial. Este modelo, con 1.000 millones de parámetros, se encuentra disponible bajo la licencia Apache 2.0, lo que permite su uso comercial con restricciones mínimas. Su lanzamiento abierto ofrece a las empresas la posibilidad de integrar el asistente de voz de Sesame en entornos comerciales o empresariales.

Así es el CSM-1B de Sesame

La arquitectura del modelo de Sesame se basa en un modelo de la familia Llama de Meta, complementado con un componente decodificador de audio. Una variante ajustada de CSM impulsa a Maya. Según la información disponible, el modelo de código abierto genera una amplia variedad de voces, aunque no ha sido optimizado para ninguna en particular. Además, posee cierta capacidad para manejar idiomas distintos al inglés debido a la ‘contaminación’ de datos durante su entrenamiento, aunque su desempeño en otros idiomas sigue siendo limitado.

Uno de los puntos más controvertidos es la falta de transparencia de Sesame sobre los datos de entrenamiento de CSM-1B. La empresa ha decidido no revelar su procedencia, lo que ha generado dudas en la comunidad tecnológica sobre la representatividad y diversidad de los datos utilizados. Además, el modelo carece de un sistema de protección integrado que evite su uso indebido. En lugar de implementar restricciones técnicas, Sesame confía en la ética de los desarrolladores y usuarios, instándoles a no clonar voces sin consentimiento, difundir noticias falsas o realizar actividades fraudulentas.

Un poco más sobre el creador de Maya

Sesame, cofundada por Brendan Iribe, cocreador de Oculus, ha ganado relevancia desde finales de febrero gracias a su tecnología de asistente de voz hiperrealista. Maya y otro asistente de Sesame, Miles, incorporan características como pausas naturales y la capacidad de ser interrumpidos durante el discurso, similar al modo de voz de OpenAI. Estas funciones buscan emular patrones de conversación humanos, mejorando la naturalidad y fluidez en las interacciones.

Recientemente, la empresa consiguió financiación de inversores como Andreessen Horowitz, Spark Capital y Matrix Partners. Además de desarrollar tecnología para asistentes de voz, Sesame explora el diseño de gafas con IA «pensadas para usarse todo el día». Estos dispositivos, equipados con sus modelos personalizados, buscan competir con opciones como las Aria Gen 2.0 de Meta.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Gerard Quintana

Periodista. Me encanta el periodismo y la tecnología.

Dejar un comentario