Skip to main content

En el DevDay de OpenAI, se vieron ya las posibilidades que ofrecerá el nuevo asistente de voz avanzado más allá de la propia ChatGPT. Con la nueva API, apodada ‘Realtime’ cualquier desarrollador podrá crear aplicaciones capaces de responder a las demandas de un cliente. Muchos expertos consideran este el punto y final de los ‘call centers’ con miles de operadores resolviendo dudas.

Antes de la aparición de la API Realtime, la creación de experiencias de asistentes de voz requería que los desarrolladores integraran múltiples modelos para manejar el reconocimiento de voz, la interpretación de texto y la síntesis de voz. Este proceso no solo era complicado, sino que afectaba la calidad de la interacción al perder matices como la emoción y los acentos, además de añadir una latencia notable.

Con la nueva API, toda esta funcionalidad se puede gestionar a través de una única llamada, eliminando la necesidad de ensamblar modelos separados. Aunque la latencia sigue siendo mayor que en una conversación humana, la API Realtime mejora este aspecto al permitir la transmisión directa de audio y gestionar las interrupciones de manera fluida. Esto se asemeja al modo avanzado de voz de ChatGPT, lo que la convierte en una solución más natural y eficiente para la creación de asistentes de voz.

Posibles usos

En la presentación, se puso como ejemplo la interacción con este modelo para realizar la compra. Con algunas interacciones, el asistente va añadiendo o quitando productos de la cesta. ¿Podría ser el futuro de tiendas online como Amazon, al integrar sistemas similares en Alexa? El usuario podría realizar la compra por Internet directamente dictando los productos al asistente. Si vamos más allá, incluso se podrían seleccionar los productos explicando el menú del usuario a lo largo de la semana.

En atención al cliente, sector ya muy digitalizado, esta nueva herramienta permitiría evitar los tiempos de espera habituales y ofrecer un servicio simultáneamente a centenares de clientes al mismo tiempo.

El precio de uso

Los precios de la nueva Realtime API son mucho más elevados que los de otros modelos de texto, llegando a costar 100 dólares por cada millón de tokens de entrada, y 200 dólares por el equivalente de salida. Se calcula que una hora de uso de esta API podría superar los 18 dólares.

Seguridad

En cuanto a la seguridad, OpenAI ha integrado diversas protecciones para mitigar el abuso de la API, desde la supervisión automática hasta revisiones humanas de contenido sospechoso. Las pruebas iniciales no revelaron lagunas significativas en cuanto a riesgos no cubiertos por las mitigaciones actuales, y como en todos los servicios para desarrolladores, la API Realtime está sujeta a los compromisos de privacidad de OpenAI para las empresas.

Los desarrolladores interesados pueden comenzar a trabajar con la API Realtime a través de la plataforma Playground de OpenAI, o con la documentación y clientes de referencia disponibles. La empresa también ha colaborado con plataformas como Twilio para facilitar la integración de la API en aplicaciones que se comuniquen con clientes mediante llamadas de voz.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación