OpenAI despliega Sora, potenciado por GPT-4o, en ChatGPT con capacidad de generación de imágenes. La nueva capacidad de generación de imágenes en ChatGPT, impulsada por GPT-4o, ofrece creaciones más precisas y detalladas.
Durante una transmisión en vivo este martes, el CEO de OpenAI, Sam Altman, ha anunciado una importante actualización en la capacidad de generación de imágenes de ChatGPT, marcando la primera gran mejora de este tipo en más de un año. Este avance permite que ChatGPT utilice el modelo GPT-4o de la compañía para crear y modificar imágenes y fotos de manera nativa, una funcionalidad que hasta ahora estaba limitada a la generación y edición de texto.
Inicialmente disponible para los suscriptores del plan Pro de 200 dólares al mes de la compañía, se espera que la característica se extienda pronto a los usuarios de los planes Plus y gratuito de ChatGPT, así como a los desarrolladores que utilizan el servicio de API de la compañía. GPT-4o, que ahora también respalda Sora, el producto de generación de videos AI de OpenAI, permite generar imágenes que «piensan» un poco más que el modelo de generación de imágenes que efectivamente reemplaza, DALL-E 3, para producir imágenes más precisas y detalladas.
Mejoras técnicas y respeto por los derechos de autor
Para potenciar la nueva función de imagen, OpenAI entrenó GPT-4o con «datos públicamente disponibles», así como datos propietarios provenientes de sus asociaciones con compañías como Shutterstock. A pesar de que muchos proveedores de IA generativa consideran los datos de entrenamiento como una ventaja competitiva y suelen mantenerlos en secreto, OpenAI ha implementado políticas para respetar los derechos de los artistas y evitar la generación de imágenes que imiten directamente el trabajo de artistas vivos.
Salvaguardias y control de datos
OpenAI también ofrece un formulario de exclusión que permite a los creadores solicitar que sus obras sean eliminadas de sus conjuntos de datos de entrenamiento. Además, la compañía respeta las solicitudes para que sus bots de rastreo web no recolecten datos de entrenamiento, incluidas imágenes, de sitios web. Esta medida busca equilibrar la innovación tecnológica con el respeto por la propiedad intelectual y los derechos de autor.
Contraste con la competencia y expectativas futuras
La actualización de la característica de generación de imágenes de ChatGPT sigue a la salida experimental de la salida de imagen nativa de Google para Gemini 2.0 Flash, uno de los modelos insignia de la compañía. Aunque la función de Google se volvió viral en redes sociales, también reveló la falta de restricciones adecuadas, permitiendo a las personas eliminar marcas de agua y crear imágenes que representan personajes con derechos de autor.
Sora se integra en ChatGPT mejorando la creación de imágenes directamente en la plataforma, disponible para todos los niveles de suscripción.
Gabriel Goh, líder de investigación en OpenAI, destacó durante una entrevista en The Verge que Sora utiliza la fundación «omnimodal» de GPT-4o, que permite generar cualquier tipo de dato como texto, imagen, audio y video. Una de las mejoras más notables incluye la capacidad de «binding» o vinculación, lo que significa que Sora mantiene relaciones correctas entre atributos y objetos con mucho mayor precisión que modelos anteriores. Por ejemplo, puede manejar correctamente la asignación de colores y formas para entre 15 y 20 objetos sin confusión, un avance considerable en comparación con otros modelos que suelen mezclar colores y formas.
Nuevos desafíos y enfoques técnicos en la generación de imágenes
Sora introduce un enfoque autoregresivo para la generación de imágenes, procesándolas secuencialmente de izquierda a derecha y de arriba abajo, similar a cómo se escribe el texto. Esta técnica difiere del modelo de difusión utilizado por la mayoría de los generadores de imágenes que crean la imagen completa de una vez. Según Goh, este cambio técnico es clave para las mejoradas capacidades de renderizado de texto y vinculación de Sora.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.