El sector de las IAs generativas está que arde y Google no iba quedarse atrás. La compañía norteamericana presenta la nueva versión de generador de imagen: Imagen-2. Como efecto dominó y pocos días después de la presentación fallida de Gemini, la gigante empresarial ha intentado dar un salto cualitativo. Aún no está disponible para los usuarios.
Meet Imagen 2: our most advanced text-to-image diffusion technology. ✨
It features high-quality, photorealistic outputs and stronger consistency with your prompts. 🖼
Now available to use via @GoogleCloud’s
#VertexAI platform. →
https://t.co/T1IIJMbIW9
pic.twitter.com/iWIzi2jgZH— Google DeepMind (@GoogleDeepMind)
December 13, 2023
En su anuncio, Google resaltó que Imagen 2 es su tecnología más avanzada en la generación de imágenes hasta la fecha. Esta versión supera a la anterior en varios aspectos clave: produce fotografías de mayor realismo y calidad, y mejora notablemente la consistencia en los resultados basados en los prompts de los usuarios. El objetivo de Imagen 2 parece estar en superar a DALL-E 3 de OpenAI. Google ha enriquecido el conjunto de datos utilizado para entrenar Imagen 2 con descripciones adicionales, permitiendo al modelo comprender diversos estilos y seguir las indicaciones del usuario con mayor precisión.
Durante el proceso de entrenamiento, se puso especial atención en mejorar aspectos donde la primera versión de Imagen y otros modelos similares mostraban debilidades, como en el renderizado de imágenes y en la representación de dientes, rostros humanos y otros rasgos complejos.
Una de las novedades más destacadas de Imagen 2 es su capacidad para insertar texto legible en imágenes y mejorar la generación de logos o iconos. Además, ofrece la posibilidad de mantener un estilo consistente entre diferentes imágenes generadas, combinando prompts de texto e imágenes. Más allá de generar imágenes, Imagen 2 también puede editar fotografías existentes. Esto incluye añadir contenido a imágenes o expandirlas para cubrir áreas más grandes.