Google lanza Gemini 2.0 Flash y añade funciones multimodales

Google ha dado un paso más en la evolución de la inteligencia artificial al anunciar Gemini 2.0 Flash, su modelo más avanzado hasta la fecha. Este desarrollo, que busca competir directamente con los últimos lanzamientos de OpenAI, promete no solo generar texto, sino también imágenes, audio y más, consolidándose como una propuesta clave en el ámbito de las capacidades multimodales.

Una IA más allá del texto

A diferencia de su predecesor, Gemini 1.5 Flash, que estaba limitado a la generación de texto, la nueva versión amplía sus horizontes al incorporar herramientas para generar y modificar imágenes, interpretar audio y video, y ofrecer narración en múltiples voces. Además, el modelo permite interacciones avanzadas con aplicaciones y servicios externos, como Google Search y APIs de terceros. Según Google, estas mejoras hacen que el modelo sea «dos veces más rápido» que el Gemini 1.5 Pro en ciertas pruebas internas.

Uno de los aspectos destacados de Gemini 2.0 Flash es su capacidad para modificar imágenes y analizar contenido multimedia, permitiendo responder preguntas sobre fotos y videos. En el ámbito del audio, la IA puede generar narraciones personalizables, desde variaciones en velocidad hasta entonaciones estilizadas.

Nueva API para integrar en aplicaciones

Google lanzará Gemini 2.0 Flash a través de su API y plataformas para desarrolladores, como AI Studio y Vertex AI. Sin embargo, las funcionalidades de audio e imágenes estarán disponibles inicialmente solo para socios seleccionados, con un despliegue más amplio planeado para enero de 2025. Además, el modelo se integrará progresivamente en herramientas populares como Android Studio, Chrome DevTools y Firebase.

Una novedad relevante es la API Multimodal Live, que ya está disponible. Esta herramienta permitirá a los desarrolladores construir aplicaciones en tiempo real con funciones de transmisión de audio y video, consolidando a Gemini 2.0 Flash como una opción versátil para diversos sectores.

Ética en la generación de contenidos

Aunque las capacidades descritas son prometedoras, Google aún no ha mostrado ejemplos concretos de audio o imágenes generadas con el modelo, lo que deja en el aire la comparación de calidad con otras IA líderes. Para abordar preocupaciones éticas, la compañía implementará la tecnología SynthID, diseñada para marcar todos los contenidos generados por el modelo como sintéticos, evitando así el mal uso en la creación de deepfakes, un problema en aumento según datos recientes.

Una apuesta por la precisión y la velocidad

En palabras de Tulsee Doshi, líder de producto de Gemini, el nuevo modelo combina velocidad y potencia, mejorando áreas clave como la codificación y el análisis de imágenes. Además, Google asegura que Gemini 2.0 Flash ofrece mayor precisión matemática y factualidad, consolidándose como su modelo insignia.

Con su capacidad para ejecutar tareas complejas y manejar conversaciones naturales, Gemini 2.0 Flash marca un avance significativo en la carrera de la IA multimodal, preparando el terreno para un impacto transversal en industrias como el desarrollo de software, la creación de contenido y más.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Etiquetas:

Google lanza Gemini 2.0 Flash y añade funciones multimodales

Una IA más allá del texto

Nueva API para integrar en aplicaciones

Ética en la generación de contenidos

Una apuesta por la precisión y la velocidad

Etiquetas:

Laia Herranz

Entrada anteriorGemini ya tiene voz propia: analizamos su sistema de audio nativo

Siguiente entradaRepasamos las funciones avanzadas de Sora

Quiénes somos

Política de privacidad

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)