La startup francesa de inteligencia artificial Mistral ha presentado su primer modelo multimodal, Pixtral 12B, diseñado para usar tanto texto como imágenes. Este modelo representa un paso adelante para Mistral, que hasta ahora se había centrado en modelos exclusivamente basados en texto. Pixtral 12B integra capacidades de procesamiento visual, lo que le permite realizar tareas como generar descripciones de imágenes, contar objetos y responder preguntas sobre imágenes. Este movimiento coloca a Mistral en competencia directa con gigantes del sector como OpenAI, que ya incorporan funcionalidades multimodales en modelos como GPT-4.
Pixtral 12B está construido sobre el modelo de texto Nemo 12B de Mistral, pero añade un adaptador visual de 400 millones de parámetros. Este componente permite al modelo recibir imágenes en diferentes formatos, como URLs o codificaciones base64, y procesarlas mediante un sistema que divide las imágenes en fragmentos de 16×16 píxeles. Esta técnica de partición, combinada con la utilización de RoPE (Rotary Position Embeddings), le da a Pixtral una mejor capacidad para entender las relaciones espaciales dentro de las imágenes.
En términos de rendimiento, Pixtral cuenta con 12 mil millones de parámetros, lo que lo coloca por debajo de los modelos más grandes de la competencia, como el GPT-4o de OpenAI, que tiene más de mil millones de parámetros. No obstante, su enfoque multimodal lo convierte en una herramienta versátil y eficiente para tareas que requieren la integración de lenguaje y visión, especialmente en aplicaciones como la generación de subtítulos o la clasificación de imágenes.
Código abierto
Mistral ha liberado este modelo a través de plataformas abiertas como GitHub y Hugging Face, como hizo con los anteriores, para que los desarrolladores puedan adaptarlo a sus necesidades. La empresa sigue así la tendencia de algunos de sus lanzamientos anteriores, que se han publicado bajo licencias abiertas como Apache 2.0, aunque todavía no se ha confirmado bajo qué licencia se ofrecerá Pixtral 12B.
El modelo está disponible para uso gratuito en investigación y desarrollo, pero las aplicaciones comerciales requerirán una licencia de pago. Además, Mistral ha anunciado que pronto se podrá probar Pixtral en sus plataformas API, Le Chat y Le Plateforme, lo que facilitará el acceso a empresas y desarrolladores interesados en explorar sus capacidades.
Este lanzamiento posiciona a Mistral en la vanguardia de los modelos multimodales, uniendo texto e imágenes en un solo sistema, y le permite competir en un mercado que hasta ahora ha estado dominado por empresas más grandes como OpenAI y Anthropic. Al hacerlo, Mistral sigue mostrando su compromiso con la democratización de la IA mediante el acceso abierto a sus herramientas avanzadas.
Abre un paréntesis en tus rutinas. Suscríbetea nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.