En la carrera frenética del mundo de la inteligencia artificial generativa, Mistral AI ha marcado un hito significativo con el lanzamiento de MIXTRAL 8x7b, un modelo de mezcla dispersa de expertos (SMoE) de código abierto. Este modelo no solo establece un nuevo estándar en términos de rendimiento y eficiencia, sino que también destaca por su accesibilidad y versatilidad.
MIXTRAL 8x7b utiliza una arquitectura SMoE. Stop, ¿qué significa SMoE? Es un tipo de arquitectura que utiliza diversos bloques particulares, también llamados «expertos», para hacer diversas aciones o procesos de una tarea. Un token es procesado primero por una red llamada «router«. Esta red se encarga de activar solo los «expertos» o bloques que considera relevantes para realizar esta tarea.
Como en un equipo de futbol donde el entrenador cambia un jugador por otro dependiendo de la situación del partido, el router hace lo mismo. Esto hace que el sistema vaya más rápido.
Rinde mejor que Llama 2 70B y GPT-3.5.
Una de las características más destacadas de MIXTRAL 8x7b es su capacidad para manejar múltiples idiomas, incluyendo inglés, francés, italiano, alemán y español. Para que un modelo tenga éxito, esto es muy importante.
A pesar de tener 56 mil millones de parámetros totales, MIXTRAL 8x7b utiliza solo 12 mil millones por token gracias a su diseño de mezcla de expertos. Un parámetro
En cuanto a alucinaciones y sesgos, sus respuestas son más veraces y menos sesgadas en comparación con otros modelos. Está disponible en Hugging Face y licenciado bajo Apache 2.0, es un modelo de código abierto, lo que facilita su integración y uso en diversos proyectos y aplicaciones.
Con su rendimiento superior, capacidades multilingües, y eficiencia en el uso de parámetros, MIXTRAL 8x7b se perfila como una herramienta esencial para desarrolladores, investigadores y empresas que buscan aprovechar al máximo el potencial de la IA.