Los modelos abiertos suben al siguiente nivel con Llama 3.1

Meta ha lanzado Llama 3.1, una familia de modelos de lenguaje abiertos que, según explican desde la compañía, supera en diferentes ‘benchmarks’ a la mayoría de LLM disponibles en el mercado en la actualidad, tanto abiertos como cerrados. Esta noticia supone un gran salto en el universo de la IA, al ofrecer en abierto un potente modelo que por primera vez alcanza a sus competidores cerrados.

La empresa afirma que su modelo supera a GPT-4 y GPT-4o de OpenAI en pruebas de referencia comunes y que es competitivo en una amplia variedad de tareas.

Para entenderlo mejor, el modelo más grande de esta familia, de 405 mil millones de parámetros y una ventana de contexto de 128 mil tokens, podría superar a sus principales competidores, como GPT-4o y Claude 3.5 Sonnet, en la mayoría de tareas, como en responder preguntas generales, traducción y operaciones matemáticas. De hecho, la propia compañía lo describe como “el modelo base más grande y capaz disponible abiertamente en el mundo”. Que sea abierto es la clave también para que instituciones y empresas puedan adaptarlo a sus necesidades con un amplio grado de libertad.

Entrenamiento

El modelo de 405B ha sido entrenado con un total de 15 billones de tokens, donde un token representa una palabra o parte de una palabra. Los tokens utilizados en este modelo son datos web que van hasta el año 2024, superando algunas limitaciones de modelos más antiguos. Para su entrenamiento, han usado 16.000 unidades de procesamiento gráfico H100 creadas por Nvidia. Los modelos más avanzados como este se entrenan procesando cantidades masivas de texto e imágenes obtenidas de la web, datos con licencia o generados de forma sintética. También pueden acceder a otros modelos a través de APIs, proporcionándole información actualizada, habilidades matemáticas y de programación.

Los nuevos modelos Llama están disponibles para desarrolladores a través de Meta AI, Hugging Face o, en la nube, a través de AWS, Azure y Databricks. Pero en Europa tendremos que esperar un poco más para usar los más potentes directamente en la plataforma de Meta (incluso con VPN), tal y como explica Xavier Mitjana en su último análisis. Él mismo ha probado el modelo mediano en Groq y el modelo grande en Poe.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Etiquetas:

Los modelos abiertos suben al siguiente nivel con Llama 3.1

Entrenamiento

Etiquetas:

Paréntesis MEDia

Entrada anteriorEntrenar la IA con datos sintéticos podría hacerla "colapsar"

Siguiente entradaTodo preparado para el SIGGRAPH: Guía para seguir el congreso

Quiénes somos

Política de privacidad

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)