Una compañía china ha replicado el modelo razonador de OpenAI

DeepSeek ha lanzado un modelo razonador y, sobre el papel, mejora a o1 de OpenAI en algunos benchmarks

La startup china de IA DeepSeek ha anunciado su modelo de razonamiento DeepSeek-R1, diseñado para competir con el modelo o1 de OpenAI, especialmente en tareas de matemáticas, programación y razonamiento. Destaca por ofrecer una ventaja respecto ChatGPT: es hasta un 95% más económico que su modelo o1, lo que lo convierte en una opción muy interesante tanto para desarrolladores como para empresas.

Un modelo de código abierto

DeepSeek-R1 es una versión mejorada del modelo anterior , DeepSeek-V3, y que integra aprendizaje por refuerzo (RL) y entrenamiento supervisado. Este método combinado le permite aprender y mejorar sus habilidades de razonamiento a través de ciclos de prueba y error, ajustando su capacidad para reflexionar y resolver problemas de manera eficiente.

El proceso de entrenamiento de R1 se basa en una mezcla de datos generados internamente y conjuntos de datos supervisados, complementados con varias etapas de optimización. Gracias a esto, el modelo consigue un resultado immejorable en evaluaciones rigurosas como AIME 2024, donde alcanzó la nota de 79.8%, superando al modelo o1 de OpenAI en áreas como matemáticas y programación. También destacó en otras pruebas, como MATH-500 y Codeforces.

Comparativa con OpenAI o1

DeepSeek-R1 supera las capacidades de o1 en algunos benchmarks:

AIME 2024 (matemáticas): 79,8% para R1 frente a 79,2% de o1.
MATH-500 (resolución de problemas): 97,3% para R1, superando el 96,4% de o1.
Codeforces (programación): R1 logra un 2.029, situándose por encima del 96% de los programadores humanos.

Aunque OpenAI o1 sigue liderando en pruebas generales de conocimiento, como MMLU, R1 se acerca, con un 90.8% frente al 91.8% de ChatGPT.

Accesible y competitivo

Una de las mayores innovaciones de DeepSeek es su modelo de negocio. Mientras OpenAI cobra hasta $60 por millón de tokens de salida, DeepSeek-R1 reduce el precio drásticamente a 2.19 dólares por millón de tokens, haciéndolo accesible para startups y proyectos con presupuestos limitados.

Cualquiera puede descargar, modificar y utilizar el modelo de forma comercial

R1 está disponible bajo una licencia MIT en la plataforma Hugging Face, lo que significa que cualquiera puede descargar, modificar y utilizar el modelo de forma comercial. Esto marca un contraste con OpenAI y refuerza el potencial de los modelos de código abierto para cerrar la brecha en IA.

Limitaciones

Como la mayoría de modelos desarrollado en China, se enfrenta a restricciones regulatorias que limitan su capacidad para abordar temas políticamente sensibles, como la autonomía de Taiwán o la Plaza de Tiananmen. Estas restricciones ponen sobre la mesa preguntas sobre la imparcialidad y la capacidad del modelo para operar en contextos globales. Otro reto es que, aunque el modelo es más asequible y accesible, requiere un hardware avanzado para operar en su máxima capacidad, lo que podría ser un problema para algunos usuarios.

Implicaciones en la carrera por la IA

El lanzamiento de DeepSeek-R1 es un símbolo de cómo las iniciativas de código abierto están desafiando a los gigantes establecidos en la búsqueda de la inteligencia artificial general (AGI). El modelo hace accesible el acceso a herramientas avanzadas de IA, subrayando el papel de China como un competidor destacado. Mientras las tensiones geopolíticas entre EE.UU. y China aumentan, el desarrollo de tecnologías abiertas podría remodelar las dinámicas del mercado, fomentando la colaboración y el acceso inclusivo.

Fotografía de Pixabay

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Etiquetas:

Una compañía china ha replicado el modelo razonador de OpenAI

DeepSeek ha lanzado un modelo razonador y, sobre el papel, mejora a o1 de OpenAI en algunos benchmarks

Un modelo de código abierto

Comparativa con OpenAI o1

Accesible y competitivo

Cualquiera puede descargar, modificar y utilizar el modelo de forma comercial

Limitaciones

Implicaciones en la carrera por la IA

Etiquetas:

Laia Herranz

Entrada anteriorHispanIA: así se imagina el Gobierno la aplicación de la IA en España

Siguiente entradaLa nueva era de la información está plagada de preguntas sin respuesta

Quiénes somos

Política de privacidad

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)