DeepSeek sacude el mundo de la IA… ¿Estamos ante una revolución?

Una empresa china está revolucionando la IA con menos recursos y grandes resultados.

La compañía china de inteligencia artificial (IA) DeepSeek ha sacudido el mundo tecnológico con el lanzamiento de modelos de IA altamente eficientes, capaces de competir con las soluciones avanzadas de gigantes estadounidenses como OpenAI y Anthropic.





Establecida en 2023, DeepSeek ha conseguido estos logros invirtiendo solo una fracción del capital y del poder de cómputo en comparación con sus rivales.

El modelo de «razonamiento» R1 de DeepSeek, presentado recientemente, ha generado entusiasmo en la comunidad científica, sorpresa entre los inversores y reacciones de los principales actores del sector de la IA. La empresa reveló el 28 de enero un modelo con la capacidad de procesar tanto imágenes como texto.

¿Qué ha conseguido exactamente DeepSeek y cómo ha logrado hacerlo?

Los avances de DeepSeek

En diciembre, DeepSeek lanzó su modelo V3, un sistema de lenguaje avanzado que ofrece un rendimiento similar al de GPT-4o de OpenAI y Claude 3.5 de Anthropic.

Aunque estos modelos pueden cometer errores e incluso inventar datos, son capaces de llevar a cabo tareas como responder preguntas, redactar textos y generar código de programación. En diversas pruebas de resolución de problemas y razonamiento matemático, han demostrado un rendimiento superior al de una persona promedio.

Se estima que el entrenamiento de V3 tuvo un coste aproximado de 5,58 millones de dólares, una cantidad significativamente menor que el desarrollo de GPT-4, que superó los 100 millones de dólares.

DeepSeek también asegura que V3 fue entrenado utilizando alrededor de 2.000 unidades de procesamiento gráfico (GPU) H800 de NVIDIA, un número considerablemente inferior al de otras compañías que han empleado hasta 16.000 de los potentes chips H100.

El 20 de enero, DeepSeek presentó otro modelo denominado R1. Este modelo se enfoca en el «razonamiento» y está diseñado para resolver problemas complejos de manera progresiva. Estas soluciones parecen destacar en tareas que requieren contexto y múltiples elementos interconectados, como la comprensión lectora y la planificación estratégica.

El modelo R1 es una versión optimizada del V3, desarrollada mediante un método conocido como aprendizaje por refuerzo. Su desempeño es comparable al del modelo o1 de OpenAI, lanzado el año pasado.

DeepSeek también ha aplicado esta técnica para desarrollar versiones «razonables» de modelos de menor tamaño y de código abierto, que pueden ejecutarse en ordenadores personales.

El lanzamiento de estos modelos ha disparado el interés por DeepSeek, aumentando la popularidad de su aplicación de chatbot basada en V3 y provocando un impacto significativo en los mercados bursátiles, ya que los inversores están reconsiderando el panorama de la inteligencia artificial. En el momento de redactar este artículo, NVIDIA ha registrado una pérdida de aproximadamente 600.000 millones de dólares en su valor de mercado.

El enfoque de DeepSeek

Los avances de DeepSeek se han basado en mejorar la eficiencia, obteniendo grandes resultados con recursos más limitados. En particular, sus desarrolladores han introducido dos técnicas innovadoras que podrían ser adoptadas ampliamente por la comunidad investigadora en IA.

La primera está relacionada con un concepto matemático llamado «escasez». Los modelos de IA cuentan con un enorme número de parámetros que influyen en sus respuestas (V3, por ejemplo, tiene unos 671.000 millones), pero solo una pequeña parte de estos se utiliza para cada entrada de datos.

Identificar con precisión qué parámetros se necesitan no es una tarea sencilla. DeepSeek ha desarrollado un método innovador para predecirlos y entrenar solo esos parámetros específicos. Como resultado, el proceso de entrenamiento ha requerido muchos menos recursos en comparación con los enfoques tradicionales.

La segunda técnica está vinculada a la gestión de la memoria en los ordenadores. DeepSeek ha desarrollado un método eficiente para comprimir los datos más relevantes, facilitando su almacenamiento y acceso ágil.

El impacto de DeepSeek

Los modelos y técnicas desarrollados por DeepSeek han sido publicados bajo la licencia gratuita MIT, lo que significa que cualquier persona puede descargarlos y modificarlos.

Aunque esto podría representar un desafío para algunas empresas de IA, ya que sus beneficios podrían verse afectados por la disponibilidad de modelos potentes y de libre acceso, supone una gran oportunidad para la comunidad de investigación en inteligencia artificial.

Hasta ahora, gran parte de la innovación en IA ha dependido de un acceso masivo a recursos computacionales. Investigadores de universidades y otras instituciones fuera del ámbito de las grandes corporaciones han tenido limitaciones para realizar experimentos y pruebas.

Gracias a estos modelos más eficientes, la experimentación y el desarrollo serán más accesibles. Para los consumidores, esto también podría traducirse en un acceso más económico a la IA, ya que será más viable ejecutar modelos en dispositivos personales, como ordenadores portátiles o teléfonos móviles, sin necesidad de depender de servicios en la nube con tarifas de suscripción.

Para los centros de investigación con abundantes recursos, la mejora en eficiencia podría no representar un cambio tan drástico. Aún no está claro si la metodología de DeepSeek permitirá desarrollar modelos con un rendimiento superior en términos generales o si simplemente ayudará a optimizar el uso de los recursos disponibles.

Top 5 ESTA SEMANA

Relacionado