Logo Sistemas Olympia

DeepSeek: la IA china y su Impacto Global

DeepSeek Impacto Global

Este artículo está basado en el video de Nate Gentile sobre “Lo que no te contaron de DEEPSEEK: La IA China” reformulado en forma de preguntas y respuestas cortas.


¿Quién fundó High Flyer y cuál fue su actividad principal, sentando las bases para la creación de DeepSeek?

High Flyer fue fundada por Liang We Feng, un ex estudiante de ingeniería. La empresa se dedicaba al quant trading, utilizando modelos computacionales automatizados para la compra y venta de activos financieros. Esta incursión temprana en el uso de modelos complejos y la gestión de grandes cantidades de datos financieros proporcionó la experiencia y el capital semilla que eventualmente llevarían a la fundación de DeepSeek.

¿Cuál fue la motivación principal detrás de la fundación de DeepSeek y cuál fue su logro más significativo a finales de 2024?

La principal motivación de Liang We Feng para fundar DeepSeek fue su sueño de aplicar la inteligencia artificial, particularmente el machine learning, a los mercados financieros de una manera más avanzada de lo que permitía el quant trading tradicional. El hito más significativo de DeepSeek a finales de 2024 fue el lanzamiento de modelos de lenguaje grandes (LLMs) como DeepSeek V3 y R1, los cuales demostraron un rendimiento superior en ciertas pruebas comparativas con algunos de los modelos líderes de empresas estadounidenses como OpenAI y Google, en áreas como conocimiento general, razonamiento lógico y comprensión avanzada.

¿Cómo se diferencia la estructura de propiedad de DeepSeek de otras grandes empresas de IA estadounidenses como OpenAI o Google, y cuál es la relación con el gobierno chino?

A diferencia de OpenAI o Google, que tienen estructuras de propiedad más complejas que involucran inversión de riesgo y en el caso de Google, una gran corporación matriz, DeepSeek se fundó con capital privado proveniente de la firma de inversión de Liang We Feng, High Flyer. Si bien el gobierno chino fomenta activamente el desarrollo de la inteligencia artificial a través de diversos proyectos e incentivos a largo plazo (como la construcción de centros de datos y el apoyo a la IA en universidades), DeepSeek no tiene una afiliación directa o propiedad gubernamental demostrada, operando más bien como una empresa privada con un modelo capitalista similar al de las empresas tecnológicas estadounidenses.

¿Qué son DeepSeek V3 y R1, cómo se comparan con otros LLMs líderes y cuál es la propuesta de valor diferencial en términos de costos y disponibilidad?

DeepSeek V3 y R1 son modelos de lenguaje grandes (LLMs) capaces de generar texto, al igual que ChatGPT, Claude o Gemini. En diversas pruebas de rendimiento, DeepSeek V3 ha demostrado ser competitivo e incluso superior en algunas áreas como conocimiento general, razonamiento lógico y comprensión avanzada. Su propuesta de valor diferencial radica principalmente en dos aspectos: el costo de su API, que es significativamente más bajo (aproximadamente diez veces menor por millón de tokens de salida en comparación con GPT-4), y la disponibilidad de sus modelos, ya que DeepSeek liberó V3 y R1 de forma open source y gratuita. Esto permite a los usuarios descargar y ejecutar los modelos en su propia infraestructura, una característica no ofrecida por modelos propietarios como ChatGPT o Gemini.

¿Cómo ha impactado en la industria la decisión de DeepSeek de liberar sus modelos de IA de forma open source y gratuita?

La liberación open source y gratuita de DeepSeek V3 y R1 ha generado un gran impacto en la industria de la IA al democratizar el acceso a modelos de lenguaje de alto rendimiento. Permite a investigadores, desarrolladores y empresas utilizar, estudiar, modificar y adaptar estos modelos sin incurrir en costos de licencia, fomentando la innovación y la competencia. Aunque representa una potencial amenaza para el modelo de negocio basado en APIs de otras empresas, también posiciona a DeepSeek como un contribuyente clave al avance de la IA y le permite ganar visibilidad y la colaboración de la comunidad para mejorar sus modelos.

¿Cuál es el principio detrás de la arquitectura “Mixture of Experts” (MoE) utilizada por DeepSeek y cómo contribuye a la eficiencia de sus modelos?

La arquitectura “Mixture of Experts” (MoE) es una técnica donde un modelo de IA grande se compone de múltiples submodelos más pequeños, llamados “expertos,” cada uno especializado en diferentes áreas de conocimiento o tipos de tareas. Un “enrutador” dentro del modelo analiza la entrada (pregunta o instrucción) y decide qué experto o combinación de expertos es el más adecuado para procesarla, activando solo una parte del modelo en cada interacción. DeepSeek implementa un gran número de estos expertos, lo que permite una especialización más granular. Esta arquitectura mejora la eficiencia al reducir la cantidad de cómputo necesario para cada consulta, ya que no se activa la totalidad del modelo, lo que se traduce en menores costos de operación y la posibilidad de ejecutar modelos más grandes con menos recursos.

¿Qué ventajas ofrece el entrenamiento de modelos de IA con una precisión numérica más baja como FP8, utilizado por DeepSeek, y cómo se gestiona la posible pérdida de precisión?

Entrenar modelos de IA utilizando formatos de precisión numérica más baja como FP8 ofrece varias ventajas significativas: reduce el espacio de memoria requerido para almacenar los parámetros del modelo, lo que permite modelos más grandes o la ejecución de modelos existentes con menos hardware; y acelera el tiempo de entrenamiento, ya que las operaciones con números de menor precisión son más rápidas. Sin embargo, una menor precisión puede llevar a una pérdida de rendimiento del modelo. Para mitigar esto, DeepSeek implementó un “mixed precision framework” (marco de trabajo de precisión mixta), utilizando diferentes precisiones numéricas en distintas partes del modelo. Esto permite aprovechar los beneficios de FP8 en términos de eficiencia y velocidad en las partes del modelo donde la precisión no es crítica, mientras se mantiene una mayor precisión (como FP16 o FP32) en las capas o parámetros donde es esencial para el rendimiento del modelo.

¿Cómo logró DeepSeek entrenar modelos competitivos a pesar de las restricciones de acceso a hardware de última generación como las GPUs NVIDIA H100 impuestas por Estados Unidos?

Ante la restricción de no poder acceder libremente a las GPUs NVIDIA H100, DeepSeek utilizó una cantidad significativa (2048 unidades) de la versión ligeramente menos potente y con menor ancho de banda de memoria, la H800. Para superar las limitaciones en la velocidad de comunicación entre las GPUs H800, DeepSeek desarrolló un software de comunicación entre GPUs altamente optimizado desde cero, utilizando el lenguaje de bajo nivel PTX de NVIDIA. Este software implementó técnicas como la compresión de datos y la gestión eficiente del ancho de banda disponible, permitiendo a las GPUs comunicarse de manera más rápida y eficiente de lo que sería posible con las herramientas estándar como CUDA. Al optimizar el software para el hardware disponible, DeepSeek logró un rendimiento de entrenamiento de sus modelos comparable al que se podría esperar con hardware más avanzado, demostrando la importancia de la optimización de software en el desarrollo de la IA a gran escala.

 

La siguiente línea de tiempo muestra el desarrollo del texto basado en las fechas en las que aparecen los elementos cruciales en la aparición de Deep Seek

Cronología de Eventos Principales de DeepSeek

  • Antes de 2016: Liang We Feng, estudiante de ingeniería en la Universidad de Seyang (China), se interesa por las finanzas y el quant trading, aplicando sus conocimientos de ingeniería a la bolsa. Forma un grupo de estudio sobre mercados financieros dentro de la universidad.
  • Alrededor de 2016: Tras terminar la universidad, Liang We Feng funda High Flyer, una firma de inversión 100% basada en decisiones de compra automatizadas por ordenador (quant trading).
  • Para 2021: High Flyer se convierte en una de las cuatro principales firmas de inversión en China, gestionando activos por 8 mil millones de dólares. En este año, Liang We Feng compra miles de tarjetas gráficas NVIDIA, lo que algunos interpretan como una excentricidad y otros como una visión del futuro de la IA.
  • 17 de julio de 2023: Liang We Feng funda Hano DeepSeek Artificial Intelligence Basic Technology Research Corporation Limited, conocida como DeepSeek. La empresa comienza con menos de 200 empleados.
  • 2023: El gobierno de Estados Unidos impone restricciones a NVIDIA para la venta libre de tarjetas gráficas avanzadas (como la H100) a China, permitiendo solo la venta de versiones menos potentes (como la H800 con menor velocidad de comunicación y memoria). DeepSeek se enfrenta a este desafío para el entrenamiento de sus modelos.
  • Mediados/Finales de 2024: DeepSeek lanza dos modelos de lenguaje grandes (LLMs): DeepSeek V3 y DeepSeek R1. Este lanzamiento genera un gran impacto en la industria tecnológica y pone nerviosos a gobiernos, ya que estos modelos demuestran ser superiores a algunos de los mejores modelos de empresas estadounidenses en ciertas pruebas de rendimiento (como conocimiento general, razonamiento lógico y comprensión avanzada), superando a Claude 3.5 y GPT-4o en algunas métricas.
  • Noviembre de 2024 (mencionado como “en noviembre”): Se anuncia públicamente el lanzamiento de DeepSeek V3 y R1.
  • Finales de 2024 (mencionado como “a finales de”): El hito principal de DeepSeek es el lanzamiento de un modelo de IA que supera en rendimiento a algunos modelos estadounidenses en ciertas pruebas.
  • Tras el lanzamiento (finales de 2024):Se destaca que la API de DeepSeek V3 es significativamente más barata que la de ChatGPT-4 (aproximadamente diez veces menor costo por millón de tokens de salida).
  • DeepSeek libera sus modelos V3 y R1 de forma open source y gratuita, permitiendo a los usuarios descargarlos y ejecutarlos en su propia infraestructura, una característica distintiva que genera un gran impacto en la industria.
  • La primera semana tras la liberación de los modelos, DeepSeek registra más de un millón de descargas de sus modelos (V3 y R1), lo que indica un gran interés por parte de la comunidad técnica avanzada.
  • Se revela que DeepSeek superó las limitaciones de hardware impuestas por las restricciones estadounidenses (uso de NVIDIA H800 en lugar de H100) desarrollando un software de comunicación entre GPUs altamente optimizado utilizando el lenguaje de bajo nivel PTX de NVIDIA, logrando un rendimiento similar.
  • Se explica que DeepSeek utiliza una arquitectura de “Mixture of Experts” (MoE) con un gran número de modelos especializados y un “enrutador” para dirigir las consultas.
  • Se detalla el uso de entrenamiento con precisión mixta (incluyendo FP8) para optimizar el uso de memoria y la velocidad de entrenamiento.
  • Se describe la innovadora estrategia de entrenamiento totalmente automatizada (sin intervención humana) basada en reinforcement learning para el modelo de razonamiento R1, a diferencia del método RLHF utilizado por OpenAI para ChatGPT-4.

Cast de Personajes Principales

  • Liang We Feng (también mencionado como “el young” y “lang”):
  • Fundador de High Flyer, una exitosa firma de inversión china dedicada al quant trading.
  • Motivado por su sueño de aplicar la inteligencia artificial a los mercados financieros.
  • En 2023, funda DeepSeek con capital privado de High Flyer.
  • Lidera DeepSeek en el desarrollo de modelos de IA que compiten directamente con empresas líderes estadounidenses.
  • Se le describe como un ex estudiante de ingeniería de la Universidad de Seyang con una pasión por la ingeniería que lo llevó a explorar las finanzas.
  • DeepSeek (Hano DeepSeek Artificial Intelligence Basic Technology Research Corporation Limited):
  • Empresa china de inteligencia artificial fundada por Liang We Feng en 2023.
  • Se diferencia de otras grandes empresas de IA por ser fundada con capital privado de High Flyer y no tener una afiliación directa con el gobierno chino, aunque este último fomenta el desarrollo de la IA en general.
  • A finales de 2024, lanza los modelos de lenguaje grandes DeepSeek V3 y R1, que alcanzan un rendimiento competitivo e incluso superior en ciertas áreas a modelos de empresas estadounidenses como OpenAI y Google.
  • Adopta una estrategia de API significativamente más barata que la de competidores como OpenAI.
  • Genera un gran impacto en la industria al liberar sus modelos V3 y R1 de forma open source y gratuita.
  • Implementa innovaciones técnicas como la arquitectura Mixture of Experts (MoE), el entrenamiento con precisión mixta (FP8) y un enfoque de reinforcement learning totalmente automatizado para el razonamiento.
  • Supera las restricciones de hardware impuestas por Estados Unidos mediante la optimización de software para la comunicación entre GPUs NVIDIA H800.