23 de septiembre de 2024
Cómo las empresas chinas de IA eluden las prohibiciones de chips
Los ajustes en el software palian la escasez de hardware potente
Entre los innovadores se encuentra DeepSeek, una empresa china con sede en Hangzhou. Su último modelo, DeepSeek-v2.5, lanzado a principios de septiembre, compite con los principales modelos de código abierto en retos de codificación y tareas tanto en inglés como en chino. Estos avances no se deben al tamaño: se dice que DeepSeek cuenta con poco más de 10.000 de las antiguas GPU de Nvidia, un gran número para una empresa china, pero pequeño en comparación con sus competidores estadounidenses.
DeepSeek no es el único que ha encontrado soluciones creativas a la escasez de GPU. MiniCPM, un modelo de código abierto desarrollado por la Universidad de Tsinghua y ModelBest, una startup de IA, presenta variedades con 2.400 millones y 1.200 millones de parámetros, respectivamente. A pesar de su pequeño tamaño, el rendimiento de MiniCPM en tareas relacionadas con el lenguaje es comparable al de grandes modelos lingüísticos (LLM) con entre 7.000 y 13.000 millones de parámetros. Al igual que el modelo de DeepSeek, combina un enfoque de mezcla de expertos con compresión de entrada. Sin embargo, al igual que otros modelos pequeños con menos parámetros, es posible que MiniCPM no tenga un gran rendimiento en áreas ajenas a su campo de entrenamiento específico.
En otros lugares se están probando enfoques similares. FlashAttention-3, un algoritmo desarrollado por investigadores de Together.ai, Meta y Nvidia, acelera el entrenamiento y la ejecución de los LLM adaptando su diseño a las GPU H100 de Nvidia. JEST, otro algoritmo lanzado en julio por Google DeepMind, se alimenta de pequeñas cantidades de datos de alta calidad para su entrenamiento inicial antes de soltarse en conjuntos de datos más grandes y de menor calidad. La empresa afirma que este método es 13 veces más rápido y diez veces más eficiente que otros. Los investigadores de Microsoft, que respalda OpenAI, también han lanzado un pequeño modelo lingüístico llamado Phi-3 mini con unos 4.000 millones de parámetros.
Para las empresas chinas, a diferencia de las occidentales, hacer más con menos no es opcional. Pero puede que esto no sea malo. Al fin y al cabo, afirma Nathan Benaich, de Air Street Capital, un fondo de inversión en IA, “la mentalidad de escasez incentiva sin duda el aumento de la eficiencia”.