Evolución de los paradigmas de entrenamiento de IA: de control centralizado a la colaboración en Descentralización

2025-07-09 09:11:04

Evolución del paradigma de entrenamiento de IA: de control centralizado a la revolución tecnológica de la colaboración descentralizada

En toda la cadena de valor de la IA, el entrenamiento de modelos es la etapa que consume más recursos y tiene la mayor barrera técnica, lo que determina directamente el límite de capacidad del modelo y el efecto de aplicación real. En comparación con la llamada ligera de la etapa de inferencia, el proceso de entrenamiento requiere una inversión continua de gran capacidad computacional, un complejo proceso de manejo de datos y un fuerte soporte de algoritmos de optimización, lo que lo convierte en la verdadera "industria pesada" de la construcción de sistemas de IA. Desde la perspectiva de los paradigmas de arquitectura, los métodos de entrenamiento se pueden clasificar en cuatro categorías: entrenamiento centralizado, entrenamiento distribuido, aprendizaje federado y el entrenamiento de descentralización, que es el enfoque principal de este artículo.

El entrenamiento centralizado es el método más común en la tradición, donde una única institución completa todo el proceso de entrenamiento en un clúster local de alto rendimiento. Desde el hardware, el software de base, el sistema de programación del clúster, hasta todos los componentes del marco de entrenamiento, son coordinados por un sistema de control unificado. Esta arquitectura de profunda colaboración maximiza la eficiencia en el uso compartido de memoria, la sincronización de gradientes y los mecanismos de tolerancia a fallos, lo que la hace muy adecuada para el entrenamiento de modelos a gran escala como GPT y Gemini, con ventajas de alta eficiencia y recursos controlables. Sin embargo, también presenta problemas como monopolio de datos, barreras de recursos, consumo de energía y riesgos de un solo punto.

El entrenamiento distribuido es el método principal para el entrenamiento de grandes modelos actualmente, y su núcleo es descomponer la tarea de entrenamiento del modelo y distribuirla a múltiples máquinas para su ejecución colaborativa, a fin de superar los cuellos de botella de cálculo y almacenamiento en una sola máquina. A pesar de que físicamente posee características de "descentralización", en general sigue siendo controlado y coordinado por una institución centralizada, y a menudo opera en un entorno de red local de alta velocidad, utilizando la tecnología de bus de interconexión de alta velocidad NVLink, donde el nodo principal coordina de manera unificada las subtareas. Los métodos principales incluyen:

Paralelismo de datos: cada nodo entrena diferentes datos con parámetros compartidos, se requiere que coincidan los pesos del modelo.
Paralelismo de modelos: desplegar diferentes partes del modelo en diferentes nodos para lograr una fuerte escalabilidad;
Paralelismo de tuberías: ejecución en serie por etapas, aumentando la tasa de rendimiento;
Paralelismo de tensores: segmentación refinada del cálculo de matrices, mejorando el grado de paralelismo.

El entrenamiento distribuido es una combinación de "control centralizado + ejecución distribuida", análogo a un mismo jefe que dirige remotamente la colaboración de varios empleados de "oficinas" para completar tareas. Actualmente, casi todos los modelos grandes principales se entrenan de esta manera.

La formación en Descentralización representa un camino futuro con mayor apertura y características de resistencia a la censura. Su característica central radica en: múltiples nodos que no se confían entre sí (que pueden ser computadoras domésticas, GPU en la nube o dispositivos de borde) colaboran para completar tareas de formación sin un coordinador central, generalmente impulsados por protocolos que distribuyen tareas y colaboran, y utilizando mecanismos de incentivos criptográficos para garantizar la honestidad de las contribuciones. Los principales desafíos que enfrenta este modelo incluyen:

Dificultades de heterogeneidad y segmentación de dispositivos: alta dificultad en la coordinación de dispositivos heterogéneos, baja eficiencia en la segmentación de tareas;
Cuello de botella en la eficiencia de comunicación: la comunicación en la red es inestable y el cuello de botella en la sincronización de gradientes es evidente;
Falta de ejecución confiable: falta de un entorno de ejecución confiable, lo que dificulta verificar si los nodos realmente participan en el cálculo;
Falta de coordinación unificada: sin un programador central, la distribución de tareas y el mecanismo de reversión de excepciones son complejos.

La capacitación en Descentralización puede entenderse como: un grupo de voluntarios de todo el mundo que contribuyen con su poder de cómputo para entrenar modelos de manera colaborativa, pero "la verdadera capacitación descentralizada a gran escala que es factible" sigue siendo un desafío de ingeniería sistémico, que involucra múltiples niveles como la arquitectura del sistema, protocolos de comunicación, seguridad criptográfica, mecanismos económicos, verificación de modelos, etc. Sin embargo, la cuestión de si se puede "colaborar de manera efectiva + incentivar la honestidad + obtener resultados correctos" aún se encuentra en una etapa temprana de exploración de prototipos.

El aprendizaje federado, como una forma de transición entre distribuido y Descentralización, enfatiza la retención local de datos y la agregación centralizada de parámetros del modelo, siendo adecuado para escenarios que priorizan la conformidad con la privacidad (como en salud y finanzas). El aprendizaje federado tiene la estructura de ingeniería del entrenamiento distribuido y la capacidad de colaboración local, a la vez que posee las ventajas de la dispersión de datos del entrenamiento Descentralización, pero aún depende de un coordinador confiable, no posee características completamente abiertas y anti-censura. Se puede considerar como una solución de "Descentralización controlada" en escenarios de conformidad con la privacidad, siendo relativamente moderada en las tareas de entrenamiento, la estructura de confianza y los mecanismos de comunicación, siendo más adecuada como arquitectura de despliegue transitorio en la industria.

Descentralización entrenamiento de los límites, oportunidades y caminos reales

Desde la perspectiva del paradigma de entrenamiento, la Descentralización del entrenamiento no es adecuada para todos los tipos de tareas. En ciertos escenarios, debido a la complejidad de la estructura de la tarea, la alta demanda de recursos o la gran dificultad de colaboración, no es naturalmente adecuada para completarse de manera eficiente entre nodos heterogéneos y de confianza. Por ejemplo, el entrenamiento de grandes modelos a menudo depende de alta memoria de vídeo, baja latencia y ancho de banda alto, lo que dificulta la segmentación y sincronización efectivas en una red abierta; las tareas con fuertes restricciones de privacidad de datos y soberanía (como la atención médica, finanzas, datos confidenciales) están limitadas por el cumplimiento legal y restricciones éticas, y no pueden ser compartidas abiertamente; mientras que las tareas que carecen de incentivos de colaboración (como modelos cerrados de empresas o entrenamiento de prototipos internos) carecen de motivación externa para participar. Estas fronteras constituyen las limitaciones reales del entrenamiento descentralizado en la actualidad.

Pero esto no significa que la formación en Descentralización sea un mito. De hecho, en tipos de tareas que son ligeras en estructura, fáciles de paralelizar y que pueden ser incentivadas, la formación en Descentralización muestra un claro potencial de aplicación. Incluyendo, pero no limitado a: ajuste fino de LoRA, tareas de entrenamiento posterior de alineación de comportamiento (como RLHF, DPO), tareas de entrenamiento y etiquetado a través de crowdsourcing de datos, entrenamiento de modelos básicos pequeños controlados por recursos, así como escenarios de entrenamiento colaborativo con la participación de dispositivos de borde. Estas tareas generalmente presentan alta paralelización, baja acoplamiento y tolerancia a la potencia de cálculo heterogénea, lo que las hace muy adecuadas para ser realizadas a través de redes P2P, protocolos Swarm, optimizadores distribuidos y otros métodos de entrenamiento colaborativo.

Descentralización entrenamiento clásico proyecto análisis

Actualmente, en el campo de vanguardia del entrenamiento descentralizado y el aprendizaje federado, los proyectos de blockchain más representativos incluyen Prime Intellect, Pluralis.ai, Gensyn, Nous Research y Flock.io. Desde la perspectiva de innovación tecnológica y dificultad de implementación, Prime Intellect, Nous Research y Pluralis.ai han propuesto numerosas exploraciones originales en la arquitectura del sistema y el diseño de algoritmos, representando las direcciones de vanguardia en la investigación teórica; mientras que los caminos de implementación de Gensyn y Flock.io son relativamente claros, ya se pueden observar avances iniciales en la ingeniería. Este artículo analizará sucesivamente las tecnologías clave y las arquitecturas de ingeniería detrás de estos cinco proyectos, y explorará más a fondo sus diferencias y relaciones complementarias en el sistema de entrenamiento de IA descentralizada.

Prime Intellect: pionero de redes de colaboración en aprendizaje reforzado verificables por trayectoria de entrenamiento

Prime Intellect se dedica a construir una red de entrenamiento de IA sin necesidad de confianza, permitiendo que cualquier persona participe en el entrenamiento y reciba recompensas confiables por sus contribuciones computacionales. Prime Intellect espera construir un sistema de entrenamiento de IA descentralizado con verificabilidad, apertura y un mecanismo de incentivos completo a través de los tres módulos PRIME-RL + TOPLOC + SHARDCAST.

Prime Intellect lanzó INTELLECT-2 en mayo de 2025, el primer gran modelo de aprendizaje reforzado del mundo entrenado mediante la colaboración de nodos descentralizados asíncronos y sin necesidad de confianza, con una escala de parámetros que alcanza los 32B. El modelo INTELLECT-2 fue entrenado de manera colaborativa por más de 100 nodos GPU heterogéneos distribuidos en tres continentes, utilizando una arquitectura completamente asíncrona, con una duración de entrenamiento que supera las 400 horas, demostrando la viabilidad y estabilidad de la red de colaboración asíncrona. Este modelo no solo representa un avance en el rendimiento, sino que también es la primera implementación sistemática del paradigma "entrenar es consenso" propuesto por Prime Intellect. INTELLECT-2 integra módulos de protocolo clave como PRIME-RL (estructura de entrenamiento asíncrona), TOPLOC (verificación del comportamiento de entrenamiento) y SHARDCAST (agregación de pesos asíncronos), marcando la primera vez que una red de entrenamiento descentralizada logra la apertura, verificación y un ciclo de incentivos económicos en el proceso de entrenamiento.

En términos de rendimiento, INTELLECT-2 se basa en QwQ-32B y ha realizado un entrenamiento RL especializado en código y matemáticas, situándose en la vanguardia de los modelos de ajuste fino de RL de código abierto actuales. Aunque aún no ha superado modelos de código cerrado como GPT-4 o Gemini, su verdadero significado radica en que: es el primer experimento de modelo descentralizado con un proceso de entrenamiento completo que es reproducible, verificable y auditado a nivel mundial. Prime Intellect no solo ha hecho que el modelo sea de código abierto, sino que lo más importante es que ha abierto el proceso de entrenamiento en sí - los datos de entrenamiento, las trayectorias de actualización de estrategias, los procesos de validación y la lógica de agregación son completamente transparentes y accesibles, construyendo un prototipo de red de entrenamiento descentralizada en la que todos pueden participar, colaborar de manera confiable y compartir beneficios.

Prime Intellect completó una ronda de financiamiento semilla de 15 millones de dólares en febrero de 2025, liderada por Founders Fund, con la participación de varios líderes de la industria, incluidos Menlo Ventures, Andrej Karpathy, Clem Delangue, Dylan Patel, Balaji Srinivasan, Emad Mostaque y Sandeep Nailwal. Anteriormente, el proyecto había completado una ronda de financiamiento inicial de 5.5 millones de dólares en abril de 2024, liderada conjuntamente por CoinFund y Distributed Global, con la participación de instituciones como Compound VC, Collab + Currency y Protocol Labs. Hasta la fecha, Prime Intellect ha recaudado más de 20 millones de dólares en total.

Los cofundadores de Prime Intellect son Vincent Weisser y Johannes Hagemann, y los miembros del equipo tienen antecedentes que abarcan los campos de la IA y Web3. Los miembros clave provienen de Meta AI, Google Research, OpenAI, Flashbots, Stability AI y la Fundación Ethereum, y poseen una profunda capacidad en diseño de arquitectura de sistemas y la implementación de ingeniería distribuida. Son uno de los pocos equipos ejecutivos que han logrado completar con éxito el entrenamiento de modelos grandes verdaderamente descentralizados.

Pluralis: Explorador del paradigma de entrenamiento colaborativo de modelos asíncronos en paralelo y compresión estructural

Pluralis es un proyecto de IA Web3 enfocado en la "red de entrenamiento colaborativo confiable", cuyo objetivo principal es promover un paradigma de entrenamiento de modelos que sea Descentralización, de participación abierta y con un mecanismo de incentivos a largo plazo. A diferencia de las rutas de entrenamiento centralizadas o cerradas que predominan actualmente, Pluralis propone un nuevo concepto llamado Aprendizaje de Protocolo: "protocolizar" el proceso de entrenamiento del modelo, construyendo un sistema de entrenamiento abierto con un bucle de incentivos endógenos a través de mecanismos de colaboración verificables y mapeo de la propiedad del modelo.

El Protocol Learning propuesto por Pluralis incluye tres pilares clave:

Modelos no extraíbles (Modelos inmaterializables): los modelos están distribuidos en forma de fragmentos entre múltiples nodos, y ningún nodo único puede restaurar el peso completo manteniendo el código cerrado. Este diseño hace que los modelos sean inherentemente "activos dentro del protocolo", permitiendo el control de credenciales de acceso, protección contra filtraciones y vinculación de la propiedad de ingresos.
Entrenamiento paralelo de modelos basado en Internet (Entrenamiento paralelo de modelos sobre Internet): A través del mecanismo de paralelismo de modelo asíncrono Pipeline (arquitectura SWARM), diferentes nodos solo poseen una parte de los pesos, colaborando a través de una red de bajo ancho de banda para completar el entrenamiento o la inferencia.
Distribución de propiedad del modelo según la contribución (Propiedad Parcial para Incentivos): Todos los nodos participantes obtienen una parte de la propiedad del modelo según su contribución al entrenamiento, lo que les otorga derecho a la participación en las ganancias futuras y en la gobernanza del protocolo.

Pluralis deja claro que su dirección central es "modelo asíncrono paralelo", enfatizando las siguientes ventajas en comparación con la paralelización de datos:

Soporte para redes de baja ancho de banda y nodos no consistentes;
Dispositivos heterogéneos compatibles, permitiendo la participación de GPUs de consumo;
Naturalmente tiene capacidad de programación elástica, soporta que los nodos se conecten/desconecten con frecuencia;
Compresión estructural + Actualización asíncrona + No extractibilidad de pesos como los tres grandes puntos de ruptura.

Actualmente, según los seis documentos de blogs técnicos publicados en el sitio web oficial, la estructura lógica se integra en las siguientes tres líneas principales:

Filosofía y visión: "A Third Path: Protocol Learning" "Why Decentralized Training Matters"
Detalles del mecanismo técnico: 《SWARM Parallel》《Beyond Top-K》《Asynchronous Updates》
Exploración de la innovación institucional: 《Unmaterializable Models》《Partial Ownership Protocols》

Actualmente, Pluralis aún no ha lanzado productos, red de pruebas o código abierto, debido a que la ruta tecnológica que ha elegido es extremadamente desafiante: primero se deben resolver problemas a nivel de sistema, como la arquitectura del sistema subyacente, los protocolos de comunicación y la no exportación de pesos, antes de que se puedan encapsular servicios de productos.

En junio de 2025, Pluralis Research publicará un nuevo artículo en el que se presentará su marco de entrenamiento Descentralización a partir del preentrenamiento de modelos.

PRIME-8.42%

Ver originales

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

20 me gusta