Évolution des paradigmes d'entraînement de l'IA : passer du contrôle centralisé à la coopération décentralisée

2025-07-09 09:11:04

Évolution des paradigmes d'entraînement de l'IA : de la contrôle centralisé à la révolution technologique de la collaboration décentralisée

Dans l'ensemble de la chaîne de valeur de l'IA, l'entraînement des modèles est le maillon le plus gourmand en ressources et présentant le plus de barrières technologiques, déterminant directement le plafond de capacité des modèles et l'efficacité de leur application réelle. Par rapport à l'appel léger de la phase d'inférence, le processus d'entraînement nécessite un investissement continu en puissance de calcul à grande échelle, un traitement de données complexe et un soutien d'algorithmes d'optimisation de haute intensité, constituant le véritable "secteur lourd" de la construction des systèmes d'IA. D'un point de vue paradigmatique, les méthodes d'entraînement peuvent être classées en quatre catégories : entraînement centralisé, entraînement distribué, apprentissage fédéré et entraînement décentralisé, qui est le sujet principal de cet article.

L'entraînement centralisé est la méthode traditionnelle la plus courante, où un seul organisme réalise l'ensemble du processus d'entraînement au sein d'un cluster haute performance local, coordonné par un système de contrôle unifié qui gère tous les composants, des matériels, des logiciels de base, des systèmes de gestion de cluster jusqu'au cadre d'entraînement. Cette architecture de collaboration profonde optimise l'efficacité du partage de mémoire, de la synchronisation des gradients et des mécanismes de tolérance aux pannes, ce qui la rend particulièrement adaptée à l'entraînement de grands modèles tels que GPT et Gemini, avec des avantages en termes d'efficacité et de contrôle des ressources. Cependant, elle présente également des problèmes tels que le monopole des données, les barrières à l'entrée des ressources, la consommation d'énergie et le risque de point unique.

L'entraînement distribué est la méthode principale de formation des grands modèles actuellement, son noyau consiste à décomposer les tâches d'entraînement du modèle, puis à les répartir sur plusieurs machines pour une exécution collaborative, afin de surmonter les goulets d'étranglement du calcul et du stockage sur une seule machine. Bien qu'il possède des caractéristiques "distribuées" sur le plan physique, l'ensemble est toujours contrôlé et synchronisé par des organisations centralisées, fonctionnant souvent dans un environnement de réseau local à haute vitesse, grâce à la technologie de bus d'interconnexion haute vitesse NVLink, où le nœud principal coordonne uniformément les sous-tâches. Les méthodes principales incluent :

Parallélisme des données : chaque nœud entraîne différents paramètres de données partagés, nécessitant une correspondance des poids du modèle.
Parallélisme de modèle : déployer différentes parties du modèle sur différents nœuds pour réaliser une forte extensibilité ;
Pipeline parallèle : exécution séquentielle par étapes, augmentation du débit ;
Parallélisme de tenseurs : segmentation fine des calculs matriciels, amélioration de la granularité du parallélisme.

L'entraînement distribué est une combinaison de "contrôle centralisé + exécution distribuée", comparable à un même patron dirigeant à distance plusieurs employés de "bureaux" pour collaborer à l'accomplissement d'une tâche. Actuellement, presque tous les grands modèles principaux sont entraînés de cette manière.

La formation décentralisée représente un chemin futur plus ouvert et résistant à la censure. Ses caractéristiques principales sont : plusieurs nœuds qui ne se font pas confiance (qui peuvent être des ordinateurs domestiques, des GPU cloud ou des dispositifs en périphérie) collaborent pour accomplir des tâches d'entraînement sans coordinateur central, généralement par le biais de protocoles qui pilotent la distribution des tâches et la collaboration, et grâce à des mécanismes d'incitation cryptographique pour garantir l'honnêteté des contributions. Les principaux défis auxquels ce modèle est confronté incluent :

Hétérogénéité des appareils et difficulté de découpage : la coordination des appareils hétérogènes est difficile et l'efficacité du découpage des tâches est faible ;
Goulot d'étranglement de l'efficacité de communication : communication réseau instable, goulot d'étranglement de synchronisation des gradients évident ;
Exécution fiable manquante : manque d'environnement d'exécution fiable, difficile de vérifier si les nœuds participent réellement au calcul ;
Manque de coordination unifiée : pas de centralisateur, distribution des tâches, mécanisme de rollback des anomalies complexe.

La formation décentralisée peut être comprise comme : un groupe de bénévoles du monde entier, chacun contribuant à la puissance de calcul pour entraîner un modèle de manière collaborative, mais "la véritable formation décentralisée à grande échelle réalisable" reste un défi d'ingénierie systémique, impliquant l'architecture système, les protocoles de communication, la sécurité cryptographique, les mécanismes économiques, la validation des modèles, etc. Cependant, la question de savoir si cela peut être "collaboratif et efficace + inciter à l'honnêteté + produire des résultats corrects" est encore à un stade précoce d'exploration de prototypes.

L'apprentissage fédéré, en tant que forme de transition entre la distribution et la Décentralisation, met l'accent sur la conservation locale des données et l'agrégation centralisée des paramètres du modèle, ce qui le rend adapté aux scénarios axés sur la conformité à la vie privée (comme la santé et la finance). L'apprentissage fédéré possède une structure d'ingénierie d'entraînement distribué et une capacité de collaboration locale, tout en bénéficiant de l'avantage de la distribution des données de l'entraînement décentralisé, mais il dépend toujours d'une partie coordonnatrice de confiance et ne possède pas les caractéristiques d'ouverture totale et d'anti-censure. Il peut être considéré comme une solution de "Décentralisation contrôlée" dans des scénarios de conformité à la vie privée, avec des tâches d'entraînement, une structure de confiance et un mécanisme de communication relativement modérés, ce qui le rend plus adapté en tant qu'architecture de déploiement transitoire dans l'industrie.

Décentralisation des limites, des opportunités et des chemins réels de l'entraînement

D'un point de vue des paradigmes d'entraînement, la Décentralisation de l'entraînement ne convient pas à tous les types de tâches. Dans certains scénarios, en raison de la complexité de la structure des tâches, des besoins en ressources extrêmement élevés ou des difficultés de collaboration, il n'est naturellement pas adapté pour être réalisé efficacement entre des nœuds hétérogènes et de confiance. Par exemple, l'entraînement de grands modèles dépend souvent d'une grande mémoire vidéo, d'une faible latence et d'une bande passante élevée, ce qui rend difficile le découpage et la synchronisation efficaces dans un réseau ouvert ; les tâches avec des restrictions fortes sur la confidentialité des données et la souveraineté (comme la santé, la finance, et les données sensibles) sont limitées par des contraintes légales et éthiques, et ne peuvent pas être partagées ouvertement ; tandis que les tâches manquant d'incitations à la collaboration (comme les modèles fermés des entreprises ou l'entraînement de prototypes internes) manquent de motivation externe à la participation. Ces limites constituent ensemble les restrictions actuelles à l'entraînement décentralisé.

Mais cela ne signifie pas que l'entraînement décentralisé est un faux dilemme. En fait, dans les types de tâches légères en structure, faciles à paralléliser et incitatives, l'entraînement décentralisé montre des perspectives d'application claires. Cela inclut, mais sans s'y limiter : le réglage fin LoRA, les tâches d'entraînement post-alignement de comportement (comme RLHF, DPO), l'entraînement et l'annotation de données en crowdsourcing, l'entraînement de petits modèles de base contrôlés par les ressources, ainsi que des scénarios d'entraînement collaboratif impliquant des dispositifs en périphérie. Ces tâches possèdent généralement des caractéristiques de haute parallélisation, de faible couplage et de tolérance à la puissance de calcul hétérogène, ce qui les rend très adaptées à un entraînement collaboratif via des réseaux P2P, des protocoles Swarm, des optimisateurs distribués, etc.

Décentralisation entraînement classique projet analyse

Actuellement, dans le domaine de la formation décentralisée et de l'apprentissage fédéré, les projets blockchain représentatifs incluent principalement Prime Intellect, Pluralis.ai, Gensyn, Nous Research et Flock.io. En termes d'innovation technologique et de difficulté de mise en œuvre, Prime Intellect, Nous Research et Pluralis.ai ont proposé de nombreuses explorations originales en matière d'architecture système et de conception d'algorithmes, représentant les directions de recherche théorique à la pointe ; tandis que les chemins de mise en œuvre de Gensyn et Flock.io sont relativement clairs, montrant déjà des progrès d'ingénierie préliminaires. Cet article analysera successivement les technologies centrales et les architectures d'ingénierie derrière ces cinq projets, et discutera davantage de leurs différences et de leurs relations complémentaires dans le cadre d'un système d'entraînement AI décentralisé.

Prime Intellect : pionnier des réseaux de collaboration d'apprentissage renforcé vérifiables par la trajectoire d'entraînement.

Prime Intellect s'engage à construire un réseau d'entraînement AI sans confiance, permettant à quiconque de participer à l'entraînement et de recevoir des récompenses fiables pour ses contributions de calcul. Prime Intellect souhaite, à travers les trois grands modules PRIME-RL + TOPLOC + SHARDCAST, établir un système d'entraînement AI décentralisé avec vérifiabilité, ouverture et un mécanisme d'incitation complet.

Prime Intellect a lancé INTELLECT-2 en mai 2025, qui est le premier grand modèle d'apprentissage par renforcement au monde formé par la collaboration de nœuds décentralisés asynchrones et sans confiance, avec une échelle de paramètres atteignant 32B. Le modèle INTELLECT-2 a été formé grâce à la collaboration de plus de 100 nœuds hétérogènes GPU répartis sur trois continents, utilisant une architecture complètement asynchrone, avec une durée d'entraînement de plus de 400 heures, démontrant la faisabilité et la stabilité des réseaux de collaboration asynchrone. Ce modèle représente non seulement une percée en termes de performance, mais constitue également la première mise en œuvre systématique du paradigme "l'entraînement est le consensus" proposé par Prime Intellect. INTELLECT-2 intègre des modules de protocole clés tels que PRIME-RL (structure d'entraînement asynchrone), TOPLOC (vérification des comportements d'entraînement) et SHARDCAST (agrégation des poids asynchrones), marquant ainsi la première réalisation de l'ouverture, de la vérification et de la boucle d'incitation économique dans le processus d'entraînement des réseaux décentralisés.

En termes de performances, INTELLECT-2 est basé sur QwQ-32B et a subi un entraînement RL spécialisé sur le code et les mathématiques, se plaçant à la pointe des modèles RL open source. Bien qu'il n'ait pas encore surpassé des modèles fermés comme GPT-4 ou Gemini, sa véritable signification réside dans le fait qu'il s'agit du premier modèle décentralisé au monde dont le processus d'entraînement complet est reproductible, vérifiable et auditables. Prime Intellect n'a pas seulement rendu le modèle open source, mais plus important encore, a ouvert le processus d'entraînement lui-même - les données d'entraînement, les trajectoires de mise à jour des stratégies, les processus de validation et la logique d'agrégation sont tous transparents et vérifiables, construisant un prototype de réseau d'entraînement décentralisé où chacun peut participer, collaborer de manière fiable et partager les bénéfices.

Prime Intellect a complété un tour de financement de 15 millions de dollars en février 2025, avec Founders Fund en tête de liste, et des leaders de l'industrie tels que Menlo Ventures, Andrej Karpathy, Clem Delangue, Dylan Patel, Balaji Srinivasan, Emad Mostaque et Sandeep Nailwal ayant également investi. Auparavant, le projet avait terminé un tour de financement précoce de 5,5 millions de dollars en avril 2024, dirigé par CoinFund et Distributed Global, avec la participation d'institutions telles que Compound VC, Collab + Currency et Protocol Labs. À ce jour, Prime Intellect a levé plus de 20 millions de dollars.

Les cofondateurs de Prime Intellect sont Vincent Weisser et Johannes Hagemann, et les membres de l'équipe ont des antécédents dans les domaines de l'IA et du Web3. Les membres clés viennent de Meta AI, Google Research, OpenAI, Flashbots, Stability AI et de la Fondation Ethereum, possédant une solide expertise en conception d'architecture système et en mise en œuvre d'ingénierie distribuée. C'est l'une des rares équipes exécutives qui ont réussi à réaliser un entraînement de modèle de grande taille véritablement décentralisé.

Pluralis : explorateur de paradigmes de formation collaborative entre modèles asynchrones parallèles et compression de structure

Pluralis est un projet Web3 AI axé sur le "réseau d'entraînement collaboratif de confiance", dont l'objectif principal est de promouvoir un paradigme d'entraînement de modèle décentralisé, à participation ouverte et doté d'un mécanisme d'incitation à long terme. Contrairement aux voies d'entraînement centralisées ou fermées actuellement dominantes, Pluralis propose un nouveau concept appelé Protocol Learning : "protocoliser" le processus d'entraînement de modèle, en construisant un système d'entraînement ouvert avec une boucle d'incitation endogène grâce à des mécanismes de collaboration vérifiables et une cartographie de la propriété des modèles.

Le Protocol Learning proposé par Pluralis comprend trois piliers clés :

Modèles non extractibles (Modèles non matérialisables) : Les modèles sont répartis sous forme de fragments entre plusieurs nœuds, aucun nœud unique ne pouvant restaurer les poids complets tout en restant en source fermée. Ce design fait que le modèle devient naturellement un "actif au sein du protocole", permettant le contrôle des certificats d'accès, la protection contre les fuites et l'attribution des revenus.
Entraînement parallèle de modèles basé sur Internet (Entraînement parallèle sur Internet) : Grâce à un mécanisme de parallélisme de modèle par pipeline asynchrone (architecture SWARM), différents nœuds ne détiennent qu'une partie des poids et collaborent via un réseau à faible bande passante pour compléter l'entraînement ou l'inférence.
Modèle de distribution de la propriété selon la contribution (Propriété partielle pour les incitations) : Tous les nœuds participants obtiennent une part de propriété du modèle en fonction de leur contribution à l'entraînement, leur permettant de bénéficier d'une répartition des revenus futurs et d'un droit de gouvernance sur le protocole.

Pluralis se concentre clairement sur "modèle asynchrone parallèle" comme direction principale, en soulignant ses avantages par rapport à la parallélisation des données :

Support des réseaux à faible bande passante et des nœuds non cohérents;
Appareils hétérogènes adaptés, permettant aux GPU grand public de participer ;
Naturellement doté d'une capacité de planification flexible, prenant en charge la connexion/déconnexion fréquente des nœuds ;
Trois points de rupture majeurs : compression de structure + mise à jour asynchrone + impossibilité d'extraction des poids.

Actuellement, selon les six articles de blog techniques publiés sur le site officiel, la structure logique est intégrée en trois lignes principales :

Philosophie et vision : « A Third Path: Protocol Learning » « Why Decentralized Training Matters »
Détails du mécanisme technique : 《SWARM Parallel》《Beyond Top-K》《Asynchronous Updates》
Exploration de l'innovation institutionnelle : 《Unmaterializable Models》《Partial Ownership Protocols》

Actuellement, Pluralis n'a pas encore lancé de produits, de testnet ou de code open source, car la voie technologique choisie est très difficile : il faut d'abord résoudre des problèmes systémiques tels que l'architecture système sous-jacente, le protocole de communication et l'exportabilité des poids, avant de pouvoir encapsuler des services de produits.

Dans le nouvel article publié par Pluralis Research en juin 2025, son cadre d'entraînement décentralisé passe de la pré-formation du modèle.

PRIME10.64%

Voir l'original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

14 J'aime