Tendances de la fusion AI+Web3 : la décentralisation des données de puissance de calcul devient le point focal

IA+Web3 : Tours et places

TL;DR

  1. Les projets Web3 basés sur l'IA deviennent des cibles attrayantes dans les marchés primaire et secondaire.

  2. Les opportunités de Web3 dans le secteur de l'IA se manifestent par : l'utilisation d'incitations distribuées pour coordonner l'offre potentielle dans la longue traîne, à travers les données, le stockage et le calcul ; tout en établissant un modèle open source ainsi qu'un marché décentralisé pour les agents IA.

  3. L'IA trouve principalement son utilisation dans l'industrie Web3 dans la finance en chaîne ( les paiements cryptographiques, les transactions, l'analyse des données ) et l'assistance au développement.

  4. L'utilité de l'IA+Web3 réside dans la complémentarité des deux : Web3 est censé lutter contre la centralisation de l'IA, tandis que l'IA est censée aider Web3 à sortir de son cercle.

AI+Web3 : Tours et Places

Introduction

Au cours des deux dernières années, le développement de l'IA a été comme si un bouton d'accélération avait été pressé. Cet effet papillon suscité par Chatgpt a non seulement ouvert un nouveau monde pour l'intelligence artificielle générative, mais a également créé une dynamique dans le Web3 de l'autre côté.

Avec le soutien du concept d'IA, le financement du marché de la cryptographie, qui ralentit, est clairement stimulé. Rien qu'au cours du premier semestre 2024, 64 projets Web3+IA ont complété un financement, et le système d'exploitation basé sur l'intelligence artificielle Zyber365 a réalisé un montant de financement record de 100 millions de dollars lors de sa série A.

Le marché secondaire est plus prospère. Les données des sites d'agrégation de cryptomonnaies montrent qu'en un peu plus d'un an, la capitalisation totale du secteur de l'IA a atteint 48,5 milliards de dollars, avec un volume d'échanges de près de 8,6 milliards de dollars sur 24 heures ; les progrès évidents des technologies d'IA ont apporté des bénéfices, après le lancement du modèle Sora de conversion de texte en vidéo d'OpenAI, le prix moyen du secteur de l'IA a augmenté de 151 % ; l'effet de l'IA s'étend également à l'un des segments d'attraction de la cryptomonnaie, les Memes : le premier concept de MemeCoin basé sur un Agent IA ------ GOAT a rapidement gagné en popularité et a atteint une valorisation de 1,4 milliard de dollars, suscitant un véritable engouement pour les Memes IA.

La recherche et les sujets sur l'AI+Web3 sont également en plein essor, allant de l'AI+Depin aux AI Memecoins, puis aux AI Agents et AI DAOs actuels, la peur de manquer (FOMO) ne parvient plus à suivre la vitesse de rotation des nouveaux récits.

AI+Web3, ce terme combiné, rempli d'argent chaud, de tendances et de fantasmes futurs, ne peut que être perçu comme un mariage arrangé orchestré par le capital. Il semble que nous ayons du mal à discerner sous ce manteau flamboyant, s'il s'agit réellement du terrain des spéculateurs ou de la veille d'une explosion à l'aube ?

Pour répondre à cette question, une réflexion clé pour les deux parties est : est-ce que cela s'améliorera avec l'autre ? Peut-on bénéficier du modèle de l'autre ? Dans cet article, nous essayons également de nous appuyer sur les travaux antérieurs pour examiner ce schéma : comment le Web3 peut-il jouer un rôle à chaque étape de la pile technologique de l'IA, et qu'est-ce que l'IA peut apporter de nouveau au Web3 ?

Partie 1 Quelles opportunités Web3 sous la pile AI?

Avant d'aborder ce sujet, nous devons comprendre la pile technologique des grands modèles d'IA :

Exprimer tout le processus dans un langage plus simple : le « grand modèle » est comme le cerveau humain. À ses débuts, ce cerveau appartient à un bébé qui vient de naître, qui doit observer et absorber une quantité énorme d'informations externes pour comprendre le monde. C'est la phase de « collecte » des données. Étant donné que les ordinateurs ne possèdent pas les sens tels que la vue et l'ouïe comme les humains, avant l'entraînement, les vastes informations non étiquetées de l'extérieur doivent être converties par « prétraitement » en un format d'information compréhensible et exploitable par l'ordinateur.

Après avoir entré les données, l'IA construit un modèle capable de comprendre et de prédire à travers un « entraînement », ce qui peut être considéré comme le processus par lequel un bébé comprend et apprend progressivement le monde extérieur. Les paramètres du modèle ressemblent aux capacités linguistiques d'un bébé qui s'ajustent continuellement au cours de son apprentissage. Lorsque le contenu appris commence à se spécialiser ou que des retours d'interaction humaine permettent des corrections, on entre dans la phase de « fine-tuning » du grand modèle.

Les enfants, en grandissant et en apprenant à parler, peuvent comprendre le sens et exprimer leurs sentiments et pensées dans de nouveaux dialogues. Cette étape est similaire à celle du « raisonnement » des grands modèles d'IA, qui peuvent prédire et analyser de nouvelles entrées de langage et de texte. Les bébés expriment leurs sentiments, décrivent des objets et résolvent divers problèmes grâce à leur capacité linguistique, ce qui est également comparable à l'application des grands modèles d'IA en phase de raisonnement pour des tâches spécifiques après avoir été formés et mis en service, comme la classification d'images, la reconnaissance vocale, etc.

L'agent AI se rapproche de la prochaine forme du grand modèle - capable d'exécuter des tâches de manière indépendante et de poursuivre des objectifs complexes, possédant non seulement des capacités de réflexion, mais aussi la mémoire, la planification, et la capacité d'utiliser des outils pour interagir avec le monde.

Actuellement, en réponse aux points de douleur de l'IA à travers diverses piles, le Web3 a déjà commencé à former un écosystème multicouche et interconnecté, couvrant toutes les étapes du processus des modèles d'IA.

AI+Web3 : Tours et places

Un, Niveau de base : Airbnb de puissance de calcul et de données

Puissance de calcul

Actuellement, l'un des coûts les plus élevés de l'IA est la puissance de calcul et l'énergie nécessaires pour entraîner et inférer les modèles.

Un exemple est que le LLAMA3 de Meta nécessite 16 000 H100 GPU produits par NVIDIA(, qui est une unité de traitement graphique haut de gamme conçue spécifiquement pour les charges de travail d'intelligence artificielle et de calcul haute performance.) Cela prend 30 jours pour terminer l'entraînement. Le prix unitaire de la version de 80 Go se situe entre 30 000 et 40 000 dollars, ce qui nécessite un investissement en matériel de calcul de 400 à 700 millions de dollars(GPU + puces réseau), en même temps, l'entraînement mensuel nécessite 1,6 milliard de kilowattheures, avec des dépenses énergétiques de près de 20 millions de dollars par mois.

Pour la décompression de la puissance de calcul AI, c'est également le domaine où Web3 a commencé à croiser l'IA ------ DePin( réseau d'infrastructure physique décentralisée) actuellement, un site de données a déjà répertorié plus de 1400 projets, parmi lesquels des projets représentatifs de partage de puissance GPU incluent io.net, Aethir, Akash, Render Network, etc.

La logique principale réside dans le fait que la plateforme permet aux particuliers ou aux entités possédant des ressources GPU inutilisées de contribuer leur puissance de calcul de manière décentralisée et sans autorisation, à travers un marché en ligne pour acheteurs et vendeurs similaire à Uber ou Airbnb, augmentant ainsi le taux d'utilisation des ressources GPU sous-utilisées, permettant aux utilisateurs finaux d'accéder à des ressources de calcul efficaces à moindre coût ; en même temps, un mécanisme de staking garantit que si des violations du mécanisme de contrôle de qualité ou des interruptions de réseau se produisent, les fournisseurs de ressources subissent des sanctions appropriées.

Ses caractéristiques résident dans :

  • Rassembler les ressources GPU inactives : les fournisseurs sont principalement des opérateurs de centres de données indépendants de taille moyenne et petite, des mines de cryptomonnaies, etc., qui disposent de ressources de calcul excédentaires, avec un mécanisme de consensus basé sur PoS, comme les mineurs de FileCoin et d'ETH. Actuellement, certains projets s'efforcent également de lancer des appareils avec des seuils d'entrée plus bas, comme exolab qui utilise des appareils locaux tels que MacBook, iPhone, iPad pour établir un réseau de calcul pour l'inférence de grands modèles.

  • Face au marché à long terme de la puissance de calcul AI :

a. "En termes techniques", le marché de la puissance de calcul décentralisée est plus adapté aux étapes d'inférence. L'entraînement dépend davantage de la capacité de traitement des données apportée par des GPU à très grande échelle, tandis que l'inférence nécessite une performance de calcul GPU relativement faible, comme Aethir qui se concentre sur le travail de rendu à faible latence et les applications d'inférence AI.

b. Du point de vue de la demande, les petits demandeurs de puissance de calcul ne formeront pas leur propre grand modèle, mais choisiront plutôt d'optimiser et d'affiner autour de quelques grands modèles majeurs, et ces scénarios conviennent naturellement aux ressources de calcul inutilisées distribuées.

  • Propriété décentralisée : la signification technique de la blockchain réside dans le fait que les propriétaires de ressources conservent toujours le contrôle sur celles-ci, peuvent ajuster leur utilisation de manière flexible en fonction de la demande, tout en obtenant des revenus.

Données

Les données sont le fondement de l'IA. Sans données, le calcul est comme des algues flottantes, complètement inutile, et la relation entre les données et le modèle est semblable à l'adage "Garbage in, Garbage out". La quantité de données et la qualité des entrées déterminent la qualité de sortie du modèle final. Dans l'entraînement des modèles d'IA actuels, les données déterminent la capacité linguistique, la capacité de compréhension, et même les valeurs et les performances humanisées du modèle. Actuellement, le dilemme des besoins en données de l'IA se concentre principalement sur les quatre aspects suivants :

  • Soif de données : l'entraînement des modèles d'IA dépend d'un grand volume de données d'entrée. Les informations publiques montrent qu'OpenAI a entraîné GPT-4 avec un nombre de paramètres atteignant le niveau des trillions.

  • Qualité des données : Avec la combinaison de l'IA et des différents secteurs, la temporalité des données, la diversité des données, le professionnalisme des données sectorielles, et l'intégration de nouvelles sources de données telles que les émotions des réseaux sociaux ont également posé de nouvelles exigences en matière de qualité.

  • Problèmes de confidentialité et de conformité : Actuellement, les différents pays et entreprises prennent progressivement conscience de l'importance des ensembles de données de qualité et commencent à imposer des restrictions sur le scraping des ensembles de données.

  • Coûts de traitement des données élevés : volume de données important, processus de traitement complexe. Les données publiques montrent que plus de 30 % des coûts de R&D des entreprises d'IA sont consacrés à la collecte et au traitement des données de base.

Actuellement, les solutions web3 se manifestent dans les quatre domaines suivants :

  1. Collecte de données : la possibilité de fournir gratuitement des données réelles collectées s'épuise rapidement, les dépenses des entreprises d'IA pour les données augmentent d'année en année. Cependant, ces dépenses ne profitent pas réellement aux véritables contributeurs de données, les plateformes profitent entièrement de la création de valeur apportée par les données, comme une plateforme qui a réalisé un revenu total de 203 millions de dollars grâce à un accord de licence de données signé avec des entreprises d'IA.

Permettre aux utilisateurs qui contribuent réellement de participer à la création de valeur apportée par les données, ainsi que d'obtenir des données plus privées et plus précieuses à moindre coût grâce à un réseau distribué et à des mécanismes d'incitation, est la vision du Web3.

  • Grass est une couche de données et un réseau décentralisés, permettant aux utilisateurs de faire fonctionner des nœuds Grass, de contribuer à la bande passante inutilisée et de relayer le trafic pour capturer des données en temps réel sur l'ensemble d'Internet, tout en obtenant des récompenses en tokens;

  • Vana introduit un concept unique de pool de liquidité de données (DLP), où les utilisateurs peuvent télécharger leurs données privées ( telles que les historiques d'achats, les habitudes de navigation, les activités sur les réseaux sociaux, etc. ) dans un DLP spécifique, et choisir librement s'ils souhaitent autoriser des tiers spécifiques à utiliser ces données;

  • Dans PublicAI, les utilisateurs peuvent utiliser #AI或#Web3 comme étiquette de classification sur X et @PublicAI pour effectuer la collecte de données.

  1. Prétraitement des données : Dans le processus de traitement des données par l'IA, les données collectées sont souvent bruyantes et contiennent des erreurs, elles doivent donc être nettoyées et converties en un format utilisable avant d'entraîner le modèle, impliquant des tâches répétitives de normalisation, de filtrage et de traitement des valeurs manquantes. Cette étape est l'un des rares moments manuels dans l'industrie de l'IA, donnant naissance à la profession de data annotator. Avec l'augmentation des exigences de qualité des données par les modèles, le seuil d'entrée pour les data annotators a également augmenté, et cette tâche se prête naturellement au mécanisme d'incitation décentralisé du Web3.
  • Actuellement, Grass et OpenLayer envisagent tous deux d'intégrer cette étape clé de l'annotation des données.

  • Synesis a proposé le concept de « Train2earn », mettant l'accent sur la qualité des données. Les utilisateurs peuvent obtenir des récompenses en fournissant des données annotées, des commentaires ou d'autres formes d'entrée.

  • Le projet de annotation de données Sapien gamifie les tâches de marquage et permet aux utilisateurs de miser des points pour en gagner davantage.

  1. Confidentialité et sécurité des données : Il est nécessaire de clarifier que la confidentialité des données et la sécurité des données sont deux concepts différents. La confidentialité des données concerne le traitement des données sensibles, tandis que la sécurité des données protège les informations contre l'accès non autorisé, la destruction et le vol. Ainsi, les avantages des technologies de confidentialité Web3 et les scénarios d'application potentiels se manifestent dans deux domaines : (1) l'entraînement des données sensibles ; (2) la collaboration des données : plusieurs propriétaires de données peuvent participer ensemble à l'entraînement de l'IA sans avoir à partager leurs données brutes.

Les technologies de confidentialité actuellement courantes dans Web3 incluent :

  • Environnement d'exécution de confiance ( TEE ), par exemple Super Protocol;

  • Chiffrement homomorphe complet ( FHE ), par exemple BasedAI, Fhenix.io ou Inco Network;

  • Technologie de preuve à divulgation nulle d'information ( zk), comme le protocole Reclaim qui utilise la technologie zkTLS, générant des preuves à divulgation nulle d'information pour le trafic HTTPS, permettant aux utilisateurs d'importer en toute sécurité des activités, des réputations et des données d'identité depuis des sites externes, sans exposer d'informations sensibles.

Cependant, ce domaine en est encore à ses débuts, la plupart des projets sont encore en phase d'exploration, l'un des dilemmes actuels est que le coût de calcul est trop élevé, quelques exemples sont :

  • Le cadre zkML EZKL met environ 80 minutes pour générer une preuve pour un modèle 1M-nanoGPT.

  • Selon les données de Modulus Labs, les coûts de zkML sont plus de 1000 fois supérieurs à ceux du calcul pur.

  1. Stockage des données : Une fois les données obtenues, il faut également un endroit pour stocker les données sur la chaîne, ainsi que le LLM généré à partir de ces données. Au cœur du problème de la disponibilité des données (DA), avant la mise à niveau Danksharding d'Ethereum, son débit était de 0,08 Mo. Parallèlement, l'entraînement des modèles d'IA et l'inférence en temps réel nécessitent généralement un débit de données de 50 à 100 Go par seconde. Cet ordre de grandeur d'écart rend les solutions existantes sur la chaîne face à
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • 6
  • Partager
Commentaire
0/400
TokenomicsTinfoilHatvip
· Il y a 9h
C'est sans fin.
Voir l'originalRépondre0
DataBartendervip
· Il y a 9h
Encore en train de dessiner des BTC.
Voir l'originalRépondre0
0xSherlockvip
· Il y a 9h
C'est fou... Tout le monde est en train de spéculer sur des concepts.
Voir l'originalRépondre0
PhantomMinervip
· Il y a 9h
Encore des promesses en l'air, qui va se laisser avoir ?
Voir l'originalRépondre0
LiquidatedTwicevip
· Il y a 9h
Oh putain, ce n'est pas juste une spéculation sur le modèle ?
Voir l'originalRépondre0
MetaverseMigrantvip
· Il y a 9h
Une nouvelle vague de pièges pour lever des fonds est arrivée.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)