IA x Cryptoactifs : de l'évolution technologique à l'analyse panoramique de la chaîne industrielle

IA x Crypto : De zéro au sommet

Introduction

Le développement récent de l'industrie de l'intelligence artificielle est considéré par certains comme la quatrième révolution industrielle. L'émergence de grands modèles a considérablement amélioré l'efficacité dans divers secteurs, estimée à environ 20 % d'efficacité en plus pour les États-Unis. En même temps, la capacité de généralisation apportée par les grands modèles est considérée comme un nouveau paradigme de conception logicielle. Contrairement à la conception de code précise du passé, la conception logicielle actuelle consiste davantage à intégrer des cadres de grands modèles généralisés dans les logiciels, permettant à ces derniers d'avoir de meilleures performances et de prendre en charge des entrées et des sorties de modalités plus larges. La technologie d'apprentissage profond a en effet apporté un nouveau cycle de prospérité à l'industrie de l'IA, et cette tendance s'est également étendue à l'industrie des cryptomonnaies.

Ce rapport examinera en détail l'histoire du développement de l'industrie de l'IA, les classifications technologiques et l'impact des technologies d'apprentissage profond sur l'industrie. Il analysera ensuite en profondeur l'état actuel et les tendances du développement de la chaîne de valeur en amont et en aval, y compris les GPU, le cloud computing, les sources de données et les dispositifs périphériques dans l'apprentissage profond. Enfin, il explorera essentiellement la relation entre les cryptomonnaies et l'industrie de l'IA, en décrivant la structure de la chaîne de valeur de l'IA liée aux cryptomonnaies.

Nouvelle introduction丨IA x Crypto : De zéro au sommet

Histoire du développement de l'industrie de l'IA

L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le monde académique et l'industrie ont développé, à différentes époques et dans différents contextes disciplinaires, plusieurs écoles de pensée pour atteindre l'intelligence artificielle.

Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique", dont l'idée est de permettre aux machines d'itérer plusieurs fois sur des tâches en s'appuyant sur des données pour améliorer les performances du système. Les étapes principales consistent à envoyer des données dans l'algorithme, à entraîner le modèle avec ces données, à tester et déployer le modèle, puis à utiliser le modèle pour accomplir des tâches de prédiction automatisée.

Actuellement, il existe trois grands courants en apprentissage automatique, à savoir le connexionnisme, le symbolisme et le behaviorisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.

Actuellement, le connexionnisme, représenté par les réseaux de neurones, est en tête ( également connu sous le nom d'apprentissage profond ), la raison principale étant que cette architecture possède une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et le nombre de neurones ( ainsi que les paramètres ) sont suffisamment nombreux, il y a suffisamment d'opportunités pour s'adapter à des tâches générales complexes. Grâce à l'entrée des données, il est possible d'ajuster en continu les paramètres des neurones, et après plusieurs itérations de données, les neurones atteindront un état optimal ( paramètres ), c'est aussi ce qui explique sa "profondeur" - un nombre suffisant de couches et de neurones.

La technologie d'apprentissage en profondeur basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions techniques, allant des premiers réseaux de neurones aux réseaux de neurones à propagation avant, RNN, CNN, GAN, pour finalement évoluer vers des modèles modernes comme les modèles Transformer utilisés par GPT, etc. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur pour encoder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs correspondantes pour les représenter. Ensuite, ces valeurs sont introduites dans le réseau de neurones, permettant ainsi au réseau de neurones d'ajuster n'importe quel type de données, réalisant ainsi le multimodal.

Nouveau Guide丨IA x Crypto : De zéro au sommet

Le développement de l'IA a connu trois vagues technologiques :

La première vague a eu lieu dans les années 1960, dix ans après la proposition de la technologie AI. Cette vague a été déclenchée par le développement de la technologie symboliste, qui a résolu des problèmes de traitement du langage naturel et de dialogue homme-machine. À la même époque, les systèmes experts ont vu le jour, qui sont des systèmes possédant des connaissances chimiques très fortes, capables de déduire des réponses semblables à celles d'un expert en chimie à partir de questions.

La deuxième vague de la technologie AI a eu lieu en 1997, lorsque Deep Blue d'IBM a battu le champion d'échecs Garry Kasparov avec un score de 3,5 à 2,5. Cette victoire est considérée comme un jalon dans l'intelligence artificielle.

La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage de représentations à partir de données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, des RNN, GAN aux Transformers et à la Stable Diffusion, ces algorithmes ont façonné la troisième vague technologique, marquant également l'apogée du connexionnisme.

De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage profond, y compris :

  • En 2011, le Watson d'IBM a battu des humains et a remporté le championnat dans l'émission de quiz "Dangerous Edge".

  • En 2014, Goodfellow a proposé le GAN, qui permet d'apprendre en faisant s'affronter deux réseaux de neurones, capable de générer des photos presque indiscernables des vraies.

  • En 2015, Hinton et al. ont proposé des algorithmes d'apprentissage profond dans la revue Nature, suscitant immédiatement un grand impact dans le monde académique et industriel.

  • En 2015, OpenAI a été créé, recevant un investissement de 1 milliard de dollars.

  • En 2016, AlphaGo, basé sur la technologie d'apprentissage profond, a remporté une bataille de Go contre Lee Sedol avec un score de 4 à 1.

  • En 2017, Google a publié un article intitulé « Attention is all you need » proposant l'algorithme Transformer, marquant le début de l'émergence des modèles de langage à grande échelle.

  • En 2018, OpenAI a publié le GPT construit sur l'algorithme Transformer, qui était l'un des plus grands modèles de langage à l'époque.

  • En 2019, OpenAI a publié GPT-2, qui possède 1,5 milliard de paramètres.

  • En 2020, GPT-3 développé par OpenAI possède 175 milliards de paramètres, ce qui est 100 fois plus que GPT-2.

  • En 2021, OpenAI a publié GPT-4, qui possède 1,76 billion de paramètres, soit 10 fois plus que GPT-3.

  • L'application ChatGPT basée sur le modèle GPT-4 a été lancée en janvier 2023, atteignant 100 millions d'utilisateurs en mars, devenant ainsi l'application qui atteint le plus rapidement 100 millions d'utilisateurs dans l'histoire.

Nouvelle introduction丨AI x Crypto : De zéro au sommet

Chaîne de valeur de l'apprentissage profond

Les modèles de langage actuels sont tous basés sur des méthodes d'apprentissage profond par réseaux de neurones. Avec GPT en tête, les grands modèles ont déclenché une vague d'engouement pour l'intelligence artificielle, attirant de nombreux acteurs sur ce marché, ce qui a entraîné une forte demande en données et en puissance de calcul. Ainsi, dans cette partie du rapport, nous explorons principalement la chaîne de valeur des algorithmes d'apprentissage profond, comment les secteurs amont et aval sont composés dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, ainsi que l'état actuel et les relations d'offre et de demande des secteurs amont et aval, et comment se déroulera leur développement futur.

Tout d'abord, il est nécessaire de préciser que lors de l'entraînement de grands modèles tels que GPT basés sur la technologie Transformer, cela se divise en trois étapes.

Avant l'entraînement, en raison de la structure basée sur le Transformer, le convertisseur doit transformer l'entrée textuelle en valeurs numériques, ce processus est appelé "Tokenization", après quoi ces valeurs sont appelées Token. En général, un mot ou un caractère anglais peut être grossièrement considéré comme un Token, tandis que chaque caractère chinois peut être grossièrement considéré comme deux Tokens. C'est aussi l'unité de base utilisée pour le calcul des prix de GPT.

La première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée pour trouver les meilleurs paramètres de chaque neurone du modèle, ce processus nécessite une grande quantité de données et est également le plus coûteux en termes de calcul, car il faut itérer plusieurs fois les neurones en essayant divers paramètres. Une fois qu'un lot de paires de données est entraîné, on utilise généralement le même lot de données pour un second entraînement afin d'itérer les paramètres.

Deuxième étape, le fine-tuning. Le fine-tuning consiste à entraîner un modèle sur un petit lot de données de très haute qualité. Ce type de changement permet d'améliorer la qualité des sorties du modèle, car le pré-entraînement nécessite une grande quantité de données, mais beaucoup de ces données peuvent contenir des erreurs ou être de faible qualité. L'étape de fine-tuning permet d'améliorer la qualité du modèle grâce à des données de qualité.

Troisième étape, apprentissage par renforcement. Tout d'abord, un tout nouveau modèle sera établi, appelé "modèle de récompense", dont l'objectif est simple : classer les résultats de sortie. Ensuite, ce modèle sera utilisé pour déterminer si la sortie du grand modèle est de haute qualité, permettant ainsi d'itérer automatiquement les paramètres du grand modèle avec un modèle de récompense. ( Cependant, il est parfois nécessaire d'impliquer des humains pour évaluer la qualité de la sortie du modèle ).

En résumé, lors du processus d'entraînement des grands modèles, la préformation exige une très grande quantité de données, et la puissance de calcul GPU nécessaire est également la plus élevée. Le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres, et l'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises à l'aide d'un modèle de récompense pour produire des résultats de meilleure qualité.

Pendant le processus d'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par conséquent, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois facteurs influencent ensemble la qualité des résultats des grands modèles et leur capacité de généralisation.

Supposons que le nombre de paramètres soit p, la quantité de données soit n( en fonction du nombre de Token ), alors nous pouvons estimer la quantité de calcul requise en utilisant la règle générale, ce qui nous permettra d'estimer la puissance de calcul à acheter ainsi que le temps d'entraînement.

La puissance de calcul est généralement mesurée en Flops, représentant une opération flottante. Selon les règles empiriques de la pratique, préformer un grand modèle nécessite environ 6np Flops, où 6 est appelé constante de l'industrie. L'inférence (, c'est le processus où nous entrons une donnée et attendons la sortie du grand modèle ), divisé en deux parties : entrer n tokens et sortir n tokens, donc cela nécessite environ 2np Flops au total.

Au début, l'entraînement était effectué à l'aide de puces CPU pour fournir un soutien en puissance de calcul, mais par la suite, on a progressivement commencé à utiliser des GPU en remplacement, tels que les puces A100 et H100 de Nvidia. En effet, le CPU est conçu pour le calcul général, tandis que le GPU peut être utilisé pour des calculs spécialisés, dépassant de loin le CPU en termes d'efficacité énergétique. Le GPU exécute des opérations en virgule flottante principalement à travers un module appelé Tensor Core. Par conséquent, les puces courantes ont des données de Flops sous les précisions FP16 / FP32, ce qui représente leur principale capacité de calcul et est l'un des principaux critères de mesure des puces.

Nous pouvons voir que cette énorme charge de calcul nécessite plusieurs puces de pointe travaillant ensemble pour réaliser un pré-entraînement. De plus, le nombre de paramètres de GPT-4 est dix fois celui de GPT-3, ce qui signifie que même si la quantité de données reste constante, le nombre de puces à acheter doit être multiplié par dix. De plus, le nombre de tokens de GPT-4 est de 13 trillions, soit encore dix fois celui de GPT-3. En fin de compte, GPT-4 pourrait nécessiter plus de 100 fois la puissance de calcul des puces.

Dans l'entraînement de grands modèles, le stockage des données est également un problème, car le volume de données est énorme, tandis que la mémoire des GPU est généralement assez petite. Ainsi, lorsque l'espace mémoire ne peut pas contenir ces données, il est nécessaire d'examiner la bande passante des puces, c'est-à-dire la vitesse de transfert des données du disque dur à la mémoire. De plus, comme nous n'allons pas utiliser qu'une seule puce, il est donc nécessaire d'utiliser la méthode d'apprentissage collaboratif, où plusieurs puces GPU entraînent ensemble un grand modèle, ce qui implique la vitesse de transfert entre les GPU. Par conséquent, dans de nombreux cas, les facteurs ou les coûts qui limitent la pratique de l'entraînement final du modèle ne sont pas nécessairement la puissance de calcul de la puce, mais souvent la bande passante de la puce. Parce que le transfert de données est très lent, cela prolongera le temps d'exécution du modèle, ce qui augmentera les coûts électriques.

Nouveau guide丨IA x Crypto : De zéro au sommet

La relation entre la crypto et l'IA

La blockchain a bénéficié du développement de la technologie ZK, évoluant vers une pensée décentralisée + sans confiance. Revenons aux débuts de la création de la blockchain, qui est la chaîne Bitcoin. Dans le document de Satoshi Nakamoto, il l'appelle d'abord un système de transfert de valeur sans confiance. Par la suite, une plateforme de contrats intelligents décentralisée, sans confiance et d'échange de valeur a été lancée.

Revenons à l'essentiel, nous pensons que l'ensemble du réseau blockchain est un réseau de valeur, chaque transaction étant une conversion de valeur basée sur le token sous-jacent. La valeur ici se manifeste sous la forme de Token, et la Tokenomics est la règle qui concrétise la valeur spécifique des Tokens.

Dans l'internet traditionnel, la création de valeur est réglée par le P/E, qui se manifeste sous une forme finale, à savoir le prix des actions. Tout le trafic, la valeur et l'influence se traduisent par le flux de trésorerie de l'entreprise. Ce flux de trésorerie est la dernière manifestation de la valeur, qui est finalement convertie en P/E et reflétée dans le prix des actions et la capitalisation boursière.

Mais pour le réseau Ethereum, l'ETH, en tant qu'incarnation de la valeur multidimensionnelle du réseau Ethereum, peut non seulement générer un flux de trésorerie stable par le biais du staking, mais aussi servir de moyen d'échange de valeur, de moyen de stockage de valeur, de bien consommable pour les activités du réseau, etc. De plus, il joue également le rôle de couche de protection de sécurité pour le Restaking, les frais de gaz de l'écosystème Layer2, etc.

La tokenomique est très importante, car l'économie des jetons peut définir le règlement de l'écosystème (, c'est-à-dire la valeur relative du jeton natif du réseau ). Bien que nous ne puissions pas fixer de prix pour chaque dimension, nous avons une manifestation de valeur multidimensionnelle, c'est le prix du jeton. Cette valeur dépasse de loin la forme de représentation des titres d'entreprise. Une fois que des jetons sont attribués au réseau et que ces jetons sont mis en circulation, similaire à tous les Q-Coins de Tencent, avec une quantité limitée et un mécanisme de déflation et d'inflation.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 4
  • Partager
Commentaire
0/400
GameFiCriticvip
· Il y a 13h
Nouvelle tendance de double attaque technologique
Voir l'originalRépondre0
NeverPresentvip
· Il y a 13h
Depth incontournable d'analyse
Voir l'originalRépondre0
fren_with_benefitsvip
· Il y a 14h
L'avenir est déjà là et éclatant
Voir l'originalRépondre0
ProposalManiacvip
· Il y a 14h
La technologie est toujours en route.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)