AI x 加密貨幣:從技術發展到產業鏈全景解析

AI x Crypto:從零到巔峯

引言

人工智能行業近期的發展被一些人視爲第四次工業革命。大模型的出現顯著提升了各行各業的效率,據估計爲美國提升了約20%的工作效率。同時,大模型帶來的泛化能力被認爲是新的軟件設計範式,相比過去精確的代碼設計,現在的軟件設計更多是將泛化的大模型框架嵌入到軟件中,這些軟件能具備更好的表現和支持更廣泛模態的輸入與輸出。深度學習技術確實爲AI行業帶來了新一輪繁榮,這股潮流也延伸到了加密貨幣行業。

本報告將詳細探討AI行業的發展歷史、技術分類、以及深度學習技術對行業的影響。然後深入分析深度學習中GPU、雲計算、數據源、邊緣設備等產業鏈上下遊的發展現狀與趨勢。最後從本質上探討加密貨幣與AI行業的關係,梳理加密貨幣相關的AI產業鏈格局。

新人科普丨AI x Crypto:從零到巔峯

AI行業的發展歷史

AI行業從20世紀50年代起步,爲實現人工智能的願景,學術界和工業界在不同時代不同學科背景下,發展出了多種實現人工智能的流派。

現代人工智能技術主要使用"機器學習"這一術語,其理念是讓機器依靠數據在任務中反復迭代以改善系統性能。主要步驟是將數據送到算法中,使用此數據訓練模型,測試部署模型,使用模型完成自動化預測任務。

目前機器學習有三大主要流派,分別是聯結主義、符號主義和行爲主義,分別模仿人類的神經系統、思維、行爲。

目前以神經網路爲代表的聯結主義佔據上風(也稱爲深度學習),主要原因是這種架構有一個輸入層一個輸出層,但有多個隱藏層,一旦層數以及神經元(參數)數量足夠多,就有足夠機會擬合復雜的通用型任務。通過數據輸入,可以不斷調整神經元參數,經歷多次數據後神經元就會達到最佳狀態(參數),這也是其"深度"的由來 - 足夠多的層數和神經元。

基於神經網路的深度學習技術,也有多個技術迭代與演進,從早期的神經網路,到前饋神經網路、RNN、CNN、GAN,最後演進到現代大模型如GPT等使用的Transformer技術。Transformer技術只是神經網路的一個演進方向,多加了一個轉換器,用於把所有模態(如音頻,視頻,圖片等)的數據編碼成對應的數值來表示。然後再輸入到神經網路中,這樣神經網路就能擬合任何類型的數據,也就是實現多模態。

新人科普丨AI x Crypto:從零到巔峯

AI發展經歷了三次技術浪潮:

第一次浪潮是20世紀60年代,是AI技術提出十年後,這次浪潮是符號主義技術發展引起的,該技術解決了通用的自然語言處理以及人機對話問題。同時期,專家系統誕生,這是一個具備非常強的化學知識的系統,通過問題進行推斷以生成和化學專家一樣的答案。

第二次AI技術浪潮發生在1997年,IBM深藍"Blue"以3.5:2.5戰勝了國際象棋冠軍卡斯帕羅夫,這場勝利被視爲人工智能的一個裏程碑。

第三次AI技術浪潮發生在2006年。深度學習三巨頭提出了深度學習的概念,一種以人工神經網路爲架構,對數據進行表徵學習的算法。之後深度學習算法逐漸演進,從RNN、GAN到Transformer以及Stable Diffusion,這些算法共同塑造了第三次技術浪潮,也是聯結主義的鼎盛時期。

許多標志性事件也伴隨着深度學習技術的探索與演進逐漸湧現,包括:

  • 2011年,IBM的沃森在《危險邊緣》回答測驗節目中戰勝人類獲得冠軍。

  • 2014年,Goodfellow提出GAN,通過讓兩個神經網路相互博弈的方式進行學習,能夠生成以假亂真的照片。

  • 2015年,Hinton等人在《自然》雜志提出深度學習算法,立即在學術圈以及工業界引起巨大反響。

  • 2015年,OpenAI創建,獲得10億美元注資。

  • 2016年,基於深度學習技術的AlphaGo與李世石進行圍棋人機大戰,以4:1獲勝。

  • 2017年,Google發布論文《Attention is all you need》提出Transformer算法,大規模語言模型開始出現。

  • 2018年,OpenAI發布基於Transformer算法構建的GPT,是當時最大的語言模型之一。

  • 2019年,OpenAI發布GPT-2,具有15億個參數。

  • 2020年,OpenAI開發的GPT-3具有1750億個參數,比GPT-2高100倍。

  • 2021年,OpenAI發布GPT-4,具備1.76萬億個參數,是GPT-3的10倍。

  • 2023年1月基於GPT-4模型的ChatGPT應用推出,3月達到一億用戶,成爲歷史最快達到一億用戶的應用。

新人科普丨AI x Crypto:從零到巔峯

深度學習產業鏈

當前大模型語言使用的都是基於神經網路的深度學習方法。以GPT爲首的大模型造就了一波人工智能熱潮,大量玩家湧入這個賽道,市場對數據、算力的需求大量迸發。因此在報告的這一部分,我們主要探索深度學習算法的產業鏈,在深度學習算法主導的AI行業,其上下遊是如何組成的,上下遊的現狀與供需關係、未來發展又是如何。

首先需要明確的是,在訓練基於Transformer技術的GPT等大模型時,一共分爲三個步驟。

在訓練之前,由於基於Transformer,轉換器需要將文本輸入轉化爲數值,這個過程被稱爲"Tokenization",之後這些數值被稱爲Token。一般來說,一個英文單詞或字符可以粗略視作一個Token,而每個漢字可以被粗略視爲兩個Token。這也是GPT計價使用的基本單位。

第一步,預訓練。通過給輸入層足夠多的數據對來尋找該模型下各個神經元最佳的參數,這個過程需要大量數據,也是最耗費算力的過程,因爲要反復迭代神經元嘗試各種參數。一批數據對訓練完成後,一般會使用同一批數據進行二次訓練以迭代參數。

第二步,微調。微調是給予一批量較少但質量非常高的數據來訓練,這樣的改變會讓模型的輸出有更高的質量,因爲預訓練需要大量數據,但很多數據可能存在錯誤或低質量。微調步驟能夠通過優質數據提升模型的品質。

第三步,強化學習。首先會建立一個全新的模型,稱爲"獎勵模型",這個模型目的很簡單,就是對輸出的結果進行排序。之後用這個模型來判定大模型的輸出是否是高質量的,這樣就可以用一個獎勵模型來自動迭代大模型的參數。(但有時也需要人爲參與來評判模型的輸出質量)

簡而言之,在大模型的訓練過程中,預訓練對數據的量有非常高的要求,所需耗費的GPU算力也是最多的,而微調需要更加高質量的數據來改進參數,強化學習可以通過一個獎勵模型來反復迭代參數以輸出更高質量的結果。

在訓練過程中,參數越多其泛化能力的天花板就越高。因此,影響大模型表現主要由三個方面決定:參數數量、數據量與質量、算力,這三個共同影響了大模型的結果質量和泛化能力。

假設參數數量爲p,數據量爲n(以Token數量計算),那麼我們能夠通過一般的經驗法則計算所需的計算量,這樣就可以預估需要購買的算力情況以及訓練時間。

算力一般以Flops爲基本單位,代表了一次浮點運算。根據實踐的經驗法則,預訓練一次大模型,大概需要6np Flops,6被稱爲行業常數。而推理(Inference,就是我們輸入一個數據,等待大模型的輸出的過程),分成兩部分,輸入n個token,輸出n個token,那麼大約一共需要2np Flops。

在早期,使用的是CPU芯片進行訓練提供算力支持,但之後開始逐漸使用GPU替代,如Nvidia的A100、H100芯片等。因爲CPU是作爲通用計算存在的,但GPU可以作爲專用的計算,在能耗效率上遠遠超過CPU。GPU運行浮點運算主要是通過一個叫Tensor Core的模塊進行。因此一般的芯片有FP16 / FP32精度下的Flops數據,這個代表了其主要的計算能力,也是芯片的主要衡量指標之一。

我們能夠看到這個龐大的計算量,需要多張最先進的芯片共同計算才能夠實現一次預訓練,並且GPT4的參數量是GPT3的十倍,意味着即使數據量不變的情況下,芯片的數量要多購買十倍,並且GPT-4的Token數量爲13萬億個,又是GPT-3的十倍,最終,GPT-4可能需要超過100倍的芯片算力。

在大模型訓練中,數據存儲也是一個問題,因爲數據量巨大,而GPU的內存空間一般都較小,因此在內存空間無法容納這些數據時,就需要考察芯片的帶寬,也就是從硬盤到內存的數據傳輸速度。同時由於我們不會只使用一張芯片,那麼就需要使用聯合學習的方法,在多個GPU芯片共同訓練一個大模型,就涉及到GPU在芯片之間傳輸的速率。所以在很多時候,制約最後模型訓練實踐的因素或者成本,不一定是芯片的計算能力,更多時候可能是芯片的帶寬。因爲數據傳輸很慢,會導致運行模型的時間拉長,電力成本就會提高。

新人科普丨AI x Crypto:從零到巔峯

Crypto x AI的關係

區塊鏈得益於ZK技術的發展,演變成了去中心化 + 去信任化的思想。我們回到區塊鏈創造之初,是比特幣鏈。在中本聰的論文中,其首先稱其爲去信任化的、價值轉移系統。之後推出了去中心化、去信任化、價值互換的智能合約平台。

回到本質,我們認爲整個區塊鏈網路就是一個價值網路,每一筆交易都是以底層代幣爲基礎的價值轉換。這裏的價值是Token的形式體現,而Tokenomics就是具體的Token價值體現的規則。

在傳統的互聯網中,價值的產生是以P/E進行結算,是有一個最終的形式體現,也就是股價,所有的流量、價值、影響力都會形成企業的現金流,這種現金流是價值的最後體現,最後折算成P/E反映到股價和市值上。

但是對於以太坊網路來說,ETH作爲以太坊網路多種維度價值的體現,其不僅僅能夠通過質押獲得穩定的現金流,還能充當價值交換的媒介、價值存儲的媒介、網路活動的消費品等。並且,其還充當安全保護層Restaking、Layer2生態系統的Gas Fee等。

Tokenomics非常重要,代幣經濟學能夠規定生態系統的結算物(也就是網路的原生代幣)的相對價值,雖然我們無法爲每一個維度進行定價,但是我們有了多維度價值的體現,這就是代幣的價格。這種價值是遠遠超越企業的證券存在形式的。一旦爲網路賦予代幣,並且將該種代幣進行流通,類似於騰訊的所有Q幣有了限定的數量、通縮通膨的機制、

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 4
  • 分享
留言
0/400
链游评鉴家vip
· 9小時前
技术双杀新趋势
回復0
末曾在场vip
· 9小時前
深度有料分析必读
回復0
fren_with_benefitsvip
· 9小時前
未来已来且锃亮
回復0
治理提案狂vip
· 9小時前
技术永远在路上
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)