Perkembangan industri kecerdasan buatan baru-baru ini dianggap oleh beberapa orang sebagai revolusi industri keempat. Munculnya model besar secara signifikan telah meningkatkan efisiensi di berbagai sektor, diperkirakan meningkatkan efisiensi kerja di AS sekitar 20%. Sementara itu, kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak yang baru, dibandingkan dengan desain kode yang akurat di masa lalu, desain perangkat lunak saat ini lebih banyak mengintegrasikan kerangka model besar yang digeneralisasi ke dalam perangkat lunak, yang dapat memberikan kinerja yang lebih baik dan mendukung input dan output dengan berbagai modalitas yang lebih luas. Teknologi pembelajaran mendalam memang membawa gelombang baru kemakmuran bagi industri AI, dan arus ini juga menjangkau industri cryptocurrency.
Laporan ini akan membahas secara rinci sejarah perkembangan industri AI, klasifikasi teknologi, serta dampak teknologi pembelajaran mendalam terhadap industri. Kemudian, analisis mendalam tentang kondisi dan tren perkembangan hulu dan hilir rantai industri seperti GPU, komputasi awan, sumber data, dan perangkat tepi dalam pembelajaran mendalam. Akhirnya, secara mendalam membahas hubungan antara cryptocurrency dan industri AI, serta merinci pola rantai industri AI yang terkait dengan cryptocurrency.
Sejarah perkembangan industri AI
Industri AI dimulai pada tahun 1950-an, untuk mewujudkan visi kecerdasan buatan, kalangan akademis dan industri dalam berbagai era dan latar belakang disiplin ilmu yang berbeda telah mengembangkan berbagai aliran untuk mewujudkan kecerdasan buatan.
Teknologi kecerdasan buatan modern terutama menggunakan istilah "pembelajaran mesin", yang konsepnya adalah membiarkan mesin mengandalkan data untuk berulang kali melakukan iterasi dalam tugas untuk meningkatkan kinerja sistem. Langkah utama adalah mengirimkan data ke dalam algoritme, menggunakan data ini untuk melatih model, menguji penerapan model, dan menggunakan model untuk menyelesaikan tugas prediksi otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu konektivisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf manusia, pemikiran, dan perilaku.
Saat ini, konektivisme yang diwakili oleh jaringan saraf mendominasi ( juga dikenal sebagai pembelajaran mendalam ), alasan utamanya adalah arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Begitu jumlah lapisan dan neuron ( parameter ) cukup banyak, ada cukup peluang untuk menyesuaikan tugas umum yang kompleks. Dengan memasukkan data, parameter neuron dapat disesuaikan terus-menerus, setelah melalui banyak data, neuron akan mencapai keadaan optimal ( parameter ), ini juga merupakan asal usul "kedalaman" - jumlah lapisan dan neuron yang cukup.
Teknologi pembelajaran mendalam berbasis jaringan saraf juga mengalami beberapa iterasi dan evolusi teknis, mulai dari jaringan saraf awal, ke jaringan saraf feedforward, RNN, CNN, GAN, dan akhirnya berevolusi menjadi model besar modern seperti GPT yang menggunakan teknologi Transformer. Teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, yang menambahkan sebuah konverter, digunakan untuk mengkodekan semua modal ( seperti audio, video, gambar, dll ) ke dalam nilai yang sesuai untuk mewakili. Kemudian, data ini dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat mencocokkan jenis data apapun, yang berarti mewujudkan multimodal.
Perkembangan AI telah mengalami tiga gelombang teknologi:
Gelombang pertama terjadi pada tahun 1960-an, sepuluh tahun setelah teknologi AI diperkenalkan. Gelombang ini disebabkan oleh perkembangan teknologi simbolisme, yang menyelesaikan masalah pemrosesan bahasa alami yang umum serta dialog manusia-mesin. Pada waktu yang sama, sistem pakar lahir, yaitu sebuah sistem yang memiliki pengetahuan kimia yang sangat kuat, yang melakukan inferensi melalui pertanyaan untuk menghasilkan jawaban yang mirip dengan pakar kimia.
Gelombang kedua teknologi AI terjadi pada tahun 1997, di mana IBM Deep Blue mengalahkan juara catur Garry Kasparov dengan skor 3.5:2.5, kemenangan ini dianggap sebagai sebuah tonggak dalam kecerdasan buatan.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raksasa pembelajaran mendalam mengajukan konsep pembelajaran mendalam, sebuah algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk mempelajari representasi data. Setelah itu, algoritma pembelajaran mendalam terus berevolusi, dari RNN, GAN hingga Transformer dan Stable Diffusion, algoritma-algoritma ini bersama-sama membentuk gelombang teknologi ketiga, yang juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson dari IBM mengalahkan manusia dan memenangkan kejuaraan dalam acara kuis "Jeopardy!".
Pada tahun 2014, Goodfellow mengusulkan GAN, yang dapat menghasilkan foto yang sangat realistis dengan cara membiarkan dua jaringan saraf saling berkompetisi dalam pembelajaran.
Pada tahun 2015, Hinton dan kawan-kawan mengajukan algoritma pembelajaran mendalam di majalah "Nature", yang segera memicu reaksi besar di kalangan akademis dan industri.
Pada tahun 2015, OpenAI didirikan, mendapatkan investasi sebesar 1 miliar dolar.
Pada tahun 2016, AlphaGo yang berbasis pada teknologi pembelajaran mendalam bertanding melawan Lee Sedol dalam pertempuran Go antara manusia dan mesin, dan menang dengan skor 4:1.
Pada tahun 2017, Google menerbitkan makalah "Attention is all you need" yang memperkenalkan algoritma Transformer, model bahasa skala besar mulai muncul.
Pada tahun 2018, OpenAI merilis GPT yang dibangun berdasarkan algoritma Transformer, merupakan salah satu model bahasa terbesar pada saat itu.
Pada tahun 2019, OpenAI merilis GPT-2, yang memiliki 1,5 miliar parameter.
Pada tahun 2020, GPT-3 yang dikembangkan oleh OpenAI memiliki 175 miliar parameter, 100 kali lebih banyak daripada GPT-2.
Pada tahun 2021, OpenAI merilis GPT-4, yang memiliki 1,76 triliun parameter, sepuluh kali lipat dari GPT-3.
Aplikasi ChatGPT berbasis model GPT-4 diluncurkan pada Januari 2023, mencapai seratus juta pengguna pada bulan Maret, menjadi aplikasi yang paling cepat mencapai seratus juta pengguna dalam sejarah.
Rantai industri pembelajaran mendalam
Model bahasa besar saat ini menggunakan metode pembelajaran mendalam berbasis jaringan saraf. Dengan GPT sebagai pemimpin, model besar ini telah menciptakan gelombang baru dalam kecerdasan buatan, menarik banyak pemain untuk terjun ke dalam bidang ini, sehingga permintaan pasar terhadap data dan daya komputasi melonjak. Oleh karena itu, pada bagian laporan ini, kami akan mengeksplorasi rantai industri dari algoritma pembelajaran mendalam, bagaimana hulu dan hilir terbentuk dalam industri AI yang dipimpin oleh algoritma pembelajaran mendalam, serta kondisi terkini, hubungan penawaran dan permintaan, dan perkembangan di masa depan.
Pertama, perlu dipastikan bahwa dalam melatih model besar seperti GPT yang berbasis teknologi Transformer, terdapat tiga langkah yang harus dilakukan.
Sebelum pelatihan, karena berbasis Transformer, konverter perlu mengubah input teks menjadi angka, proses ini disebut "Tokenization", setelah itu angka-angka ini disebut Token. Secara umum, satu kata atau karakter dalam bahasa Inggris dapat dianggap sebagai satu Token, sedangkan setiap karakter Han dapat dianggap sebagai dua Token. Ini juga merupakan satuan dasar yang digunakan untuk penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan cukup banyak pasangan data ke lapisan input untuk mencari parameter terbaik dari setiap neuron di bawah model tersebut, proses ini memerlukan banyak data dan juga merupakan proses yang paling menghabiskan daya komputasi, karena harus mengulangi iterasi neuron mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, biasanya akan digunakan batch data yang sama untuk pelatihan kedua untuk mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sejumlah kecil data yang berkualitas sangat tinggi untuk melatih, perubahan ini akan membuat output model memiliki kualitas yang lebih tinggi, karena pre-training membutuhkan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama-tama, akan dibangun model baru yang disebut "model penghargaan", tujuan model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran. Kemudian, model ini digunakan untuk menentukan apakah keluaran model besar berkualitas tinggi, sehingga dapat menggunakan model penghargaan untuk mengiterasi parameter model besar secara otomatis. ( Namun terkadang juga diperlukan partisipasi manusia untuk menilai kualitas keluaran model ).
Secara singkat, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang diperlukan juga paling besar, sementara penyetelan memerlukan data yang lebih berkualitas tinggi untuk memperbaiki parameter, dan pembelajaran penguatan dapat mengiterasi parameter melalui model penghargaan untuk menghasilkan hasil yang lebih berkualitas.
Selama proses pelatihan, semakin banyak parameter, semakin tinggi batas kemampuan generalisasi. Oleh karena itu, kinerja model besar terutama ditentukan oleh tiga aspek: jumlah parameter, jumlah dan kualitas data, serta daya komputasi. Ketiga aspek ini secara bersama-sama mempengaruhi kualitas hasil dan kemampuan generalisasi model besar.
Misalkan jumlah parameter adalah p, jumlah data adalah n( dihitung berdasarkan jumlah Token ), maka kita dapat menghitung jumlah komputasi yang diperlukan melalui aturan umum, sehingga kita dapat memperkirakan kebutuhan daya komputasi yang perlu dibeli serta waktu pelatihan.
Kekuatan komputasi umumnya diukur dalam Flops, yang mewakili satu operasi floating point. Berdasarkan aturan praktis, untuk melatih model besar sekali, diperlukan sekitar 6np Flops, di mana 6 disebut sebagai konstanta industri. Sedangkan inferensi (, adalah proses di mana kita memasukkan data dan menunggu keluaran dari model besar ), dibagi menjadi dua bagian, memasukkan n token dan mengeluarkan n token, maka total yang diperlukan adalah sekitar 2np Flops.
Pada awalnya, chip CPU digunakan untuk pelatihan yang menyediakan dukungan komputasi, tetapi kemudian mulai secara bertahap digantikan oleh GPU, seperti chip Nvidia A100, H100, dan sebagainya. Ini karena CPU ada sebagai komputasi umum, tetapi GPU dapat berfungsi sebagai komputasi khusus, dan dalam hal efisiensi konsumsi energi jauh melampaui CPU. GPU menjalankan operasi floating point terutama melalui modul yang disebut Tensor Core. Oleh karena itu, chip umum memiliki data Flops pada presisi FP16 / FP32, yang mewakili kemampuan komputasi utamanya, dan juga merupakan salah satu indikator utama dari chip.
Kita dapat melihat bahwa jumlah perhitungan yang besar ini membutuhkan beberapa chip canggih untuk melakukan komputasi bersama agar dapat melakukan satu kali pelatihan awal, dan jumlah parameter GPT-4 adalah sepuluh kali lipat dari GPT-3, yang berarti bahkan jika jumlah data tetap sama, jumlah chip yang harus dibeli harus sepuluh kali lipat. Selain itu, jumlah Token GPT-4 adalah 13 triliun, juga sepuluh kali lipat dari GPT-3. Akhirnya, GPT-4 mungkin memerlukan lebih dari 100 kali lipat kekuatan chip.
Dalam pelatihan model besar, penyimpanan data juga menjadi masalah, karena jumlah data yang sangat besar, sementara ruang memori GPU biasanya cukup kecil, sehingga ketika ruang memori tidak dapat menampung data ini, perlu mempertimbangkan bandwidth chip, yaitu kecepatan transfer data dari hard disk ke memori. Selain itu, karena kita tidak hanya akan menggunakan satu chip, maka perlu menggunakan metode pembelajaran bersama, di mana beberapa chip GPU secara bersamaan melatih satu model besar, yang melibatkan kecepatan transfer antara chip GPU. Jadi, dalam banyak kasus, faktor atau biaya yang membatasi praktik pelatihan model akhir, tidak selalu merupakan kemampuan komputasi chip, lebih sering mungkin adalah bandwidth chip. Karena transfer data yang lambat, akan menyebabkan waktu menjalankan model menjadi lebih lama, sehingga biaya listrik akan meningkat.
Hubungan Crypto x AI
Blockchain memperoleh manfaat dari perkembangan teknologi ZK, berevolusi menjadi pemikiran desentralisasi + tanpa kepercayaan. Kita kembali ke awal penciptaan blockchain, yaitu rantai Bitcoin. Dalam makalah Satoshi Nakamoto, ia pertama kali menyebutnya sebagai sistem pemindahan nilai yang tanpa kepercayaan. Setelah itu diluncurkan platform kontrak pintar yang desentralisasi, tanpa kepercayaan, dan pertukaran nilai.
Kembali ke esensi, kami percaya bahwa seluruh jaringan blockchain adalah jaringan nilai, setiap transaksi merupakan konversi nilai yang berbasis pada token dasar. Di sini, nilai tercermin dalam bentuk Token, dan Tokenomics adalah aturan yang mengungkapkan nilai spesifik dari Token.
Dalam internet tradisional, penciptaan nilai diselesaikan dengan P/E, yang memiliki bentuk akhir yang terwujud, yaitu harga saham. Semua lalu lintas, nilai, dan pengaruh akan membentuk arus kas perusahaan, dan arus kas ini adalah manifestasi akhir dari nilai, yang akhirnya dihitung kembali menjadi P/E yang tercermin dalam harga saham dan nilai pasar.
Namun, untuk jaringan Ethereum, ETH sebagai perwujudan berbagai dimensi nilai dari jaringan Ethereum, tidak hanya dapat memperoleh aliran kas yang stabil melalui staking, tetapi juga dapat berfungsi sebagai media pertukaran nilai, media penyimpanan nilai, barang konsumsi dari aktivitas jaringan, dan lain-lain. Selain itu, ia juga berfungsi sebagai lapisan perlindungan keamanan Restaking, Gas Fee ekosistem Layer2, dan sebagainya.
Tokenomics sangat penting, ekonomi token dapat menentukan penyelesaian ekosistem ( yaitu nilai relatif dari token asli jaringan ), meskipun kita tidak dapat memberikan harga untuk setiap dimensi, tetapi kita memiliki perwujudan nilai multidimensi, itulah harga token. Nilai ini jauh melampaui bentuk keberadaan sekuritas perusahaan. Setelah token diberikan kepada jaringan, dan token tersebut diperdagangkan, mirip dengan semua Q币 Tencent yang memiliki jumlah terbatas, mekanisme inflasi dan deflasi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
AI x Aset Kripto: dari perkembangan teknologi hingga analisis panorama rantai industri
AI x Crypto: Dari Nol ke Puncak
Pendahuluan
Perkembangan industri kecerdasan buatan baru-baru ini dianggap oleh beberapa orang sebagai revolusi industri keempat. Munculnya model besar secara signifikan telah meningkatkan efisiensi di berbagai sektor, diperkirakan meningkatkan efisiensi kerja di AS sekitar 20%. Sementara itu, kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak yang baru, dibandingkan dengan desain kode yang akurat di masa lalu, desain perangkat lunak saat ini lebih banyak mengintegrasikan kerangka model besar yang digeneralisasi ke dalam perangkat lunak, yang dapat memberikan kinerja yang lebih baik dan mendukung input dan output dengan berbagai modalitas yang lebih luas. Teknologi pembelajaran mendalam memang membawa gelombang baru kemakmuran bagi industri AI, dan arus ini juga menjangkau industri cryptocurrency.
Laporan ini akan membahas secara rinci sejarah perkembangan industri AI, klasifikasi teknologi, serta dampak teknologi pembelajaran mendalam terhadap industri. Kemudian, analisis mendalam tentang kondisi dan tren perkembangan hulu dan hilir rantai industri seperti GPU, komputasi awan, sumber data, dan perangkat tepi dalam pembelajaran mendalam. Akhirnya, secara mendalam membahas hubungan antara cryptocurrency dan industri AI, serta merinci pola rantai industri AI yang terkait dengan cryptocurrency.
Sejarah perkembangan industri AI
Industri AI dimulai pada tahun 1950-an, untuk mewujudkan visi kecerdasan buatan, kalangan akademis dan industri dalam berbagai era dan latar belakang disiplin ilmu yang berbeda telah mengembangkan berbagai aliran untuk mewujudkan kecerdasan buatan.
Teknologi kecerdasan buatan modern terutama menggunakan istilah "pembelajaran mesin", yang konsepnya adalah membiarkan mesin mengandalkan data untuk berulang kali melakukan iterasi dalam tugas untuk meningkatkan kinerja sistem. Langkah utama adalah mengirimkan data ke dalam algoritme, menggunakan data ini untuk melatih model, menguji penerapan model, dan menggunakan model untuk menyelesaikan tugas prediksi otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu konektivisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf manusia, pemikiran, dan perilaku.
Saat ini, konektivisme yang diwakili oleh jaringan saraf mendominasi ( juga dikenal sebagai pembelajaran mendalam ), alasan utamanya adalah arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Begitu jumlah lapisan dan neuron ( parameter ) cukup banyak, ada cukup peluang untuk menyesuaikan tugas umum yang kompleks. Dengan memasukkan data, parameter neuron dapat disesuaikan terus-menerus, setelah melalui banyak data, neuron akan mencapai keadaan optimal ( parameter ), ini juga merupakan asal usul "kedalaman" - jumlah lapisan dan neuron yang cukup.
Teknologi pembelajaran mendalam berbasis jaringan saraf juga mengalami beberapa iterasi dan evolusi teknis, mulai dari jaringan saraf awal, ke jaringan saraf feedforward, RNN, CNN, GAN, dan akhirnya berevolusi menjadi model besar modern seperti GPT yang menggunakan teknologi Transformer. Teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, yang menambahkan sebuah konverter, digunakan untuk mengkodekan semua modal ( seperti audio, video, gambar, dll ) ke dalam nilai yang sesuai untuk mewakili. Kemudian, data ini dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat mencocokkan jenis data apapun, yang berarti mewujudkan multimodal.
Perkembangan AI telah mengalami tiga gelombang teknologi:
Gelombang pertama terjadi pada tahun 1960-an, sepuluh tahun setelah teknologi AI diperkenalkan. Gelombang ini disebabkan oleh perkembangan teknologi simbolisme, yang menyelesaikan masalah pemrosesan bahasa alami yang umum serta dialog manusia-mesin. Pada waktu yang sama, sistem pakar lahir, yaitu sebuah sistem yang memiliki pengetahuan kimia yang sangat kuat, yang melakukan inferensi melalui pertanyaan untuk menghasilkan jawaban yang mirip dengan pakar kimia.
Gelombang kedua teknologi AI terjadi pada tahun 1997, di mana IBM Deep Blue mengalahkan juara catur Garry Kasparov dengan skor 3.5:2.5, kemenangan ini dianggap sebagai sebuah tonggak dalam kecerdasan buatan.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raksasa pembelajaran mendalam mengajukan konsep pembelajaran mendalam, sebuah algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk mempelajari representasi data. Setelah itu, algoritma pembelajaran mendalam terus berevolusi, dari RNN, GAN hingga Transformer dan Stable Diffusion, algoritma-algoritma ini bersama-sama membentuk gelombang teknologi ketiga, yang juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson dari IBM mengalahkan manusia dan memenangkan kejuaraan dalam acara kuis "Jeopardy!".
Pada tahun 2014, Goodfellow mengusulkan GAN, yang dapat menghasilkan foto yang sangat realistis dengan cara membiarkan dua jaringan saraf saling berkompetisi dalam pembelajaran.
Pada tahun 2015, Hinton dan kawan-kawan mengajukan algoritma pembelajaran mendalam di majalah "Nature", yang segera memicu reaksi besar di kalangan akademis dan industri.
Pada tahun 2015, OpenAI didirikan, mendapatkan investasi sebesar 1 miliar dolar.
Pada tahun 2016, AlphaGo yang berbasis pada teknologi pembelajaran mendalam bertanding melawan Lee Sedol dalam pertempuran Go antara manusia dan mesin, dan menang dengan skor 4:1.
Pada tahun 2017, Google menerbitkan makalah "Attention is all you need" yang memperkenalkan algoritma Transformer, model bahasa skala besar mulai muncul.
Pada tahun 2018, OpenAI merilis GPT yang dibangun berdasarkan algoritma Transformer, merupakan salah satu model bahasa terbesar pada saat itu.
Pada tahun 2019, OpenAI merilis GPT-2, yang memiliki 1,5 miliar parameter.
Pada tahun 2020, GPT-3 yang dikembangkan oleh OpenAI memiliki 175 miliar parameter, 100 kali lebih banyak daripada GPT-2.
Pada tahun 2021, OpenAI merilis GPT-4, yang memiliki 1,76 triliun parameter, sepuluh kali lipat dari GPT-3.
Aplikasi ChatGPT berbasis model GPT-4 diluncurkan pada Januari 2023, mencapai seratus juta pengguna pada bulan Maret, menjadi aplikasi yang paling cepat mencapai seratus juta pengguna dalam sejarah.
Rantai industri pembelajaran mendalam
Model bahasa besar saat ini menggunakan metode pembelajaran mendalam berbasis jaringan saraf. Dengan GPT sebagai pemimpin, model besar ini telah menciptakan gelombang baru dalam kecerdasan buatan, menarik banyak pemain untuk terjun ke dalam bidang ini, sehingga permintaan pasar terhadap data dan daya komputasi melonjak. Oleh karena itu, pada bagian laporan ini, kami akan mengeksplorasi rantai industri dari algoritma pembelajaran mendalam, bagaimana hulu dan hilir terbentuk dalam industri AI yang dipimpin oleh algoritma pembelajaran mendalam, serta kondisi terkini, hubungan penawaran dan permintaan, dan perkembangan di masa depan.
Pertama, perlu dipastikan bahwa dalam melatih model besar seperti GPT yang berbasis teknologi Transformer, terdapat tiga langkah yang harus dilakukan.
Sebelum pelatihan, karena berbasis Transformer, konverter perlu mengubah input teks menjadi angka, proses ini disebut "Tokenization", setelah itu angka-angka ini disebut Token. Secara umum, satu kata atau karakter dalam bahasa Inggris dapat dianggap sebagai satu Token, sedangkan setiap karakter Han dapat dianggap sebagai dua Token. Ini juga merupakan satuan dasar yang digunakan untuk penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan cukup banyak pasangan data ke lapisan input untuk mencari parameter terbaik dari setiap neuron di bawah model tersebut, proses ini memerlukan banyak data dan juga merupakan proses yang paling menghabiskan daya komputasi, karena harus mengulangi iterasi neuron mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, biasanya akan digunakan batch data yang sama untuk pelatihan kedua untuk mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sejumlah kecil data yang berkualitas sangat tinggi untuk melatih, perubahan ini akan membuat output model memiliki kualitas yang lebih tinggi, karena pre-training membutuhkan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama-tama, akan dibangun model baru yang disebut "model penghargaan", tujuan model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran. Kemudian, model ini digunakan untuk menentukan apakah keluaran model besar berkualitas tinggi, sehingga dapat menggunakan model penghargaan untuk mengiterasi parameter model besar secara otomatis. ( Namun terkadang juga diperlukan partisipasi manusia untuk menilai kualitas keluaran model ).
Secara singkat, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang diperlukan juga paling besar, sementara penyetelan memerlukan data yang lebih berkualitas tinggi untuk memperbaiki parameter, dan pembelajaran penguatan dapat mengiterasi parameter melalui model penghargaan untuk menghasilkan hasil yang lebih berkualitas.
Selama proses pelatihan, semakin banyak parameter, semakin tinggi batas kemampuan generalisasi. Oleh karena itu, kinerja model besar terutama ditentukan oleh tiga aspek: jumlah parameter, jumlah dan kualitas data, serta daya komputasi. Ketiga aspek ini secara bersama-sama mempengaruhi kualitas hasil dan kemampuan generalisasi model besar.
Misalkan jumlah parameter adalah p, jumlah data adalah n( dihitung berdasarkan jumlah Token ), maka kita dapat menghitung jumlah komputasi yang diperlukan melalui aturan umum, sehingga kita dapat memperkirakan kebutuhan daya komputasi yang perlu dibeli serta waktu pelatihan.
Kekuatan komputasi umumnya diukur dalam Flops, yang mewakili satu operasi floating point. Berdasarkan aturan praktis, untuk melatih model besar sekali, diperlukan sekitar 6np Flops, di mana 6 disebut sebagai konstanta industri. Sedangkan inferensi (, adalah proses di mana kita memasukkan data dan menunggu keluaran dari model besar ), dibagi menjadi dua bagian, memasukkan n token dan mengeluarkan n token, maka total yang diperlukan adalah sekitar 2np Flops.
Pada awalnya, chip CPU digunakan untuk pelatihan yang menyediakan dukungan komputasi, tetapi kemudian mulai secara bertahap digantikan oleh GPU, seperti chip Nvidia A100, H100, dan sebagainya. Ini karena CPU ada sebagai komputasi umum, tetapi GPU dapat berfungsi sebagai komputasi khusus, dan dalam hal efisiensi konsumsi energi jauh melampaui CPU. GPU menjalankan operasi floating point terutama melalui modul yang disebut Tensor Core. Oleh karena itu, chip umum memiliki data Flops pada presisi FP16 / FP32, yang mewakili kemampuan komputasi utamanya, dan juga merupakan salah satu indikator utama dari chip.
Kita dapat melihat bahwa jumlah perhitungan yang besar ini membutuhkan beberapa chip canggih untuk melakukan komputasi bersama agar dapat melakukan satu kali pelatihan awal, dan jumlah parameter GPT-4 adalah sepuluh kali lipat dari GPT-3, yang berarti bahkan jika jumlah data tetap sama, jumlah chip yang harus dibeli harus sepuluh kali lipat. Selain itu, jumlah Token GPT-4 adalah 13 triliun, juga sepuluh kali lipat dari GPT-3. Akhirnya, GPT-4 mungkin memerlukan lebih dari 100 kali lipat kekuatan chip.
Dalam pelatihan model besar, penyimpanan data juga menjadi masalah, karena jumlah data yang sangat besar, sementara ruang memori GPU biasanya cukup kecil, sehingga ketika ruang memori tidak dapat menampung data ini, perlu mempertimbangkan bandwidth chip, yaitu kecepatan transfer data dari hard disk ke memori. Selain itu, karena kita tidak hanya akan menggunakan satu chip, maka perlu menggunakan metode pembelajaran bersama, di mana beberapa chip GPU secara bersamaan melatih satu model besar, yang melibatkan kecepatan transfer antara chip GPU. Jadi, dalam banyak kasus, faktor atau biaya yang membatasi praktik pelatihan model akhir, tidak selalu merupakan kemampuan komputasi chip, lebih sering mungkin adalah bandwidth chip. Karena transfer data yang lambat, akan menyebabkan waktu menjalankan model menjadi lebih lama, sehingga biaya listrik akan meningkat.
Hubungan Crypto x AI
Blockchain memperoleh manfaat dari perkembangan teknologi ZK, berevolusi menjadi pemikiran desentralisasi + tanpa kepercayaan. Kita kembali ke awal penciptaan blockchain, yaitu rantai Bitcoin. Dalam makalah Satoshi Nakamoto, ia pertama kali menyebutnya sebagai sistem pemindahan nilai yang tanpa kepercayaan. Setelah itu diluncurkan platform kontrak pintar yang desentralisasi, tanpa kepercayaan, dan pertukaran nilai.
Kembali ke esensi, kami percaya bahwa seluruh jaringan blockchain adalah jaringan nilai, setiap transaksi merupakan konversi nilai yang berbasis pada token dasar. Di sini, nilai tercermin dalam bentuk Token, dan Tokenomics adalah aturan yang mengungkapkan nilai spesifik dari Token.
Dalam internet tradisional, penciptaan nilai diselesaikan dengan P/E, yang memiliki bentuk akhir yang terwujud, yaitu harga saham. Semua lalu lintas, nilai, dan pengaruh akan membentuk arus kas perusahaan, dan arus kas ini adalah manifestasi akhir dari nilai, yang akhirnya dihitung kembali menjadi P/E yang tercermin dalam harga saham dan nilai pasar.
Namun, untuk jaringan Ethereum, ETH sebagai perwujudan berbagai dimensi nilai dari jaringan Ethereum, tidak hanya dapat memperoleh aliran kas yang stabil melalui staking, tetapi juga dapat berfungsi sebagai media pertukaran nilai, media penyimpanan nilai, barang konsumsi dari aktivitas jaringan, dan lain-lain. Selain itu, ia juga berfungsi sebagai lapisan perlindungan keamanan Restaking, Gas Fee ekosistem Layer2, dan sebagainya.
Tokenomics sangat penting, ekonomi token dapat menentukan penyelesaian ekosistem ( yaitu nilai relatif dari token asli jaringan ), meskipun kita tidak dapat memberikan harga untuk setiap dimensi, tetapi kita memiliki perwujudan nilai multidimensi, itulah harga token. Nilai ini jauh melampaui bentuk keberadaan sekuritas perusahaan. Setelah token diberikan kepada jaringan, dan token tersebut diperdagangkan, mirip dengan semua Q币 Tencent yang memiliki jumlah terbatas, mekanisme inflasi dan deflasi.