يعتبر البعض أن التطورات الأخيرة في صناعة الذكاء الاصطناعي هي الثورة الصناعية الرابعة. لقد ساهم ظهور النماذج الكبيرة بشكل كبير في تحسين الكفاءة في مختلف الصناعات، حيث يُقدر أنها زادت من كفاءة العمل في الولايات المتحدة بحوالي 20%. في الوقت نفسه، تعتبر القدرة على التعميم التي تجلبها النماذج الكبيرة نموذجًا جديدًا لتصميم البرمجيات، حيث أن تصميم البرمجيات الآن يعتمد إلى حد كبير على دمج إطار النموذج الكبير في البرمجيات، مما يمكن هذه البرمجيات من تحقيق أداء أفضل ودعم مجموعة أوسع من المدخلات والمخرجات. لقد جلبت تقنيات التعلم العميق بالفعل جولة جديدة من الازدهار لصناعة الذكاء الاصطناعي، وقد امتدت هذه الموجة إلى صناعة العملات المشفرة.
سيتناول هذا التقرير بالتفصيل تاريخ تطوير صناعة الذكاء الاصطناعي، وتصنيفات التكنولوجيا، وتأثير تقنية التعلم العميق على الصناعة. ثم سيتم تحليل الوضع الحالي والاتجاهات في سلسلة الصناعة للمعالجة العميقة من حيث وحدات معالجة الرسوميات (GPU)، والحوسبة السحابية، ومصادر البيانات، والأجهزة الطرفية. أخيرًا، سيتناول التقرير بشكل جوهري العلاقة بين العملات المشفرة وصناعة الذكاء الاصطناعي، ويرسم ملامح سلسلة صناعة الذكاء الاصطناعي المرتبطة بالعملات المشفرة.
بدأت صناعة الذكاء الاصطناعي في الخمسينيات من القرن الماضي، ومن أجل تحقيق رؤية الذكاء الاصطناعي، طورت الأوساط الأكاديمية والصناعية في عصور مختلفة وخلفيات علمية متنوعة، العديد من المدارس لتحقيق الذكاء الاصطناعي.
تستخدم تقنيات الذكاء الاصطناعي الحديثة مصطلح "تعلم الآلة"، وتتمثل فكرتها في تمكين الآلات من تحسين أداء النظام من خلال تكرار المهام استنادًا إلى البيانات. الخطوات الرئيسية هي إرسال البيانات إلى الخوارزمية، واستخدام هذه البيانات لتدريب النموذج، واختبار وتطبيق النموذج، واستخدام النموذج لإكمال مهام التنبؤ الآلي.
توجد حاليًا ثلاثة تيارات رئيسية في تعلم الآلة، وهي الارتباطية، الرمزية والسلوكية، حيث تحاكي كل منها النظام العصبي البشري، التفكير والسلوك.
في الوقت الحالي، تهيمن الشبكات العصبية، التي تمثلها الربطية، على الساحة. تُعرف أيضًا بالتعلم العميق، والسبب الرئيسي في ذلك هو أن هذا الهيكل يحتوي على طبقة إدخال وطبقة إخراج، ولكن لديه العديد من الطبقات المخفية. بمجرد أن يكون عدد الطبقات وكمية معلمات الخلايا العصبية كافيين، سيكون هناك فرصة كافية لتناسب المهام العامة المعقدة. من خلال إدخال البيانات، يمكن تعديل معلمات الخلايا العصبية باستمرار، وبعد العديد من البيانات، ستصل الخلايا العصبية إلى الحالة المثلى لمعلماتها، وهذا هو سبب "العمق" - عدد كافٍ من الطبقات والخلايا العصبية.
تقنية التعلم العميق المعتمدة على الشبكات العصبية شهدت أيضًا العديد من التطورات والتكرارات التقنية، حيث انتقلت من الشبكات العصبية المبكرة، إلى الشبكات العصبية الأمامية، RNN، CNN، وGAN، وأخيرًا تطورت إلى النماذج الكبيرة الحديثة مثل تقنية Transformer المستخدمة في GPT وغيرها. تقنية Transformer هي مجرد اتجاه تطوري واحد من الشبكات العصبية، حيث أضيف محول، يُستخدم لتحويل جميع الأنماط ( مثل الصوت، الفيديو، الصور، إلخ ) إلى قيم عددية تمثلها. ثم يتم إدخال هذه القيم إلى الشبكة العصبية، مما يمكّن الشبكة العصبية من التكيف مع أي نوع من البيانات، مما يعني تحقيق تعدد الأنماط.
! [الوافد الجديد Science Popular 丨الذكاء الاصطناعي x Crypto: من الصفر إلى الذروة](https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp019283746574839201
شهد تطور الذكاء الاصطناعي ثلاث موجات تكنولوجية:
تحدث المد الأول في الستينيات من القرن العشرين، بعد عشر سنوات من تقديم تقنية الذكاء الاصطناعي، وكان هذا المد ناتجًا عن تطوير تقنية الرمزية، التي حلت مشكلات معالجة اللغة الطبيعية والتفاعل بين الإنسان والآلة. في نفس الفترة، وُلِدَت أنظمة الخبراء، وهو نظام يمتلك معرفة كيميائية قوية جدًا، ويستنتج الإجابات من خلال الأسئلة كما يفعل خبير الكيمياء.
حدثت الموجة الثانية من تكنولوجيا الذكاء الاصطناعي في عام 1997، حيث هزمت IBM Deep Blue بواقع 3.5:2.5 بطل الشطرنج كاسباروف، وتم اعتبار هذه الانتصار معلمًا في مجال الذكاء الاصطناعي.
حدثت الموجة الثالثة من تكنولوجيا الذكاء الاصطناعي في عام 2006. اقترح ثلاثة عمالقة في التعلم العميق مفهوم التعلم العميق، وهو خوارزمية تعتمد على الشبكات العصبية الاصطناعية لتعلم تمثيل البيانات. بعد ذلك، تطورت خوارزميات التعلم العميق تدريجياً، من RNN وGAN إلى Transformer وStable Diffusion، وجميع هذه الخوارزميات شكلت الموجة التقنية الثالثة، وكانت أيضاً ذروة الاتصال.
تظهر العديد من الأحداث الرائدة تدريجياً مع استكشاف وتطور تقنيات التعلم العميق، بما في ذلك:
في عام 2011، انتصر واطسون من IBM على البشر في برنامج اختبار "الحافة الخطرة" ليصبح البطل.
في عام 2014، قدم غودفيلو GAN، من خلال السماح لشبكتين عصبيتين بالتنافس مع بعضهما البعض، يمكنهما تعلم توليد صور تبدو حقيقية.
في عام 2015، قدم هينتون وآخرون خوارزمية التعلم العميق في مجلة "نيتشر"، مما أثار ردود فعل كبيرة في الأوساط الأكاديمية والصناعية.
في عام 2015، تم إنشاء OpenAI، وحصلت على استثمار بقيمة 1 مليار دولار.
في عام 2016، خاضت AlphaGo، التي تعتمد على تقنية التعلم العميق، معركة شطرنج ضد لي سيدول، وانتصرت 4:1.
في عام 2017، أصدرت Google ورقة بحثية بعنوان "الاهتمام هو كل ما تحتاجه"، حيث تم تقديم خوارزمية Transformer وبدأت نماذج اللغة الكبيرة في الظهور.
في عام 2018، أصدرت OpenAI نموذج GPT المستند إلى خوارزمية Transformer، والذي كان واحدًا من أكبر نماذج اللغة في ذلك الوقت.
في عام 2019، أصدرت OpenAI GPT-2، والذي يحتوي على 1.5 مليار معلمة.
في عام 2020، طورت OpenAI GPT-3 الذي يحتوي على 175 مليار معلمة، وهو أعلى 100 مرة من GPT-2.
في عام 2021، أصدرت OpenAI GPT-4، الذي يحتوي على 1.76 تريليون معلمة، وهو عشرة أضعاف GPT-3.
تم إطلاق تطبيق ChatGPT المستند إلى نموذج GPT-4 في يناير 2023، وبلغ عدد المستخدمين مليون مستخدم في مارس، ليصبح التطبيق الأسرع في التاريخ للوصول إلى مليون مستخدم.
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
سلسلة صناعة التعلم العميق
تستخدم النماذج الكبيرة الحالية في معالجة اللغة طرق التعلم العميق المستندة إلى الشبكات العصبية. وقد أدت النماذج الكبيرة التي تقودها GPT إلى موجة من الحماس للذكاء الاصطناعي، مما دفع العديد من اللاعبين إلى دخول هذا المجال، مما أدى إلى زيادة كبيرة في الطلب على البيانات وقدرات الحساب. لذلك، في هذا الجزء من التقرير، نستكشف بشكل رئيسي سلسلة القيمة لخوارزميات التعلم العميق، وكيف تتكون السلسلتان العليا والسفلى في صناعة الذكاء الاصطناعي التي تهيمن عليها خوارزميات التعلم العميق، وما هي حالة العرض والطلب الحالية، وما هي التطورات المستقبلية.
أولاً، من الضروري توضيح أنه عند تدريب نماذج كبيرة مثل GPT المعتمدة على تقنية Transformer، يتم تقسيم العملية إلى ثلاث خطوات.
قبل التدريب، وبسبب اعتمادها على Transformer، يحتاج المحول إلى تحويل المدخلات النصية إلى قيم رقمية، وتعرف هذه العملية باسم "Tokenization"، وبعد ذلك تعرف هذه القيم الرقمية باسم Tokens. بشكل عام، يمكن اعتبار كلمة أو حرف إنجليزي واحد تقريبًا Token واحد، بينما يمكن اعتبار كل حرف صيني تقريبًا كـ Tokenين. هذه هي الوحدة الأساسية المستخدمة في تسعير GPT.
الخطوة الأولى، التدريب المسبق. من خلال توفير عدد كافٍ من أزواج البيانات لطبقة الإدخال، يتم البحث عن أفضل معلمات لكل خلية عصبية في النموذج. تتطلب هذه العملية كمية كبيرة من البيانات، وهي أيضًا الأكثر استهلاكًا للطاقة الحاسوبية، لأنها تتطلب تكرارًا متكررًا لخلايا عصبية تحاول معلمات مختلفة. بعد الانتهاء من تدريب مجموعة بيانات واحدة، يتم عادة استخدام نفس مجموعة البيانات لإجراء تدريب ثانٍ لتكرار المعلمات.
الخطوة الثانية، التعديل الدقيق. التعديل الدقيق هو إعطاء مجموعة صغيرة ولكن ذات جودة عالية من البيانات للتدريب، سيؤدي هذا التغيير إلى تحسين جودة مخرجات النموذج، لأن التدريب المسبق يحتاج إلى كميات كبيرة من البيانات، ولكن قد تحتوي العديد من البيانات على أخطاء أو تكون ذات جودة منخفضة. يمكن أن تعزز خطوة التعديل الدقيق جودة النموذج من خلال البيانات عالية الجودة.
الخطوة الثالثة، التعلم المعزز. أولاً، سيتم إنشاء نموذج جديد تمامًا، يسمى "نموذج المكافأة"، والغرض من هذا النموذج بسيط جدًا، وهو ترتيب النتائج الناتجة. بعد ذلك، سيتم استخدام هذا النموذج لتحديد ما إذا كانت مخرجات النموذج الكبير ذات جودة عالية، بحيث يمكن استخدام نموذج المكافأة لتكرار معلمات النموذج الكبير تلقائيًا. ) ولكن في بعض الأحيان، من الضروري أيضًا المشاركة البشرية لتقييم جودة مخرجات النموذج (
باختصار، خلال عملية تدريب النموذج الكبير، يتطلب التدريب المسبق كمية عالية جداً من البيانات، كما تتطلب قوة حساب GPU الأكثر. بينما تحتاج عملية التعديل الدقيق إلى بيانات عالية الجودة لتحسين المعلمات، يمكن أن تستخدم التعلم المعزز نموذج مكافأة لتكرار المعلمات بشكل متكرر من أجل إنتاج نتائج ذات جودة أعلى.
خلال عملية التدريب، كلما زاد عدد المعلمات، زادت قدرة النموذج على التعميم. لذلك، يتحدد أداء النموذج الكبير بشكل رئيسي من ثلاثة جوانب: عدد المعلمات، وكمية وجودة البيانات، والقدرة الحاسوبية، وهذه العوامل الثلاثة تؤثر بشكل مشترك على جودة نتائج النموذج الكبير وقدرته على التعميم.
افترض أن عدد المعلمات هو p، وحجم البيانات هو n) يتم حسابه بناءً على عدد التوكنات (، لذلك يمكننا حساب كمية الحساب المطلوبة من خلال قاعدة تجربة عامة، وبالتالي يمكننا تقدير كمية قوة الحوسبة المطلوبة وكذلك وقت التدريب.
تُعتبر القدرة الحاسوبية عادةً بوحدات Flops، والتي تمثل عملية حسابية عائمة واحدة. وفقًا لقواعد التجربة العملية، يتطلب تدريب نموذج كبير مسبقًا حوالي 6np Flops، حيث يُعرف 6 بثابت الصناعة. أما الاستدلال )Inference، فهو العملية التي ندخل فيها بيانات وننتظر إخراج النموذج الكبير (، مقسمة إلى جزئين، إدخال n توكن، وإخراج n توكن، لذا فإن إجمالي ما يحتاجه سيكون حوالي 2np Flops.
في المراحل الأولى، كانت تُستخدم رقائق وحدة المعالجة المركزية لتوفير دعم القدرة الحاسوبية للتدريب، ولكن بعد ذلك بدأ استخدام وحدات معالجة الرسوميات كبديل تدريجي، مثل رقائق Nvidia A100 وH100. لأن وحدة المعالجة المركزية موجودة كحاسوب عام، ولكن يمكن لوحدات معالجة الرسوميات أن تعمل كحاسوب مخصص، مما يتفوق بشكل كبير على وحدة المعالجة المركزية من حيث كفاءة استهلاك الطاقة. تقوم وحدات معالجة الرسوميات بتشغيل العمليات العائمة بشكل رئيسي من خلال وحدة تُسمى Tensor Core. لذلك، تحتوي الرقائق العامة على بيانات Flops بدقة FP16 / FP32، والتي تمثل قدرتها الحاسوبية الرئيسية، كما أنها واحدة من المؤشرات الرئيسية لقياس أداء الرقائق.
يمكننا أن نرى أن هذه الكمية الهائلة من الحسابات تتطلب العديد من الشرائح المتطورة للعمل معًا لتحقيق تدريب مسبق واحد، وأن عدد المعلمات في GPT-4 هو عشرة أضعاف عدد المعلمات في GPT-3، مما يعني أنه حتى في حالة عدم تغيير حجم البيانات، يجب شراء عدد أكبر من الشرائح بنسبة عشرة أضعاف، بالإضافة إلى أن عدد الرموز في GPT-4 هو 13 تريليون رمز، وهو أيضًا عشرة أضعاف عدد الرموز في GPT-3، وفي النهاية، قد يحتاج GPT-4 إلى أكثر من 100 ضعف من قوة حساب الشرائح.
في تدريب النماذج الكبيرة، تعتبر تخزين البيانات مشكلة أيضًا، نظرًا لأن حجم البيانات هائل، ومساحة الذاكرة في وحدات معالجة الرسوميات (GPU) عادةً ما تكون صغيرة. لذا عندما لا تتمكن مساحة الذاكرة من استيعاب هذه البيانات، نحتاج إلى دراسة عرض النطاق الترددي للشرائح، أي سرعة نقل البيانات من القرص الصلب إلى الذاكرة. وفي الوقت نفسه، نظرًا لأننا لن نستخدم شريحة واحدة فقط، نحتاج إلى استخدام طريقة التعلم المشترك، حيث تتدرب عدة شرائح GPU معًا على نموذج كبير، مما يتطلب النظر في سرعة نقل البيانات بين الشرائح. لذلك، في كثير من الأحيان، قد تكون العوامل أو التكاليف التي تقيد الممارسة النهائية لتدريب النموذج ليست بالضرورة القدرة الحسابية للشرائح، بل في كثير من الأحيان قد يكون عرض النطاق الترددي للشرائح هو العامل المحدد. لأن نقل البيانات البطيء يمكن أن يؤدي إلى زيادة مدة تشغيل النموذج، مما يزيد من تكاليف الطاقة.
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-609c5dd6ee0abcec6bf9c118d7741867.webp(
العلاقة بين التشفير و الذكاء الاصطناعي
لقد استفادت تقنية ZK من تطور Blockchain، وتحولت إلى فكرة اللامركزية + عدم الثقة. دعونا نعود إلى أصل إنشاء Blockchain، وهو سلسلة Bitcoin. في ورقة ساتوشي ناكاموتو، أطلق عليها أولاً اسم نظام نقل القيمة القائم على عدم الثقة. ثم أُطلق منصة العقود الذكية اللامركزية وغير الموثوقة لتبادل القيمة.
الرجوع إلى الجوهر، نعتقد أن الشبكة الكاملة للبلوكشين هي شبكة قيمة، وكل معاملة هي تحويل قيمة يعتمد على الرموز الأساسية. القيمة هنا تتجلى في شكل توكنات، وTokenomics هي القواعد التي تعكس قيمة التوكنات المحددة.
في الإنترنت التقليدي، يتم تسوية إنتاج القيمة بواسطة P/E، وهناك شكل نهائي للتجلي، وهو سعر السهم، حيث تتشكل جميع التدفقات، والقيمة، والنفوذ كجزء من التدفق النقدي للشركة، وهذا التدفق النقدي هو التجلي النهائي للقيمة، والذي يتم تحويله في النهاية إلى P/E ليعكس في سعر السهم والقيمة السوقية.
ولكن بالنسبة لشبكة الإيثيريوم، فإن ETH كتمثيل لمجموعة من القيم في شبكة الإيثيريوم، فإنه لا يمكنه فقط تحقيق تدفق نقدي مستقر من خلال الإيداع، بل يمكنه أيضًا أن يعمل كوسيلة لتبادل القيمة، ووسيلة لتخزين القيمة، وسلع استهلاكية للأنشطة الشبكية. بالإضافة إلى ذلك، فإنه يعمل أيضًا كطبقة حماية أمان للـ Restaking، ورسوم الغاز لنظام Layer2.
تعتبر Tokenomics مهمة جداً، حيث يمكن لعلم الاقتصاد الخاص بالرموز تحديد تسوية النظام البيئي )، وهو ما يمثل القيمة النسبية للرمز الأصلي للشبكة (. على الرغم من أننا لا نستطيع تسعير كل بعد، إلا أن لدينا تجسيدًا للقيمة متعددة الأبعاد، وهو سعر الرمز. هذه القيمة تتجاوز بكثير الشكل الوجودي للأوراق المالية الخاصة بالشركات. بمجرد منح الرمز للشبكة، وبدء تداول هذا النوع من الرموز، على غرار جميع Q Coins في Tencent، سيكون لها عدد محدود وآلية للتضخم والانكماش.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
الذكاء الاصطناعي x الأصول الرقمية: من تطور التقنية إلى تحليل شامل لسلسلة الصناعة
الذكاء الاصطناعي x التشفير: من الصفر إلى القمة
مقدمة
يعتبر البعض أن التطورات الأخيرة في صناعة الذكاء الاصطناعي هي الثورة الصناعية الرابعة. لقد ساهم ظهور النماذج الكبيرة بشكل كبير في تحسين الكفاءة في مختلف الصناعات، حيث يُقدر أنها زادت من كفاءة العمل في الولايات المتحدة بحوالي 20%. في الوقت نفسه، تعتبر القدرة على التعميم التي تجلبها النماذج الكبيرة نموذجًا جديدًا لتصميم البرمجيات، حيث أن تصميم البرمجيات الآن يعتمد إلى حد كبير على دمج إطار النموذج الكبير في البرمجيات، مما يمكن هذه البرمجيات من تحقيق أداء أفضل ودعم مجموعة أوسع من المدخلات والمخرجات. لقد جلبت تقنيات التعلم العميق بالفعل جولة جديدة من الازدهار لصناعة الذكاء الاصطناعي، وقد امتدت هذه الموجة إلى صناعة العملات المشفرة.
سيتناول هذا التقرير بالتفصيل تاريخ تطوير صناعة الذكاء الاصطناعي، وتصنيفات التكنولوجيا، وتأثير تقنية التعلم العميق على الصناعة. ثم سيتم تحليل الوضع الحالي والاتجاهات في سلسلة الصناعة للمعالجة العميقة من حيث وحدات معالجة الرسوميات (GPU)، والحوسبة السحابية، ومصادر البيانات، والأجهزة الطرفية. أخيرًا، سيتناول التقرير بشكل جوهري العلاقة بين العملات المشفرة وصناعة الذكاء الاصطناعي، ويرسم ملامح سلسلة صناعة الذكاء الاصطناعي المرتبطة بالعملات المشفرة.
! علم الوافد الجديد 丨 الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة
تاريخ تطور صناعة الذكاء الاصطناعي
بدأت صناعة الذكاء الاصطناعي في الخمسينيات من القرن الماضي، ومن أجل تحقيق رؤية الذكاء الاصطناعي، طورت الأوساط الأكاديمية والصناعية في عصور مختلفة وخلفيات علمية متنوعة، العديد من المدارس لتحقيق الذكاء الاصطناعي.
تستخدم تقنيات الذكاء الاصطناعي الحديثة مصطلح "تعلم الآلة"، وتتمثل فكرتها في تمكين الآلات من تحسين أداء النظام من خلال تكرار المهام استنادًا إلى البيانات. الخطوات الرئيسية هي إرسال البيانات إلى الخوارزمية، واستخدام هذه البيانات لتدريب النموذج، واختبار وتطبيق النموذج، واستخدام النموذج لإكمال مهام التنبؤ الآلي.
توجد حاليًا ثلاثة تيارات رئيسية في تعلم الآلة، وهي الارتباطية، الرمزية والسلوكية، حيث تحاكي كل منها النظام العصبي البشري، التفكير والسلوك.
في الوقت الحالي، تهيمن الشبكات العصبية، التي تمثلها الربطية، على الساحة. تُعرف أيضًا بالتعلم العميق، والسبب الرئيسي في ذلك هو أن هذا الهيكل يحتوي على طبقة إدخال وطبقة إخراج، ولكن لديه العديد من الطبقات المخفية. بمجرد أن يكون عدد الطبقات وكمية معلمات الخلايا العصبية كافيين، سيكون هناك فرصة كافية لتناسب المهام العامة المعقدة. من خلال إدخال البيانات، يمكن تعديل معلمات الخلايا العصبية باستمرار، وبعد العديد من البيانات، ستصل الخلايا العصبية إلى الحالة المثلى لمعلماتها، وهذا هو سبب "العمق" - عدد كافٍ من الطبقات والخلايا العصبية.
تقنية التعلم العميق المعتمدة على الشبكات العصبية شهدت أيضًا العديد من التطورات والتكرارات التقنية، حيث انتقلت من الشبكات العصبية المبكرة، إلى الشبكات العصبية الأمامية، RNN، CNN، وGAN، وأخيرًا تطورت إلى النماذج الكبيرة الحديثة مثل تقنية Transformer المستخدمة في GPT وغيرها. تقنية Transformer هي مجرد اتجاه تطوري واحد من الشبكات العصبية، حيث أضيف محول، يُستخدم لتحويل جميع الأنماط ( مثل الصوت، الفيديو، الصور، إلخ ) إلى قيم عددية تمثلها. ثم يتم إدخال هذه القيم إلى الشبكة العصبية، مما يمكّن الشبكة العصبية من التكيف مع أي نوع من البيانات، مما يعني تحقيق تعدد الأنماط.
! [الوافد الجديد Science Popular 丨الذكاء الاصطناعي x Crypto: من الصفر إلى الذروة](https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp019283746574839201
شهد تطور الذكاء الاصطناعي ثلاث موجات تكنولوجية:
تحدث المد الأول في الستينيات من القرن العشرين، بعد عشر سنوات من تقديم تقنية الذكاء الاصطناعي، وكان هذا المد ناتجًا عن تطوير تقنية الرمزية، التي حلت مشكلات معالجة اللغة الطبيعية والتفاعل بين الإنسان والآلة. في نفس الفترة، وُلِدَت أنظمة الخبراء، وهو نظام يمتلك معرفة كيميائية قوية جدًا، ويستنتج الإجابات من خلال الأسئلة كما يفعل خبير الكيمياء.
حدثت الموجة الثانية من تكنولوجيا الذكاء الاصطناعي في عام 1997، حيث هزمت IBM Deep Blue بواقع 3.5:2.5 بطل الشطرنج كاسباروف، وتم اعتبار هذه الانتصار معلمًا في مجال الذكاء الاصطناعي.
حدثت الموجة الثالثة من تكنولوجيا الذكاء الاصطناعي في عام 2006. اقترح ثلاثة عمالقة في التعلم العميق مفهوم التعلم العميق، وهو خوارزمية تعتمد على الشبكات العصبية الاصطناعية لتعلم تمثيل البيانات. بعد ذلك، تطورت خوارزميات التعلم العميق تدريجياً، من RNN وGAN إلى Transformer وStable Diffusion، وجميع هذه الخوارزميات شكلت الموجة التقنية الثالثة، وكانت أيضاً ذروة الاتصال.
تظهر العديد من الأحداث الرائدة تدريجياً مع استكشاف وتطور تقنيات التعلم العميق، بما في ذلك:
في عام 2011، انتصر واطسون من IBM على البشر في برنامج اختبار "الحافة الخطرة" ليصبح البطل.
في عام 2014، قدم غودفيلو GAN، من خلال السماح لشبكتين عصبيتين بالتنافس مع بعضهما البعض، يمكنهما تعلم توليد صور تبدو حقيقية.
في عام 2015، قدم هينتون وآخرون خوارزمية التعلم العميق في مجلة "نيتشر"، مما أثار ردود فعل كبيرة في الأوساط الأكاديمية والصناعية.
في عام 2015، تم إنشاء OpenAI، وحصلت على استثمار بقيمة 1 مليار دولار.
في عام 2016، خاضت AlphaGo، التي تعتمد على تقنية التعلم العميق، معركة شطرنج ضد لي سيدول، وانتصرت 4:1.
في عام 2017، أصدرت Google ورقة بحثية بعنوان "الاهتمام هو كل ما تحتاجه"، حيث تم تقديم خوارزمية Transformer وبدأت نماذج اللغة الكبيرة في الظهور.
في عام 2018، أصدرت OpenAI نموذج GPT المستند إلى خوارزمية Transformer، والذي كان واحدًا من أكبر نماذج اللغة في ذلك الوقت.
في عام 2019، أصدرت OpenAI GPT-2، والذي يحتوي على 1.5 مليار معلمة.
في عام 2020، طورت OpenAI GPT-3 الذي يحتوي على 175 مليار معلمة، وهو أعلى 100 مرة من GPT-2.
في عام 2021، أصدرت OpenAI GPT-4، الذي يحتوي على 1.76 تريليون معلمة، وهو عشرة أضعاف GPT-3.
تم إطلاق تطبيق ChatGPT المستند إلى نموذج GPT-4 في يناير 2023، وبلغ عدد المستخدمين مليون مستخدم في مارس، ليصبح التطبيق الأسرع في التاريخ للوصول إلى مليون مستخدم.
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
سلسلة صناعة التعلم العميق
تستخدم النماذج الكبيرة الحالية في معالجة اللغة طرق التعلم العميق المستندة إلى الشبكات العصبية. وقد أدت النماذج الكبيرة التي تقودها GPT إلى موجة من الحماس للذكاء الاصطناعي، مما دفع العديد من اللاعبين إلى دخول هذا المجال، مما أدى إلى زيادة كبيرة في الطلب على البيانات وقدرات الحساب. لذلك، في هذا الجزء من التقرير، نستكشف بشكل رئيسي سلسلة القيمة لخوارزميات التعلم العميق، وكيف تتكون السلسلتان العليا والسفلى في صناعة الذكاء الاصطناعي التي تهيمن عليها خوارزميات التعلم العميق، وما هي حالة العرض والطلب الحالية، وما هي التطورات المستقبلية.
أولاً، من الضروري توضيح أنه عند تدريب نماذج كبيرة مثل GPT المعتمدة على تقنية Transformer، يتم تقسيم العملية إلى ثلاث خطوات.
قبل التدريب، وبسبب اعتمادها على Transformer، يحتاج المحول إلى تحويل المدخلات النصية إلى قيم رقمية، وتعرف هذه العملية باسم "Tokenization"، وبعد ذلك تعرف هذه القيم الرقمية باسم Tokens. بشكل عام، يمكن اعتبار كلمة أو حرف إنجليزي واحد تقريبًا Token واحد، بينما يمكن اعتبار كل حرف صيني تقريبًا كـ Tokenين. هذه هي الوحدة الأساسية المستخدمة في تسعير GPT.
الخطوة الأولى، التدريب المسبق. من خلال توفير عدد كافٍ من أزواج البيانات لطبقة الإدخال، يتم البحث عن أفضل معلمات لكل خلية عصبية في النموذج. تتطلب هذه العملية كمية كبيرة من البيانات، وهي أيضًا الأكثر استهلاكًا للطاقة الحاسوبية، لأنها تتطلب تكرارًا متكررًا لخلايا عصبية تحاول معلمات مختلفة. بعد الانتهاء من تدريب مجموعة بيانات واحدة، يتم عادة استخدام نفس مجموعة البيانات لإجراء تدريب ثانٍ لتكرار المعلمات.
الخطوة الثانية، التعديل الدقيق. التعديل الدقيق هو إعطاء مجموعة صغيرة ولكن ذات جودة عالية من البيانات للتدريب، سيؤدي هذا التغيير إلى تحسين جودة مخرجات النموذج، لأن التدريب المسبق يحتاج إلى كميات كبيرة من البيانات، ولكن قد تحتوي العديد من البيانات على أخطاء أو تكون ذات جودة منخفضة. يمكن أن تعزز خطوة التعديل الدقيق جودة النموذج من خلال البيانات عالية الجودة.
الخطوة الثالثة، التعلم المعزز. أولاً، سيتم إنشاء نموذج جديد تمامًا، يسمى "نموذج المكافأة"، والغرض من هذا النموذج بسيط جدًا، وهو ترتيب النتائج الناتجة. بعد ذلك، سيتم استخدام هذا النموذج لتحديد ما إذا كانت مخرجات النموذج الكبير ذات جودة عالية، بحيث يمكن استخدام نموذج المكافأة لتكرار معلمات النموذج الكبير تلقائيًا. ) ولكن في بعض الأحيان، من الضروري أيضًا المشاركة البشرية لتقييم جودة مخرجات النموذج (
باختصار، خلال عملية تدريب النموذج الكبير، يتطلب التدريب المسبق كمية عالية جداً من البيانات، كما تتطلب قوة حساب GPU الأكثر. بينما تحتاج عملية التعديل الدقيق إلى بيانات عالية الجودة لتحسين المعلمات، يمكن أن تستخدم التعلم المعزز نموذج مكافأة لتكرار المعلمات بشكل متكرر من أجل إنتاج نتائج ذات جودة أعلى.
خلال عملية التدريب، كلما زاد عدد المعلمات، زادت قدرة النموذج على التعميم. لذلك، يتحدد أداء النموذج الكبير بشكل رئيسي من ثلاثة جوانب: عدد المعلمات، وكمية وجودة البيانات، والقدرة الحاسوبية، وهذه العوامل الثلاثة تؤثر بشكل مشترك على جودة نتائج النموذج الكبير وقدرته على التعميم.
افترض أن عدد المعلمات هو p، وحجم البيانات هو n) يتم حسابه بناءً على عدد التوكنات (، لذلك يمكننا حساب كمية الحساب المطلوبة من خلال قاعدة تجربة عامة، وبالتالي يمكننا تقدير كمية قوة الحوسبة المطلوبة وكذلك وقت التدريب.
تُعتبر القدرة الحاسوبية عادةً بوحدات Flops، والتي تمثل عملية حسابية عائمة واحدة. وفقًا لقواعد التجربة العملية، يتطلب تدريب نموذج كبير مسبقًا حوالي 6np Flops، حيث يُعرف 6 بثابت الصناعة. أما الاستدلال )Inference، فهو العملية التي ندخل فيها بيانات وننتظر إخراج النموذج الكبير (، مقسمة إلى جزئين، إدخال n توكن، وإخراج n توكن، لذا فإن إجمالي ما يحتاجه سيكون حوالي 2np Flops.
في المراحل الأولى، كانت تُستخدم رقائق وحدة المعالجة المركزية لتوفير دعم القدرة الحاسوبية للتدريب، ولكن بعد ذلك بدأ استخدام وحدات معالجة الرسوميات كبديل تدريجي، مثل رقائق Nvidia A100 وH100. لأن وحدة المعالجة المركزية موجودة كحاسوب عام، ولكن يمكن لوحدات معالجة الرسوميات أن تعمل كحاسوب مخصص، مما يتفوق بشكل كبير على وحدة المعالجة المركزية من حيث كفاءة استهلاك الطاقة. تقوم وحدات معالجة الرسوميات بتشغيل العمليات العائمة بشكل رئيسي من خلال وحدة تُسمى Tensor Core. لذلك، تحتوي الرقائق العامة على بيانات Flops بدقة FP16 / FP32، والتي تمثل قدرتها الحاسوبية الرئيسية، كما أنها واحدة من المؤشرات الرئيسية لقياس أداء الرقائق.
يمكننا أن نرى أن هذه الكمية الهائلة من الحسابات تتطلب العديد من الشرائح المتطورة للعمل معًا لتحقيق تدريب مسبق واحد، وأن عدد المعلمات في GPT-4 هو عشرة أضعاف عدد المعلمات في GPT-3، مما يعني أنه حتى في حالة عدم تغيير حجم البيانات، يجب شراء عدد أكبر من الشرائح بنسبة عشرة أضعاف، بالإضافة إلى أن عدد الرموز في GPT-4 هو 13 تريليون رمز، وهو أيضًا عشرة أضعاف عدد الرموز في GPT-3، وفي النهاية، قد يحتاج GPT-4 إلى أكثر من 100 ضعف من قوة حساب الشرائح.
في تدريب النماذج الكبيرة، تعتبر تخزين البيانات مشكلة أيضًا، نظرًا لأن حجم البيانات هائل، ومساحة الذاكرة في وحدات معالجة الرسوميات (GPU) عادةً ما تكون صغيرة. لذا عندما لا تتمكن مساحة الذاكرة من استيعاب هذه البيانات، نحتاج إلى دراسة عرض النطاق الترددي للشرائح، أي سرعة نقل البيانات من القرص الصلب إلى الذاكرة. وفي الوقت نفسه، نظرًا لأننا لن نستخدم شريحة واحدة فقط، نحتاج إلى استخدام طريقة التعلم المشترك، حيث تتدرب عدة شرائح GPU معًا على نموذج كبير، مما يتطلب النظر في سرعة نقل البيانات بين الشرائح. لذلك، في كثير من الأحيان، قد تكون العوامل أو التكاليف التي تقيد الممارسة النهائية لتدريب النموذج ليست بالضرورة القدرة الحسابية للشرائح، بل في كثير من الأحيان قد يكون عرض النطاق الترددي للشرائح هو العامل المحدد. لأن نقل البيانات البطيء يمكن أن يؤدي إلى زيادة مدة تشغيل النموذج، مما يزيد من تكاليف الطاقة.
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-609c5dd6ee0abcec6bf9c118d7741867.webp(
العلاقة بين التشفير و الذكاء الاصطناعي
لقد استفادت تقنية ZK من تطور Blockchain، وتحولت إلى فكرة اللامركزية + عدم الثقة. دعونا نعود إلى أصل إنشاء Blockchain، وهو سلسلة Bitcoin. في ورقة ساتوشي ناكاموتو، أطلق عليها أولاً اسم نظام نقل القيمة القائم على عدم الثقة. ثم أُطلق منصة العقود الذكية اللامركزية وغير الموثوقة لتبادل القيمة.
الرجوع إلى الجوهر، نعتقد أن الشبكة الكاملة للبلوكشين هي شبكة قيمة، وكل معاملة هي تحويل قيمة يعتمد على الرموز الأساسية. القيمة هنا تتجلى في شكل توكنات، وTokenomics هي القواعد التي تعكس قيمة التوكنات المحددة.
في الإنترنت التقليدي، يتم تسوية إنتاج القيمة بواسطة P/E، وهناك شكل نهائي للتجلي، وهو سعر السهم، حيث تتشكل جميع التدفقات، والقيمة، والنفوذ كجزء من التدفق النقدي للشركة، وهذا التدفق النقدي هو التجلي النهائي للقيمة، والذي يتم تحويله في النهاية إلى P/E ليعكس في سعر السهم والقيمة السوقية.
ولكن بالنسبة لشبكة الإيثيريوم، فإن ETH كتمثيل لمجموعة من القيم في شبكة الإيثيريوم، فإنه لا يمكنه فقط تحقيق تدفق نقدي مستقر من خلال الإيداع، بل يمكنه أيضًا أن يعمل كوسيلة لتبادل القيمة، ووسيلة لتخزين القيمة، وسلع استهلاكية للأنشطة الشبكية. بالإضافة إلى ذلك، فإنه يعمل أيضًا كطبقة حماية أمان للـ Restaking، ورسوم الغاز لنظام Layer2.
تعتبر Tokenomics مهمة جداً، حيث يمكن لعلم الاقتصاد الخاص بالرموز تحديد تسوية النظام البيئي )، وهو ما يمثل القيمة النسبية للرمز الأصلي للشبكة (. على الرغم من أننا لا نستطيع تسعير كل بعد، إلا أن لدينا تجسيدًا للقيمة متعددة الأبعاد، وهو سعر الرمز. هذه القيمة تتجاوز بكثير الشكل الوجودي للأوراق المالية الخاصة بالشركات. بمجرد منح الرمز للشبكة، وبدء تداول هذا النوع من الرموز، على غرار جميع Q Coins في Tencent، سيكون لها عدد محدود وآلية للتضخم والانكماش.