Оновлення DeepSeek V3 визначає нову парадигму AI Алгоритм突破助力Web3 розвиток

robot
Генерація анотацій у процесі

Оновлення DeepSeek V3 веде до нового парадигми AI

Вчора ввечері DeepSeek випустив оновлення версії V3 на одній з платформ — DeepSeek-V3-0324, параметри моделі досягли 6850 мільярдів, є значні покращення в кодових можливостях, дизайні інтерфейсу та здатності до інферування.

На недавній конференції 2025 GTC директор однієї технологічної компанії високо оцінив DeepSeek. Він підкреслив, що ринок раніше вважав, що ефективна модель DeepSeek зменшить потребу в чіпах, що є помилковим, оскільки в майбутньому обсяги обчислень лише зростатимуть, а не зменшуватимуться.

DeepSeek, як представник алгоритмічного прориву, заслуговує на обговорення зв'язку між постачанням чіпів та ним. Давайте спочатку проаналізуємо значення обчислювальної потужності та алгоритмів для розвитку галузі штучного інтелекту.

Від змагань за обчислювальну потужність до інновацій в алгоритмах: нова парадигма AI, яку очолює DeepSeek

Співіснування та еволюція обчислювальної потужності та алгоритмів

У сфері штучного інтелекту підвищення обчислювальної потужності забезпечує основу для виконання більш складних алгоритмів, що дозволяє моделям обробляти більші обсяги даних та вивчати більш складні моделі; тоді як оптимізація алгоритмів дозволяє більш ефективно використовувати обчислювальну потужність, підвищуючи ефективність використання обчислювальних ресурсів.

Взаємозв'язок між обчислювальною потужністю та алгоритмами переформатовує ландшафт індустрії ШІ:

  1. Розподіл технічних напрямків: деякі компанії прагнуть створити надвеликий кластер обчислювальної потужності, тоді як інші зосереджуються на оптимізації ефективності алгоритмів, формуючи різні технічні школи.

  2. Реконструкція виробничого ланцюга: одна компанія з виробництва чіпів стала лідером у сфері обчислювальної потужності AI завдяки своїй екосистемі, тоді як постачальники хмарних послуг знижують бар'єри для впровадження завдяки еластичним обчислювальним послугам.

  3. Коригування розподілу ресурсів: підприємства шукають баланс між інвестиціями в апаратну інфраструктуру та розробкою ефективних алгоритмів.

  4. Виникнення відкритих спільнот: відкриті моделі, такі як DeepSeek, LLaMA, дозволяють ділитися досягненнями в інноваціях алгоритмів та оптимізації обчислювальної потужності, прискорюючи технічну ітерацію та поширення.

Технічні інновації DeepSeek

Успіх DeepSeek тісно пов'язаний з його технологічними інноваціями. Нижче наведено короткий опис його основних інновацій.

оптимізація архітектури моделі

DeepSeek використовує комбінацію архітектури Transformer+MOE (Mixture of Experts) та впроваджує механізм багатоголової латентної уваги (Multi-Head Latent Attention, MLA). Ця архітектура є подібною до ефективної команди експертів, яка в змозі залучати найбільш підходящих експертів залежно від різних завдань, що значно підвищує ефективність і точність моделі.

Інновації в методах навчання

DeepSeek представила рамки тренування з змішаною точністю FP8. Ця рамка може динамічно вибирати відповідну обчислювальну точність відповідно до вимог різних етапів навчання, забезпечуючи точність моделі, одночасно підвищуючи швидкість навчання та зменшуючи споживання пам'яті.

підвищення ефективності розумування

На етапі виводу DeepSeek впроваджує технологію багатотокенового прогнозування (Multi-token Prediction, MTP). Ця технологія дозволяє прогнозувати кілька токенів одночасно, що значно прискорює швидкість виводу та знижує витрати на вивід.

Прорив алгоритмів навчання з підкріпленням

Новий алгоритм посиленого навчання GRPO (Generalized Reward-Penalized Optimization) від DeepSeek оптимізує процес навчання моделей. Цей алгоритм забезпечує підвищення продуктивності моделі, зменшуючи при цьому непотрібні обчислення, що досягає балансу між продуктивністю та витратами.

Ці інновації сформували повну технологічну систему, яка повністю знизила вимоги до обчислювальної потужності від навчання до висновків. Тепер звичайні споживчі графічні карти можуть запускати потужні AI моделі, значно знижуючи бар'єри для використання AI, що дозволяє більшій кількості розробників і підприємств брати участь в інноваціях у сфері AI.

Вплив на постачальників чіпів

Є думка, що DeepSeek обійшов програмний рівень певної компанії-виробника чіпів, тим самим звільнившись від залежності від неї. Насправді, DeepSeek безпосередньо оптимізує алгоритми через базовий набір інструкцій цієї компанії. Операція на цьому рівні дозволяє DeepSeek досягати більш точного налаштування продуктивності.

Вплив на постачальників чіпів є двостороннім. З одного боку, DeepSeek глибше інтегрується зі своїм апаратним забезпеченням та екосистемою, а зниження бар'єрів для застосування штучного інтелекту може розширити загальний обсяг ринку; з іншого боку, оптимізація алгоритмів DeepSeek може змінити структуру попиту на висококласні чіпи, і деякі моделі штучного інтелекту, які раніше вимагали висококласних GPU, тепер можуть ефективно працювати на середньому або навіть споживчому графічному процесорі.

Значення для китайської AI-індустрії

Оптимізація алгоритмів DeepSeek забезпечує технологічний прорив для китайської AI-індустрії. В умовах обмежень висококласних чіпів підхід "програмне забезпечення замість апаратного забезпечення" зменшує залежність від провідних імпортних чіпів.

На upstream, ефективні алгоритми знижують тиск на потреби в обчислювальних потужностях, дозволяючи постачальникам обчислювальних послуг продовжувати термін служби апаратного забезпечення за рахунок оптимізації програмного забезпечення, що підвищує рентабельність інвестицій. На downstream, оптимізовані відкриті моделі знижують бар'єри для розробки застосунків на основі ШІ. Багато малих і середніх підприємств можуть розробляти конкурентоспроможні застосунки на основі моделі DeepSeek без необхідності в значних ресурсах обчислювальної потужності, що призведе до появи більшої кількості рішень на основі ШІ в вертикальних галузях.

Глибокий вплив Web3+AI

Децентралізована AI інфраструктура

Алгоритм оптимізації DeepSeek надає новий імпульс інфраструктурі Web3 AI. Інноваційна архітектура, ефективні алгоритми та знижені вимоги до обчислювальної потужності роблять можливим децентралізоване AI-інференціювання. Архітектура MoE природно підходить для розподіленого розгортання, різні вузли можуть мати різні експертні мережі, не потребуючи єдиного вузла для зберігання повної моделі, що суттєво знижує вимоги до зберігання та обчислення з боку одного вузла, тим самим підвищуючи гнучкість та ефективність моделі.

FP8 навчальний фреймворк ще більше знижує вимоги до високопродуктивних обчислювальних ресурсів, що дозволяє залучити більше обчислювальних ресурсів до мережі вузлів. Це не лише знижує бар'єри для участі в децентралізованих обчисленнях штучного інтелекту, а й підвищує загальну обчислювальну потужність і ефективність мережі.

Багатоагентні системи

  1. Оптимізація розумних торгових стратегій: завдяки аналізу даних ринку в реальному часі, прогнозуванню короткострокових коливань цін, виконанню угод в блокчейні, нагляду за результатами угод та багатьом іншим агентам, які працюють у координації, допомагає користувачам отримувати вищий дохід.

  2. Автоматичне виконання смарт-контрактів: моніторинг смарт-контрактів, виконання та контроль результатів реалізується за допомогою декількох агентів, що працюють разом для автоматизації більш складної бізнес-логіки.

  3. Персоналізоване управління інвестиційним портфелем: ШІ допомагає користувачам у реальному часі знаходити найкращі можливості для стейкінгу або надання ліквідності, враховуючи ризикові уподобання, інвестиційні цілі та фінансовий стан користувача.

DeepSeek, в умовах обмеження обчислювальної потужності, через інновації в алгоритмах знаходить прориви, відкриваючи відмінні шляхи розвитку для китайської AI-індустрії. Зниження бар'єрів для застосування, сприяння інтеграції Web3 та AI, зменшення залежності від висококласних чіпів, надання можливостей для фінансових інновацій – ці впливи формують новий ландшафт цифрової економіки. У майбутньому розвиток AI вже не буде лише змаганням за обчислювальну потужність, а перетвориться на змагання за оптимізацію обчислювальної потужності та алгоритмів. На цій новій арені інноватори, такі як DeepSeek, переосмислюють правила гри, використовуючи китайську мудрість.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • Поділіться
Прокоментувати
0/400
MeaninglessGweivip
· 07-16 21:46
Знову за ai-хвилею
Переглянути оригіналвідповісти на0
SleepyArbCatvip
· 07-16 21:44
Спочатку гарно виспатися, все одно ШІ не поспішає зі зростанням...zzzz
Переглянути оригіналвідповісти на0
Hash_Banditvip
· 07-16 21:44
хеш-майнінг на максимальному рівні складності... чесно кажучи, цей v3 відчувається як апгрейд ASIC насправді
Переглянути оригіналвідповісти на0
BearMarketBarbervip
· 07-16 21:32
Обчислювальна потужність ліквідувати Наступний
Переглянути оригіналвідповісти на0
RugpullAlertOfficervip
· 07-16 21:29
дивовижний належить дивовижному Чи наважитесь ви на повний відкритий вихідний код
Переглянути оригіналвідповісти на0
LayerHoppervip
· 07-16 21:28
Закручуємося, знову потрібно купувати нову відеокарту.
Переглянути оригіналвідповісти на0
ContractExplorervip
· 07-16 21:28
Крутити все ж потрібно.
Переглянути оригіналвідповісти на0
  • Закріпити