Слияние ИИ и Web3: новые возможности для построения распределенной инфраструктуры ИИ

AI+Web3: Башни и площади

ТЛ; ДОКТОР

  1. Проекты Web3 с концепцией ИИ становятся объектами притяжения капитала на первичном и вторичном рынках.

  2. Возможности Web3 в AI-индустрии проявляются в: использовании распределенных стимулов для координации потенциального предложения в длинном хвосте — через данные, хранение и вычисления; одновременно создавая открытые модели и децентрализованный рынок AI-агентов.

  3. Искусственный интеллект в индустрии Web3 в основном используется для финансов на блокчейне (криптоплатежи, торговля, анализ данных) и поддержки разработки.

  4. Эффективность AI+Web3 проявляется в их взаимодополняемости: Web3 обещает противостоять централизации AI, а AI, в свою очередь, может помочь Web3 выйти за пределы.

! AI+Web3: Башни и площади

Введение

За последние два года развитие ИИ словно было нажатой кнопкой ускорения. Волнения, вызванные Chatgpt, не только открыли новый мир генеративного искусственного интеллекта, но и вызвали поток в области Web3.

Под влиянием концепции ИИ финансирование крипторынка заметно возросло. Только в первой половине 2024 года 64 проекта Web3+AI завершили финансирование, среди которых операционная система на основе искусственного интеллекта Zyber365 достигла максимального финансирования в 100 миллионов долларов на раунде A.

Вторичный рынок стал более процветающим, данные с криптоагрегатора Coingecko показывают, что за чуть более года общая рыночная капитализация AI-сектора достигла 48,5 миллиарда долларов, а объем торгов за 24 часа приблизился к 8,6 миллиарда долларов. Явные преимущества, связанные с прогрессом основных AI-технологий, проявились после выпуска модели OpenAI Sora для преобразования текста в видео, в результате чего средняя цена в AI-секторе возросла на 151%. Эффект AI также распространился на один из секторов привлечения капитала в криптовалюте - Meme: первый концепт MemeCoin с AI Agent — GOAT быстро стал популярным и получил оценку в 1,4 миллиарда долларов, успешно запустив волну AI Meme.

Исследования и темы, связанные с AI+Web3, также на пике популярности, от AI+Depin до AI Memecoin и текущих AI Agent и AI DAO, чувство FOMO уже не успевает за скоростью смены новых нарративов.

AI+Web3, эта комбинация терминов, полная горячих денег, возможностей и будущих фантазий, неизбежно воспринимается как организованный брак, устроенный капиталом. Нам, похоже, очень трудно различить под этой роскошной одеждой, действительно ли это поле спекулянтов или преддверие рассвета.

Чтобы ответить на этот вопрос, ключевым размышлением для обеих сторон является: станет ли лучше с другой стороны? Можем ли мы извлечь выгоду из модели другой стороны? В этой статье мы также пытаемся взглянуть на эту схему с плеч предшественников: как Web3 может сыграть роль на различных этапах стека технологий AI и что нового AI может принести Web3?

Часть 1. Какие возможности предоставляет Web3 в рамках AI-стека?

Перед тем как углубиться в эту тему, нам необходимо понять технологический стек больших моделей ИИ:

Выражаясь более простым языком, весь процесс выглядит следующим образом: «Большая модель» подобна человеческому мозгу. На ранних стадиях этот мозг принадлежит новорожденному, который только что пришел в этот мир и нуждается в наблюдении и поглощении огромного объема информации из окружающей среды, чтобы понять этот мир. Это этап «сбора» данных. Поскольку компьютеры не обладают человеческими зрительными, слуховыми и другими сенсорными способностями, перед обучением огромные объемы неразмеченной информации извне необходимо «предобработать», чтобы преобразовать их в формат информации, который может быть понятен и полезен компьютеру.

После ввода данных ИИ создает модель с пониманием и предсказательной способностью через «обучение», что можно рассматривать как процесс, в котором младенец постепенно понимает и учится о внешнем мире. Параметры модели подобны языковым способностям младенца, которые постоянно корректируются в процессе обучения. Когда содержание обучения начинает разделяться на области, или при получении обратной связи от общения с людьми и корректировке, начинается этап «тонкой настройки» большой модели.

Дети постепенно растут и, научившись говорить, могут понимать смысл в новых диалогах и выражать свои чувства и мысли. Этот этап аналогичен «инференции» в больших моделях ИИ, которые могут предсказывать и анализировать новые языковые и текстовые вводы. Младенцы выражают свои чувства с помощью языковых навыков, описывают объекты и решают различные проблемы, что также похоже на то, как большие модели ИИ применяются на этапе инференции для выполнения различных специфических задач после завершения обучения, например, классификация изображений, распознавание речи и т. д.

AI-агент становится более похожим на следующую форму большого модели — способную самостоятельно выполнять задачи и стремиться к сложным целям, обладая не только способностью мыслить, но и памятью, планированием, а также возможностью использовать инструменты для взаимодействия с миром.

В настоящее время, в ответ на проблемы ИИ на различных уровнях, Web3 в настоящее время предварительно сформировал многоуровневую, взаимосвязанную экосистему, охватывающую все этапы процесса моделей ИИ.

! AI+Web3: Башни и площади

Один. Базовый уровень: Airbnb вычислительной мощности и данных

Хэшрейт

В настоящее время одной из самых высоких затрат в области ИИ является вычислительная мощность и энергия, необходимые для обучения моделей и вывода.

Примером является то, что для обучения большой языковой модели одной крупной технологической компании требуется 16000 высокопроизводительных GPU, произведенных известным производителем чипов, в течение 30 дней. При этом цена за единицу 80GB версии составляет от 30 000 до 40 000 долларов, что требует инвестиций в вычислительное оборудование (GPU + сетевые чипы) в размере от 400 до 700 миллионов долларов, а ежемесячные затраты на обучение составляют 1,6 миллиарда киловатт-часов, что приводит к расходам на энергоресурсы почти 20 миллионов долларов в месяц.

Разгрузка AI-вычислительных мощностей также является одной из первых областей пересечения Web3 и AI — DePin (децентрализованная сеть физической инфраструктуры). В настоящее время на сайте данных DePin Ninja выставлено более 1400 проектов, среди которых представленные проекты по совместному использованию GPU-вычислительных мощностей включают io.net, Aethir, Akash, Render Network и другие.

Основная логика заключается в том, что платформа позволяет индивидуумам или организациям, имеющим неиспользуемые ресурсы GPU, вносить свой вычислительный потенциал в децентрализованном режиме без необходимости получения разрешения. Это происходит через онлайн-рынок, похожий на платформы совместной экономики, где покупатели и продавцы могут взаимодействовать, что повышает коэффициент использования недостаточно задействованных ресурсов GPU, а конечные пользователи получают более доступные и эффективные вычислительные ресурсы. В то же время механизм стейкинга также гарантирует, что в случае нарушения механизмов контроля качества или отключения сети, поставщики ресурсов понесут соответствующее наказание.

Его особенности заключаются в том, что:

  • Сбор неиспользуемых ресурсов GPU: поставщиками в основном являются независимые малые и средние центры обработки данных третьих сторон, избыточные вычислительные ресурсы операторов крипто-майнинга и т.д., а также оборудование для майнинга с механизмом консенсуса PoS, такое как майнеры FileCoin и ETH. В настоящее время также есть проекты, стремящиеся запустить оборудование с более низким порогом входа, такие как exolab, использующий MacBook, iPhone, iPad и другие локальные устройства для создания вычислительной сети для выполнения инференса больших моделей.

  • Столкновение с длинным хвостом рынка вычислительных мощностей ИИ:

a. «С технической точки зрения» рынок децентрализованных вычислительных мощностей более подходит для этапов вывода. Обучение больше зависит от вычислительной мощности, предоставляемой очень крупными кластерами GPU, в то время как для вывода производительность GPU относительно ниже, как в случае с Aethir, сосредоточенном на работе с низкой задержкой и приложениях AI для вывода.

b. «С точки зрения спроса» малые и средние потребители вычислительной мощности не будут самостоятельно обучать свои большие модели, а просто выберут оптимизацию и дообучение вокруг небольшого числа ведущих больших моделей, и такие сценарии идеально подходят для распределенных неиспользуемых вычислительных ресурсов.

  • Децентрализованное владение: Техническое значение блокчейна заключается в том, что владельцы ресурсов всегда сохраняют контроль над своими ресурсами, могут гибко настраивать в зависимости от спроса и одновременно получать прибыль.

Данные

Данные являются основой ИИ. Если нет данных, вычисления бесполезны, как листья водяной лилии, а связь между данными и моделью подобна пословице "Garbage in, Garbage out". Количество данных и качество входных данных определяют качество выходных данных конечной модели. Для обучения современных ИИ-моделей данные определяют языковые способности модели, способности к пониманию, даже ценности и гуманистическое выражение. В настоящее время проблемы с потребностью в данных для ИИ в основном сосредоточены на следующих четырех аспектах:

  • Жажда данных: Обучение AI-моделей зависит от большого объема данных. Открытые источники показывают, что параметры модели большого языка, обучаемой одной известной AI-компанией, достигли триллиона.

  • Качество данных: с сочетанием ИИ и различных отраслей возникают новые требования к качеству данных, такие как актуальность данных, разнообразие данных, специализированность вертикальных данных и использование новых источников данных, таких как эмоции из социальных медиа.

  • Проблемы конфиденциальности и соблюдения требований: в настоящее время различные страны и компании постепенно осознают важность качественных наборов данных и вводят ограничения на сбор данных.

  • Высокие затраты на обработку данных: большой объем данных, сложный процесс обработки. Открытые источники показывают, что более 30% затрат на исследования и разработки в AI-компаниях уходит на базовый сбор и обработку данных.

В настоящее время решения Web3 проявляются в следующих четырех аспектах:

  1. Сбор данных: возможность бесплатно предоставлять извлеченные данные из реального мира быстро истощается, и расходы ИИ-компаний на данные растут из года в год. Однако при этом эти расходы не возвращаются к настоящим вкладчикам данных, и платформы полностью наслаждаются созданием ценности, приносимой данными, как, например, одна социальная платформа, которая получила 203 миллиона долларов дохода благодаря подписанию соглашений о лицензировании данных с ИИ-компаниями.

Видение Web3 заключается в том, чтобы позволить пользователям, которые действительно вносят вклад, также участвовать в создании ценности, возникающей из данных, а также получать более частные и ценные данные от пользователей низкозатратным способом через распределённые сети и механизмы стимулов.

  • Grass является децентрализованным уровнем данных и сетью, пользователи могут запускать узлы Grass, вносить свой вклад в неиспользуемую пропускную способность и ретранслировать трафик для захвата реальных данных из всего Интернета и получать токены в качестве вознаграждения.

  • Vana вводит уникальную концепцию пула ликвидности данных (DLP), позволяя пользователям загружать свои личные данные (такие как записи о покупках, привычки просмотра, активность в социальных сетях и т. д.) в определенный DLP и гибко выбирать, разрешать ли использование этих данных конкретным третьим лицам.

  • В PublicAI пользователи могут использовать #AI或#Web3 в качестве тегов для классификации на одной из социальных платформ и @PublicAI для сбора данных.

  1. Предобработка данных: в процессе обработки данных AI, поскольку собранные данные обычно шумные и содержат ошибки, их необходимо очистить и преобразовать в пригодный формат перед обучением модели, что включает в себя стандартизацию, фильтрацию и обработку недостающих значений, повторяющиеся задачи. Этот этап является одной из немногих ручных операций в индустрии AI, в результате чего возникла профессия аннотаторов данных, и с повышением требований модели к качеству данных, пороги для аннотаторов данных также возросли, а эта задача естественно подходит для децентрализованной системы стимулов Web3.
  • В настоящее время Grass и OpenLayer рассматривают возможность включения этой ключевой стадии аннотирования данных.

  • Synesis представила концепцию «Train2earn», подчеркивая качество данных, пользователи могут получать вознаграждения за предоставление аннотированных данных, комментариев или других форм ввода.

  • Проект по аннотированию данных Sapien превращает задачи аннотирования в игру и позволяет пользователям ставить свои баллы, чтобы зарабатывать больше баллов.

  1. Конфиденциальность данных и безопасность: необходимо прояснить, что конфиденциальность данных и безопасность - это два разных понятия. Конфиденциальность данных касается обработки чувствительных данных, в то время как безопасность данных защищает информацию от несанкционированного доступа, уничтожения и кражи. Таким образом, преимущества технологий конфиденциальности Web3 и потенциальные сценарии применения проявляются в двух аспектах: (1) обучение на чувствительных данных; (2) сотрудничество с данными: несколько владельцев данных могут совместно участвовать в обучении ИИ, не делясь своими исходными данными.

Текущие распространенные технологии конфиденциальности в Web3 включают:

  • Доверенная исполняемая среда ( TEE ), например, Super Protocol.

  • Полная гомоморфная криптография (FHE), например, BasedAI, Fhenix.io или Inco Network.

  • Технология нулевых знаний (zk), такая как Reclaim Protocol, использует технологию zkTLS для генерации доказательства нулевых знаний для HTTPS-трафика, позволяя пользователям безопасно импортировать данные о действиях, репутации и идентификации с внешних сайтов, не раскрывая чувствительную информацию.

Тем не менее, в настоящее время эта область все еще находится на ранней стадии, большинство проектов все еще находятся в процессе исследования, одной из текущих проблем является слишком высокая стоимость вычислений, вот несколько примеров:

  • Фреймворку zkML EZKL требуется около 80 минут для генерации доказательства модели 1M-nanoGPT.

  • Согласно данным Modulus Labs, затраты на zkML превышают затраты на чистые вычисления более чем в 1000 раз.

  1. Хранение данных: После получения данных необходимо место для их хранения на блокчейне, а также для LLM, созданного с использованием этих данных. Вопрос доступности данных (DA) является ключевым, до обновления Danksharding на Ethereum его пропускная способность составляла 0.08MB. В то же время, для обучения AI-моделей и реального вывода обычно требуется пропускная способность данных от 50 до 100GB в секунду. Эта разница в порядке величины делает существующие решения на блокчейне неэффективными при "ресурсозатратных AI-приложениях."
  • 0g.AI является представителем этой категории
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • 5
  • Поделиться
комментарий
0/400
StablecoinEnjoyervip
· 8ч назад
Не верю в это слияние
Посмотреть ОригиналОтветить0
ApeEscapeArtistvip
· 07-11 12:17
Будущее выглядит многообещающе
Посмотреть ОригиналОтветить0
LayerZeroHerovip
· 07-11 12:05
Только взаимодополняя, мы сможем выиграть вместе.
Посмотреть ОригиналОтветить0
ShadowStakervip
· 07-11 12:00
Направление, требующее глубокого изучения
Посмотреть ОригиналОтветить0
NotGonnaMakeItvip
· 07-11 11:58
Будущее уже наступило
Посмотреть ОригиналОтветить0
  • Закрепить