Конкуренция в области крупных моделей ИИ усиливается: от Transformer до инженерной революции в битве сотен моделей

robot
Генерация тезисов в процессе

Инженерная революция ИИ: от Transformer до битвы ста моделей

В прошлом месяце в мире ИИ разразилась "война животных". С одной стороны, модели серии Llama, выпущенные Meta, которые благодаря своей открытой архитектуре пользуются большой популярностью среди разработчиков. С другой стороны, большой модель под названием Falcon, разработанная Исследовательским институтом технологий и инноваций Объединенных Арабских Эмиратов. Эти две модели поочередно занимают верхние строчки в рейтинге открытых LLM.

Интересно, что целью участия ОАЭ в соревновании по ИИ является "подрыв основных игроков". Вскоре после этого министр искусственного интеллекта ОАЭ был включен в список "100 самых влиятельных людей в области ИИ", составленный журналом Time.

Сегодня область ИИ вошла в стадию "многообразия мнений". Многие страны и компании создают свои собственные большие языковые модели. Только в регионе Персидского залива уже не один игрок вовлечён в это. Это явление вызвало у некоторых специалистов по технологиям определённые размышления, что даже в области жестких технологий возникла ситуация "битвы моделей".

Трансформер поглощает мир

Бурное развитие современных больших моделей обязано статье «Attention Is All You Need», опубликованной в 2017 году. Алгоритм Transformer, предложенный в этой статье, стал катализатором текущего бума в области ИИ.

До появления трансформеров "обучение машин чтению" было общепризнанной академической проблемой. Ранние нейронные сети с трудом понимали контекст. В 2014 году появление рекуррентных нейронных сетей (RNN) в определенной степени решило эту проблему, но их последовательные вычислительные характеристики ограничивали способность обрабатывать большие объемы данных.

Трансформер благодаря инновациям, таким как кодирование позиции и параллельные вычисления, как повысил эффективность обучения, так и усилил способность понимать контекст. Это позволило ИИ перейти от теоретических исследований к инженерной практике, проложив путь для эпохи больших моделей.

С распространением Transformer скорость инноваций в базовых алгоритмах замедляется, и такие инженерные факторы, как обработка данных и масштаб вычислительных мощностей, становятся ключевыми в соревнованиях по ИИ. Это также позволяет компаниям с определенными техническими возможностями пытаться разрабатывать большие модели.

Крепостной ров, построенный на стекле

На данный момент «Битва больших моделей» стала реальностью. По сообщениям, к июлю этого года в Китае количество больших моделей достигло 130, что превышает 114 в США. Кроме Китая и США, такие страны, как Япония, Индия и Южная Корея, также выпустили местные большие модели.

Однако легкость входа не означает, что каждый может стать гигантом эпохи ИИ. Например, в конкуренции между Falcon и Llama, хотя Falcon в некоторых рейтингах впереди, трудно сказать, насколько это сильно повлияло на Meta. Для открытых больших моделей активное сообщество разработчиков является ключевым конкурентным преимуществом. Meta, благодаря своей генетике социальных медиа и стратегии открытого кода, занимает здесь преимущество.

Кроме того, большинство крупных моделей по производительности все еще значительно отстают от GPT-4. В недавнем тестировании AgentBench GPT-4 с результатом 4.41 значительно опередил остальных, в то время как второе место занял Claude с 2.77 балла, а большинство открытых моделей набрали всего около 1 балла.

Этот разрыв обусловлен высококвалифицированными командами ученых, имеющимися в ведущих AI-компаниях, и долгосрочным накопленным опытом. Поэтому ключевое конкурентное преимущество больших моделей может заключаться в экосистемном строительстве ( открытого пути ) или чисто в способности к выводу ( закрытого пути ).

Точка опоры ценности

Несмотря на бурный рост ИИ, в настоящее время не так много компаний, которые могут извлекать из этого прибыль. Высокие затраты на вычислительные мощности становятся серьезным препятствием для развития отрасли. По оценкам, ежегодные расходы мировых технологических компаний на инфраструктуру больших моделей могут достигать 200 миллиардов долларов, в то время как доходы от больших моделей составляют максимум 75 миллиардов долларов, что создает огромный разрыв.

Даже такие ведущие компании отрасли, как Microsoft и Adobe, сталкиваются с проблемами ценообразования на AI-услуги и контроля затрат. Для большинства крупных моделей с большим количеством параметров основным сценарием применения по-прежнему остается функция чата.

С учетом нарастающей конкуренции и распространения открытых моделей, бизнес-модель, полагающаяся исключительно на предоставление услуг больших моделей, может столкнуться с большими трудностями. В будущем истинная ценность AI-технологий, возможно, будет больше проявляться в конкретных прикладных сценариях и способности решать реальные проблемы.

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • 5
  • Поделиться
комментарий
0/400
JustHereForAirdropsvip
· 11ч назад
В конце концов, все будет в беспорядке.
Посмотреть ОригиналОтветить0
SerumSquirtervip
· 11ч назад
Это битва сжигания денег, кто больше денег потратит, тот и выиграет.
Посмотреть ОригиналОтветить0
WhaleStalkervip
· 11ч назад
Инвесторы сражаются, розничным инвесторам трудно справиться.
Посмотреть ОригиналОтветить0
GasDevourervip
· 11ч назад
Кто еще может превзойти стоимость вычислительной мощности?
Посмотреть ОригиналОтветить0
ZenMinervip
· 12ч назад
Битва за деньги играется на ура, богатые действительно умеют развлекаться.
Посмотреть ОригиналОтветить0
  • Закрепить