La competencia de grandes modelos de IA se intensifica: de Transformer a la revolución de la ingeniería de la guerra de los cientos de modelos.

robot
Generación de resúmenes en curso

La revolución de la ingeniería de la IA: de Transformer a la batalla de los cien modelos

El mes pasado, estalló una "guerra de animales" en el mundo de la IA. Por un lado está la serie de modelos Llama lanzada por Meta, que es muy popular entre los desarrolladores debido a su característica de código abierto. Por otro lado, está un gran modelo llamado Falcon, desarrollado por el Instituto de Innovación Tecnológica de los Emiratos Árabes Unidos. Estos dos modelos se alternan en la clasificación de LLM de código abierto.

Curiosamente, el objetivo de los Emiratos Árabes Unidos al participar en la competencia de IA es "destronar a los jugadores clave". Poco después, el Ministro de Inteligencia Artificial de los Emiratos Árabes Unidos fue seleccionado como una de las "100 personas más influyentes en el campo de la IA" por la revista Time.

Hoy en día, el campo de la IA ha entrado en una etapa de "cien escuelas compitiendo". Muchos países y empresas están desarrollando sus propios modelos de lenguaje grandes. Solo en la región del Golfo, ya hay más de un jugador involucrado. Este fenómeno ha suscitado la reflexión de algunos profesionales de la industria, quienes consideran que incluso en el campo de la tecnología dura ha surgido una situación de "guerra de modelos".

Transformer devora el mundo

El florecimiento actual de los grandes modelos se debe al artículo "Attention Is All You Need" publicado en 2017. El algoritmo Transformer propuesto en este artículo se ha convertido en el catalizador de esta ola actual de IA.

Antes de la aparición del Transformer, "enseñar a las máquinas a leer" era un problema académico reconocido. Las primeras redes neuronales tenían dificultades para entender el contexto. En 2014, la aparición de las redes neuronales recurrentes (RNN) resolvió este problema hasta cierto punto, pero su característica de cálculo secuencial limitó la capacidad de procesar grandes volúmenes de datos.

El Transformer, a través de innovaciones como la codificación posicional y el cálculo en paralelo, no solo mejora la eficiencia del entrenamiento, sino que también refuerza la capacidad de entender el contexto. Esto ha permitido que la IA pase de la investigación teórica a la práctica ingenieril, allanando el camino para la era de los grandes modelos.

Con la popularización de Transformers, la velocidad de innovación de los algoritmos subyacentes se ha desacelerado, y elementos de ingeniería como la ingeniería de datos y la escala de computación se han convertido en clave para la competencia en IA. Esto también permite que cualquier empresa con cierta capacidad técnica intente desarrollar grandes modelos.

Un foso construido sobre vidrio

Actualmente, la "guerra de los grandes modelos" se ha convertido en una realidad. Según informes, hasta julio de este año, el número de grandes modelos en China ha alcanzado 130, superando los 114 de Estados Unidos. Además de China y Estados Unidos, países como Japón, India y Corea del Sur también han lanzado grandes modelos locales.

Sin embargo, el fácil acceso no significa que todos puedan convertirse en gigantes de la era de la IA. Tomando como ejemplo la competencia entre Falcon y Llama, aunque Falcon lidera en algunos rankings, es difícil decir cuánto impacto ha tenido en Meta. Para los grandes modelos de código abierto, la comunidad de desarrolladores activa es la verdadera ventaja competitiva. Meta tiene una ventaja en este aspecto gracias a su genética de redes sociales y su estrategia de código abierto.

Además, la mayoría de los grandes modelos todavía tienen una diferencia notable en rendimiento con respecto a GPT-4. En la reciente prueba AgentBench, GPT-4 se destacó con una puntuación de 4.41, mientras que Claude, en segundo lugar, solo obtuvo 2.77, y la mayoría de los modelos de código abierto puntuaron alrededor de 1.

Esta brecha se debe a los equipos de científicos de alto nivel de las principales empresas de IA y a la experiencia acumulada a lo largo del tiempo. Por lo tanto, la competencia central de los grandes modelos puede radicar en la construcción del ecosistema ( ruta de código abierto ) o en la capacidad de inferencia pura ( ruta de código cerrado ).

Punto de anclaje del valor

A pesar del auge de la IA, actualmente no hay muchas empresas que puedan obtener beneficios de ella. Los altos costos de la potencia de cálculo se han convertido en un gran obstáculo para el desarrollo de la industria. Se estima que el gasto de las empresas tecnológicas a nivel mundial en infraestructura de grandes modelos podría alcanzar los 200 mil millones de dólares al año, mientras que los ingresos generados por los grandes modelos son de un máximo de 75 mil millones de dólares, lo que deja una gran brecha.

Incluso empresas líderes de la industria como Microsoft y Adobe enfrentan desafíos en la fijación de precios de servicios de IA y el control de costos. Para la mayoría de los grandes modelos con parámetros a gran escala, el principal escenario de aplicación sigue siendo la función de chat.

Con el aumento de la competencia homogénea y la proliferación de modelos de código abierto, el modelo de negocio que depende únicamente de ofrecer servicios de grandes modelos podría enfrentar una mayor presión. En el futuro, el verdadero valor de la tecnología AI podría manifestarse más en escenarios de aplicación concretos y en la capacidad para resolver problemas reales.

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 5
  • Compartir
Comentar
0/400
JustHereForAirdropsvip
· hace11h
Al final, solo quedan plumas de gallina.
Ver originalesResponder0
SerumSquirtervip
· hace11h
Una guerra de quemar dinero, el que tenga más dinero gana.
Ver originalesResponder0
WhaleStalkervip
· hace11h
Los inversores pelean, los inversores minoristas tienen dificultades.
Ver originalesResponder0
GasDevourervip
· hace11h
¿Quién puede superar el costo de Potencia computacional?
Ver originalesResponder0
ZenMinervip
· hace11h
La guerra de quemar dinero se juega muy bien, los ricos realmente saben jugar.
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)