Verás modelos fundamentales para humanoides que utilizan continuamente una arquitectura de estilo Sistema 2 + Sistema 1, que en realidad está inspirada en la cognición humana.



La mayoría de los modelos de visión-lenguaje-acción (VLA) de hoy en día se construyen como sistemas multimodales centralizados que manejan la percepción, el lenguaje y la acción dentro de una sola red.

La infraestructura de Codec es perfecta para esto, ya que trata cada Operador como un módulo aislado. Esto significa que puedes activar múltiples Operadores en paralelo, cada uno ejecutando su propio modelo o tarea, mientras los mantienes encapsulados y coordinados a través de la misma arquitectura.

Los robots y los humanoides en general suelen tener múltiples cerebros, donde un operador podría encargarse del procesamiento visual, otro del equilibrio, otro de la planificación de alto nivel, etc., los cuales pueden ser coordinados a través del sistema de Codec.

El modelo de fundación de Nvidia, Issac GR00T N1, utiliza la arquitectura de dos módulos: Sistema 2 + Sistema 1. El Sistema 2 es un modelo de visión-lenguaje (, una versión de PaLM o similar, multimodal) que observa el mundo a través de las cámaras del robot y escucha instrucciones, luego elabora un plan de alto nivel.

El Sistema 1 es una política de transformador de difusión que toma ese plan y lo convierte en movimientos continuos en tiempo real. Puedes pensar en el Sistema 2 como el cerebro deliberativo y en el Sistema 1 como el controlador corporal instintivo. El Sistema 2 podría emitir algo como "muévete hacia la taza roja, agárrala y luego colócala en la estantería", y el Sistema 1 generará las trayectorias detalladas de las articulaciones para que las piernas y los brazos ejecuten cada paso sin problemas.

El Sistema 1 fue entrenado con toneladas de datos de trayectoria ( que incluyen demostraciones teleoperadas por humanos y datos simulados por física ) para dominar movimientos precisos, mientras que el Sistema 2 fue construido sobre un transformador con preentrenamiento en internet ( para la comprensión semántica ).

Esta separación entre razonar y actuar es muy poderosa para NVIDIA. Significa que GR00T puede manejar tareas a largo plazo que requieren planificación ( gracias al Sistema 2) y también reaccionar instantáneamente a perturbaciones ( gracias al Sistema 1).

Si un robot está llevando una bandeja y alguien empuja la bandeja, el Sistema 1 puede corregir el equilibrio de inmediato en lugar de esperar a que el más lento Sistema 2 lo note.

GR00T N1 fue uno de los primeros modelos de fundación de robótica disponibles abiertamente, y rápidamente ganó tracción.

Desde el principio, demostró habilidad en muchas tareas en simulación, podía agarrar y mover objetos con una mano o dos, pasar elementos de una mano a otra y realizar tareas de múltiples pasos sin programación específica para cada tarea. Debido a que no estaba ligado a una única encarnación, los desarrolladores lo mostraron trabajando en diferentes robots con ajustes mínimos.

Esto también es cierto para el modelo base de Helix (Figure que utiliza este tipo de arquitectura. Helix permite que dos robots o múltiples habilidades operen, Codec podría habilitar un cerebro multiagente ejecutando varios Operadores que comparten información.

Este diseño de "cápsula aislada" significa que cada componente puede ser especializado ) al igual que el Sistema 1 frente al Sistema 2( e incluso desarrollado por diferentes equipos, pero pueden trabajar juntos.

Es un enfoque único en el sentido de que Codec está construyendo la pila de software profunda para soportar esta inteligencia modular y distribuida, mientras que la mayoría de los demás solo se centran en el modelo de IA en sí.

Codec también aprovecha grandes modelos preentrenados. Si estás construyendo una aplicación de robot sobre él, podrías integrar un modelo base OpenVLA o un Pi Zero como parte de tu Operador. Codec proporciona los conectores, acceso fácil a las transmisiones de la cámara o APIs de robots, por lo que no tienes que escribir el código de bajo nivel para obtener imágenes de la cámara de un robot o enviar comandos de velocidad a sus motores. Todo está abstraído detrás de un SDK de alto nivel.

Una de las razones por las que tengo tanta confianza en Codec es exactamente lo que he expuesto anteriormente. No están persiguiendo narrativas, la arquitectura está diseñada para ser el pegamento entre modelos de base, y soporta sin fricciones sistemas de múltiples cerebros, lo cual es crítico para la complejidad humanoide.

Dado que estamos tan al principio de esta tendencia, vale la pena estudiar los diseños de los líderes de la industria y entender por qué funcionan. La robótica es difícil de comprender debido a las capas entre hardware y software, pero una vez que aprendes a desglosar cada sección pieza por pieza, se vuelve mucho más fácil de asimilar.

Puede parecer una pérdida de tiempo ahora, pero este es el mismo método que me dio una ventaja durante la temporada de IA y por qué estuve temprano en tantos proyectos. Conviértete en disciplinado y aprende qué componentes pueden coexistir y cuáles no escalan.

Rendirá dividendos en los próximos meses.

Deca Trillones ) $CODEC ( codificado.
LL0.71%
VSN-5.02%
IN-8.2%
Ver originales
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)