OpenAI Открытый исходный код PaperBench, переработка оценки топовых AI агентов

robot
Генерация тезисов в процессе

Jin10 данные 3 апреля, сегодня в 1 час ночи OpenAI выпустила новый бенчмарк для оценки AI-агентов — PaperBench. Этот бенчмарк в основном оценивает способности агентов в поиске, интеграции и выполнении задач, что требует воспроизведения ведущих статей на международной конференции по машинному обучению 2024 года, включая понимание содержания статей, написание кода и выполнение экспериментов. Согласно опубликованным OpenAI тестовым данным, в настоящее время известные большие модели, созданные для агентов, все еще не могут превзойти лучших докторов наук в области машинного обучения. Однако они очень полезны в поддержке обучения и понимании научного содержания.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить