Победив все семейство альпака, новый метод самовыравнивания Meta AI требует очень мало данных для ручной маркировки.

Первоисточник: Кубит

Нужно ли срочно вручную маркировать данные?

Новый метод Маты строит высококачественную языковую модель следования инструкциям (следование инструкциям) с небольшим объемом исходных данных.

Другими словами, большие языковые модели требуют большого количества размеченных человеком данных инструкций для тонкой настройки, но теперь модель может автоматически выводить инструкции из неразмеченного текста в веб-корпусах.

Затем используйте сгенерированные самостоятельно данные инструкции для обучения, что сравнимо с самостоятельно произведенными и проданными.

И модель, обученная этим методом, превосходит альпаку с открытым исходным кодом и ее серию производных моделей в эталонном тесте Альпаки.

ЛеКун написал в Твиттере, что исследование было сенсационным с точки зрения самовыравнивания модели:

Подводя итог, предложение от пользователя сети:

Альпака начала тренироваться сама.

Два предложения резюмируют это следующим образом:

Первоначально требовалась инструкция> набор данных ответа (требуется ручная маркировка), теперь необходимо просто обучить «обратную модель» для инструкции ответа>. Любой текст может быть свободно преобразован в набор данных инструкций.

Другой нетизен выдал пытку души:

Мне одному кажется, что это похоже на путь к сверхразуму? Если вы можете получить LLM, которые становятся все умнее и умнее без дополнительных качественных внешних данных, то это самосовершенствующаяся закрытая система. Может быть, для подачи сигнала нужна только система обучения с подкреплением, а затем собственные итерации LLM сделают все остальное.

Альпака: я использовал данные для обучения кита

Этот масштабируемый новый метод называется Instruction Back Translation, а Мата назвал модель, обученную этим методом, Humpback (горбатый кит, также известный как горбатый кит).

(Исследователи сказали, что название было дано из-за его связи со спиной верблюда, а больший размер кита соответствует большему масштабу модели)

Шаг обучения горбатого состоит в том, чтобы просто начать с небольшого количества размеченных данных, использовать языковую модель для генерации инструкций, соответствующих неразмеченному тексту, и сформировать обучающие данные-кандидаты. Затем используйте модель для оценки качества данных и выбора качественных данных для переобучения. Затем процесс повторяется для дальнейшего улучшения модели.

Как показано на рисунке выше, «материалы», которые необходимо подготовить:

  • Базовая модель - LLaMa
  • Исходные данные (Исходные данные), состоящие из 3200 примеров из набора данных Open Assistant, каждый пример включает инструкцию и соответствующий вывод.
  • Из корпуса ClueWeb удалено 502 тыс. неразмеченных текстов (неразмеченных данных), которые были дедуплицированы, отфильтрованы, а также потенциально некачественные абзацы.

Помеченные примеры и исходники корпуса доступны, а следующим шагом является этап Самоулучшения.

Исследователи доработали базовую модель LLaMa с помощью начальных данных, чтобы получить модель прогнозирования инструкций. Эта модель прогнозирования инструкций затем используется для вывода инструкции-кандидата для немаркированного текста. Затем объедините инструкцию-кандидата и текст (пара инструкция-вывод) в качестве кандидата расширенных обучающих данных, которые являются расширенными данными A на приведенном выше рисунке.

Однако использовать данные A для прямого обучения невозможно, поскольку качество самого неразмеченного текста неравномерно, а сгенерированные инструкции-кандидаты также имеют шум.

Таким образом, необходимы ключевые шаги самостоятельного изучения: использование модели для прогнозирования качества данных и выбор высококачественных образцов для обучения.

В частности, исследователи оценили данные-кандидаты, используя модель инструкций, точно настроенную только на начальных данных. Полная оценка составляет пять баллов, и те, кто наберет более высокие баллы, будут выбраны в качестве кандидатов для следующего раунда.

Чтобы улучшить качество прогнозирования инструкций модели, исследователи обучили модель с данными-кандидатами итеративно, и при итеративном обучении качество данных будет становиться все лучше и лучше.

Кроме того, при объединении исходных данных и данных дополнения для точной настройки модели они также используют разные системные теги подсказок, чтобы различать эти два источника данных:

  • Советы по использованию исходных данных «Ответьте в стиле AI Assistant».
  • Фильтровать данные с помощью подсказки «Ответить со знаниями из веб-поиска».

После двух итераций окончательная модель только что из печи.

Объедините два вида обучающих данных: 1+1>2

Давайте посмотрим на результаты анализа исследователей:

** **###### Разнообразие инструкций для исходных данных и расширенных данных. Внутренний круг — это общий корневой глагол, а внешний круг — соответствующее ему нарицательное.

На рисунке выше показано разнообразие инструкций с 8% исходных данных и 13% расширенной статистики данных.

Интуитивно видно, что расширенное разнообразие данных сильнее в длинной хвостовой части, а расширенные данные дополняют существующие искусственно размеченные начальные данные, дополняя типы, которые не появляются в начальных данных.

Во-вторых, исследователи сравнили три расширенных набора данных: расширенные данные, все (без самоуправления),

, меньше данных, но выше качество

Эксперименты показали, что, хотя набор данных становится меньше, производительность модели также улучшилась с улучшением качества обучающих данных.

** **###### Используйте самофильтрацию для оценки данных саморасширения разного размера и качества. Ось Y представляет процент побед с text-davinci-003 при точной настройке LLaMa 7B с заданным размером и качеством данных.

(text-davinci-003, инструкция на основе GPT-3, следующая за моделью, точно настроенной на записанных человеком данных инструкции, выходных данных, откликах модели и предпочтениях человека с использованием обучения с подкреплением)

Наконец, давайте посмотрим на результаты в таблице лидеров Alpaca. Humpback значительно превосходит другие методы, не полагаясь на дистиллированные данные, и сокращает разрыв с проприетарными моделями.

Недистиллированная (Non-distilled) относится к модели обучения, которая не полагается ни на какую внешнюю модель как на какую-либо форму наблюдения; Дистиллированная (Distilled) относится к введению в процесс обучения более мощной внешней модели, такой как с использованием данных, извлеченных из внешней модели; Проприетарные относятся к моделям, обученным с использованием проприетарных данных и методов.

** **###### По сравнению с процентом побед text-davinci-003

По сравнению с открытыми моделями LIMA 65B, Guanaco 65B, Falcon-Instruct 40B и проприетарными моделями davinci-003, Claude, характеристики Humpback также больше соответствуют человеческим предпочтениям.

Кроме того, исследователи отметили ограничения метода:

Поскольку текстовые данные, используемые для обучения, поступают из веб-корпусов, точно настроенная модель может усилить предвзятость веб-данных. Хотя по сравнению с базовой моделью точная модель повышает точность обнаружения систематической ошибки. Однако это не означает, что проблема будет полностью решена.

Портал: бумажная ссылка)

Справочная ссылка: [1] [2] [3]

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить