Новый метод Маты строит высококачественную языковую модель следования инструкциям (следование инструкциям) с небольшим объемом исходных данных.
Другими словами, большие языковые модели требуют большого количества размеченных человеком данных инструкций для тонкой настройки, но теперь модель может автоматически выводить инструкции из неразмеченного текста в веб-корпусах.
Затем используйте сгенерированные самостоятельно данные инструкции для обучения, что сравнимо с самостоятельно произведенными и проданными.
И модель, обученная этим методом, превосходит альпаку с открытым исходным кодом и ее серию производных моделей в эталонном тесте Альпаки.
ЛеКун написал в Твиттере, что исследование было сенсационным с точки зрения самовыравнивания модели:
Подводя итог, предложение от пользователя сети:
Альпака начала тренироваться сама.
Два предложения резюмируют это следующим образом:
Первоначально требовалась инструкция> набор данных ответа (требуется ручная маркировка), теперь необходимо просто обучить «обратную модель» для инструкции ответа>. Любой текст может быть свободно преобразован в набор данных инструкций.
Другой нетизен выдал пытку души:
Мне одному кажется, что это похоже на путь к сверхразуму? Если вы можете получить LLM, которые становятся все умнее и умнее без дополнительных качественных внешних данных, то это самосовершенствующаяся закрытая система.
Может быть, для подачи сигнала нужна только система обучения с подкреплением, а затем собственные итерации LLM сделают все остальное.
Альпака: я использовал данные для обучения кита
Этот масштабируемый новый метод называется Instruction Back Translation, а Мата назвал модель, обученную этим методом, Humpback (горбатый кит, также известный как горбатый кит).
(Исследователи сказали, что название было дано из-за его связи со спиной верблюда, а больший размер кита соответствует большему масштабу модели)
Шаг обучения горбатого состоит в том, чтобы просто начать с небольшого количества размеченных данных, использовать языковую модель для генерации инструкций, соответствующих неразмеченному тексту, и сформировать обучающие данные-кандидаты. Затем используйте модель для оценки качества данных и выбора качественных данных для переобучения. Затем процесс повторяется для дальнейшего улучшения модели.
Как показано на рисунке выше, «материалы», которые необходимо подготовить:
Базовая модель - LLaMa
Исходные данные (Исходные данные), состоящие из 3200 примеров из набора данных Open Assistant, каждый пример включает инструкцию и соответствующий вывод.
Из корпуса ClueWeb удалено 502 тыс. неразмеченных текстов (неразмеченных данных), которые были дедуплицированы, отфильтрованы, а также потенциально некачественные абзацы.
Помеченные примеры и исходники корпуса доступны, а следующим шагом является этап Самоулучшения.
Исследователи доработали базовую модель LLaMa с помощью начальных данных, чтобы получить модель прогнозирования инструкций. Эта модель прогнозирования инструкций затем используется для вывода инструкции-кандидата для немаркированного текста. Затем объедините инструкцию-кандидата и текст (пара инструкция-вывод) в качестве кандидата расширенных обучающих данных, которые являются расширенными данными A на приведенном выше рисунке.
Однако использовать данные A для прямого обучения невозможно, поскольку качество самого неразмеченного текста неравномерно, а сгенерированные инструкции-кандидаты также имеют шум.
Таким образом, необходимы ключевые шаги самостоятельного изучения: использование модели для прогнозирования качества данных и выбор высококачественных образцов для обучения.
В частности, исследователи оценили данные-кандидаты, используя модель инструкций, точно настроенную только на начальных данных. Полная оценка составляет пять баллов, и те, кто наберет более высокие баллы, будут выбраны в качестве кандидатов для следующего раунда.
Чтобы улучшить качество прогнозирования инструкций модели, исследователи обучили модель с данными-кандидатами итеративно, и при итеративном обучении качество данных будет становиться все лучше и лучше.
Кроме того, при объединении исходных данных и данных дополнения для точной настройки модели они также используют разные системные теги подсказок, чтобы различать эти два источника данных:
Советы по использованию исходных данных «Ответьте в стиле AI Assistant».
Фильтровать данные с помощью подсказки «Ответить со знаниями из веб-поиска».
После двух итераций окончательная модель только что из печи.
Объедините два вида обучающих данных: 1+1>2
Давайте посмотрим на результаты анализа исследователей:
** **###### △ Разнообразие инструкций для исходных данных и расширенных данных. Внутренний круг — это общий корневой глагол, а внешний круг — соответствующее ему нарицательное.
На рисунке выше показано разнообразие инструкций с 8% исходных данных и 13% расширенной статистики данных.
Интуитивно видно, что расширенное разнообразие данных сильнее в длинной хвостовой части, а расширенные данные дополняют существующие искусственно размеченные начальные данные, дополняя типы, которые не появляются в начальных данных.
Во-вторых, исследователи сравнили три расширенных набора данных: расширенные данные, все (без самоуправления),
, меньше данных, но выше качество
Эксперименты показали, что, хотя набор данных становится меньше, производительность модели также улучшилась с улучшением качества обучающих данных.
** **###### △ Используйте самофильтрацию для оценки данных саморасширения разного размера и качества. Ось Y представляет процент побед с text-davinci-003 при точной настройке LLaMa 7B с заданным размером и качеством данных.
(text-davinci-003, инструкция на основе GPT-3, следующая за моделью, точно настроенной на записанных человеком данных инструкции, выходных данных, откликах модели и предпочтениях человека с использованием обучения с подкреплением)
Наконец, давайте посмотрим на результаты в таблице лидеров Alpaca. Humpback значительно превосходит другие методы, не полагаясь на дистиллированные данные, и сокращает разрыв с проприетарными моделями.
Недистиллированная (Non-distilled) относится к модели обучения, которая не полагается ни на какую внешнюю модель как на какую-либо форму наблюдения; Дистиллированная (Distilled) относится к введению в процесс обучения более мощной внешней модели, такой как с использованием данных, извлеченных из внешней модели; Проприетарные относятся к моделям, обученным с использованием проприетарных данных и методов.
** **###### △ По сравнению с процентом побед text-davinci-003
По сравнению с открытыми моделями LIMA 65B, Guanaco 65B, Falcon-Instruct 40B и проприетарными моделями davinci-003, Claude, характеристики Humpback также больше соответствуют человеческим предпочтениям.
Кроме того, исследователи отметили ограничения метода:
Поскольку текстовые данные, используемые для обучения, поступают из веб-корпусов, точно настроенная модель может усилить предвзятость веб-данных. Хотя по сравнению с базовой моделью точная модель повышает точность обнаружения систематической ошибки. Однако это не означает, что проблема будет полностью решена.
Портал: бумажная ссылка)
Справочная ссылка:
[1]
[2]
[3]
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Победив все семейство альпака, новый метод самовыравнивания Meta AI требует очень мало данных для ручной маркировки.
Первоисточник: Кубит
Нужно ли срочно вручную маркировать данные?
Новый метод Маты строит высококачественную языковую модель следования инструкциям (следование инструкциям) с небольшим объемом исходных данных.
Другими словами, большие языковые модели требуют большого количества размеченных человеком данных инструкций для тонкой настройки, но теперь модель может автоматически выводить инструкции из неразмеченного текста в веб-корпусах.
Затем используйте сгенерированные самостоятельно данные инструкции для обучения, что сравнимо с самостоятельно произведенными и проданными.
И модель, обученная этим методом, превосходит альпаку с открытым исходным кодом и ее серию производных моделей в эталонном тесте Альпаки.
ЛеКун написал в Твиттере, что исследование было сенсационным с точки зрения самовыравнивания модели:
Альпака: я использовал данные для обучения кита
Этот масштабируемый новый метод называется Instruction Back Translation, а Мата назвал модель, обученную этим методом, Humpback (горбатый кит, также известный как горбатый кит).
(Исследователи сказали, что название было дано из-за его связи со спиной верблюда, а больший размер кита соответствует большему масштабу модели)
Помеченные примеры и исходники корпуса доступны, а следующим шагом является этап Самоулучшения.
Исследователи доработали базовую модель LLaMa с помощью начальных данных, чтобы получить модель прогнозирования инструкций. Эта модель прогнозирования инструкций затем используется для вывода инструкции-кандидата для немаркированного текста. Затем объедините инструкцию-кандидата и текст (пара инструкция-вывод) в качестве кандидата расширенных обучающих данных, которые являются расширенными данными A на приведенном выше рисунке.
Однако использовать данные A для прямого обучения невозможно, поскольку качество самого неразмеченного текста неравномерно, а сгенерированные инструкции-кандидаты также имеют шум.
Таким образом, необходимы ключевые шаги самостоятельного изучения: использование модели для прогнозирования качества данных и выбор высококачественных образцов для обучения.
Чтобы улучшить качество прогнозирования инструкций модели, исследователи обучили модель с данными-кандидатами итеративно, и при итеративном обучении качество данных будет становиться все лучше и лучше.
Кроме того, при объединении исходных данных и данных дополнения для точной настройки модели они также используют разные системные теги подсказок, чтобы различать эти два источника данных:
После двух итераций окончательная модель только что из печи.
Объедините два вида обучающих данных: 1+1>2
Давайте посмотрим на результаты анализа исследователей:
**
**###### △ Разнообразие инструкций для исходных данных и расширенных данных. Внутренний круг — это общий корневой глагол, а внешний круг — соответствующее ему нарицательное.
На рисунке выше показано разнообразие инструкций с 8% исходных данных и 13% расширенной статистики данных.
Интуитивно видно, что расширенное разнообразие данных сильнее в длинной хвостовой части, а расширенные данные дополняют существующие искусственно размеченные начальные данные, дополняя типы, которые не появляются в начальных данных.
Во-вторых, исследователи сравнили три расширенных набора данных: расширенные данные, все (без самоуправления),
**
**###### △ Используйте самофильтрацию для оценки данных саморасширения разного размера и качества. Ось Y представляет процент побед с text-davinci-003 при точной настройке LLaMa 7B с заданным размером и качеством данных.
(text-davinci-003, инструкция на основе GPT-3, следующая за моделью, точно настроенной на записанных человеком данных инструкции, выходных данных, откликах модели и предпочтениях человека с использованием обучения с подкреплением)
Наконец, давайте посмотрим на результаты в таблице лидеров Alpaca. Humpback значительно превосходит другие методы, не полагаясь на дистиллированные данные, и сокращает разрыв с проприетарными моделями.
Недистиллированная (Non-distilled) относится к модели обучения, которая не полагается ни на какую внешнюю модель как на какую-либо форму наблюдения; Дистиллированная (Distilled) относится к введению в процесс обучения более мощной внешней модели, такой как с использованием данных, извлеченных из внешней модели; Проприетарные относятся к моделям, обученным с использованием проприетарных данных и методов.
**
**###### △ По сравнению с процентом побед text-davinci-003
По сравнению с открытыми моделями LIMA 65B, Guanaco 65B, Falcon-Instruct 40B и проприетарными моделями davinci-003, Claude, характеристики Humpback также больше соответствуют человеческим предпочтениям.
Поскольку текстовые данные, используемые для обучения, поступают из веб-корпусов, точно настроенная модель может усилить предвзятость веб-данных. Хотя по сравнению с базовой моделью точная модель повышает точность обнаружения систематической ошибки. Однако это не означает, что проблема будет полностью решена.
Портал: бумажная ссылка)
Справочная ссылка: [1] [2] [3]