В 2021 году исследователи сделали удивительное открытие при обучении серии миниатюрных моделей, то есть после длительного периода обучения произойдет изменение модели, от простого «запоминания обучающих данных» в начале к изменению на никогда данные также обладают сильными способностями к обобщению.
Это явление называется «грокинг».Как показано на рисунке ниже, после того, как модель в течение длительного времени соответствует обучающим данным, внезапно появляется явление «грокинга».
Так как миниатюрная модель обладает этой характеристикой, не появится ли вдруг у более сложной модели «понимание» после более длительного периода обучения? В последнее время быстро развиваются большие языковые модели (LLM). Кажется, что они обладают богатым пониманием мира. Многие думают, что LLM просто повторяют заученный учебный контент. Насколько верно это утверждение? Как мы можем судить о том, что LLM выводят память content?, или он хорошо обобщает входные данные?
Чтобы лучше понять эту проблему, исследователи из Google в этой статье написали в блоге, пытаясь выяснить настоящую причину внезапного феномена «понимания» больших моделей.
Эта статья начинается с динамики обучения миниатюрной модели.Они разработали однослойный MLP с 24 нейронами и обучили их учиться выполнять задачу модульного сложения.Нам нужно только знать, что выходные данные этой задачи являются периодическими.из форма (a + b) по модулю n.
Веса модели MLP показаны на рисунке ниже.Обнаружено, что веса модели поначалу сильно зашумлены, но с увеличением времени они начинают проявлять периодичность.
Эта периодичность становится еще более очевидной, если визуализировать веса отдельных нейронов:
Не стоит недооценивать периодичность.Периодичность весов указывает на то, что модель изучает определенную математическую структуру, что также является ключом к преобразованию модели из памяти данных в способность к обобщению. Многих смущает этот переход, почему модель меняется от запоминания шаблона данных к обобщению шаблона данных.
Поэкспериментируйте с последовательностью 01
Чтобы определить, является ли модель обобщением или запоминанием, в ходе исследования модель научили предсказывать, есть ли нечетное количество единиц в первых трех цифрах случайной последовательности из 30 единиц и нулей. Например, 000110010110001010111001001011 равно 0, а 010110010110001010111001001011 равно 1. По сути, это немного более сложная задача XOR с некоторым мешающим шумом. Если модель является обобщающей, она должна использовать только первые три цифры последовательности; если модель запоминает обучающие данные, она также будет использовать последующие цифры.
Модель, используемая в этом исследовании, представляет собой одноуровневый MLP, обученный на фиксированных партиях из 1200 последовательностей. Сначала улучшается только точность обучения, т.е. модель запоминает данные обучения. Как и в случае с модульной арифметикой, точность теста носит стохастический характер и резко возрастает по мере того, как модель изучает общее решение.
Почему это происходит, легче понять на простом примере задачи последовательности 01. Причина в том, что во время тренировки модель делает две вещи: минимизирует потери и сбрасывает вес. Потери при обучении фактически немного увеличиваются до того, как модель обобщается, поскольку она обменивает потери, связанные с выводом правильной метки, на меньшие веса.
Резкое падение тестовых потерь создает впечатление, что модель внезапно обобщается, но если вы посмотрите на веса модели во время обучения, большинство моделей плавно интерполируют между двумя решениями. Быстрое обобщение происходит, когда последний вес, связанный с последующими отвлекающими цифрами, сокращается за счет уменьшения веса.
**Когда возник феномен «понимания»? **
Стоит отметить, что «грокинг» — это случайное явление — если размер модели, потеря веса, размер данных и другие гиперпараметры не подходят, феномен «грокинга» исчезнет. Если веса уменьшаются слишком мало, модель будет соответствовать обучающим данным. Если веса уменьшатся слишком сильно, модель не сможет ничему научиться.
Ниже исследование обучает более 1000 моделей задачам 1 и 0 с использованием разных гиперпараметров. Процесс обучения шумный, поэтому для каждого набора гиперпараметров обучаются девять моделей. Это показывает, что только два типа моделей имеют феномен «понимания»: синий и желтый.
** Модульное сложение с пятью нейронами **
Сложение по модулю a+b по модулю 67 является периодическим, если сумма превышает 67, ответ вызовет явление свертывания, которое можно изобразить в виде круга. Чтобы упростить задачу, это исследование строит матрицу вложения, используя cos и sin для размещения a и b на окружности, выраженную в следующей форме.
Получается, что модель идеально и точно находит решение всего с 5 нейронами:
Глядя на обученные параметры, исследовательская группа обнаружила, что все нейроны сошлись примерно к одинаковым нормам. Если вы нарисуете их компоненты cos и sin напрямую, они в основном равномерно распределены по кругу.
следующий
, который обучается с нуля без встроенной периодичности, модель имеет много разных частот.
В исследовании использовалось дискретное преобразование Фурье (ДПФ) для разделения частот. Как и в задаче с единицами и нулями, ключевую роль играют лишь несколько весов:
На рисунке ниже видно, что на разных частотах модель также может достигать «понимания»:
Открытые вопросы
Теперь, когда у нас есть четкое представление о том, как однослойные MLP решают модульное сложение и почему оно возникает во время обучения, остается еще много интересных открытых вопросов с точки зрения памяти и обобщения.
** Какая модель более ограничена? **
Вообще говоря, снижение веса действительно может помочь различным моделям избежать запоминания тренировочных данных. Другие методы, которые помогают избежать переобучения, включают отсев, модели с уменьшением размера и даже численно нестабильные алгоритмы оптимизации. Эти методы взаимодействуют сложными нелинейными способами, поэтому трудно априори предсказать, какой метод в конечном итоге приведет к обобщению.
Кроме того, различные гиперпараметры сделают улучшение менее резким.
**Почему запоминание легче, чем обобщение? **
Одна теория состоит в том, что может быть гораздо больше способов запомнить тренировочный набор, чем обобщить. Таким образом, статистически запоминание должно происходить первым, особенно в случае отсутствия или незначительной регуляризации. Методы регуляризации, такие как уменьшение веса, отдают предпочтение определенным решениям, например, предпочтение «разреженных» решений «плотным».
Исследования показали, что обобщение связано с хорошо структурированными представлениями. Однако это не обязательное условие, некоторые варианты MLP без симметричных входов обучаются менее «круговым» представлениям при решении модульного сложения. Исследовательская группа также обнаружила, что хорошо структурированное представление не является достаточным условием для обобщения. Эта маленькая модель (обученная без снижения веса) начинает обобщать, а затем переключается на использование рекуррентно встроенных воспоминаний.
Как вы можете видеть на рисунке ниже, без уменьшения веса модель памяти может обучаться большим весам, чтобы уменьшить потери.
Можно даже найти гиперпараметры, где модель начинает обобщать, затем переключаться на память, а затем снова переключаться на обобщение.
** А как насчет больших моделей? **
Понимание решения модульного сложения не является тривиальным. Есть ли у нас надежда понять более крупные модели? На этом пути вам может понадобиться:
Обучайте более простые модели с большим индуктивным смещением и меньшим количеством движущихся частей.
Используйте их, чтобы объяснить загадочные части того, как работают большие модели.
Повторяйте по мере необходимости.
Исследовательская группа считает, что это может быть способом более эффективного понимания больших моделей, и что со временем этот механизированный подход к интерпретируемости может помочь выявить закономерности, которые позволят нейронным сетям обучаться. Алгоритмическое обнаружение становится простым и даже автоматизированным.
Для получения более подробной информации, пожалуйста, прочитайте исходный текст.
Оригинальная ссылка:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Google: у больших моделей есть способность не только всплывать, но и «понимать» после долгого обучения
В 2021 году исследователи сделали удивительное открытие при обучении серии миниатюрных моделей, то есть после длительного периода обучения произойдет изменение модели, от простого «запоминания обучающих данных» в начале к изменению на никогда данные также обладают сильными способностями к обобщению.
Это явление называется «грокинг».Как показано на рисунке ниже, после того, как модель в течение длительного времени соответствует обучающим данным, внезапно появляется явление «грокинга».
Чтобы лучше понять эту проблему, исследователи из Google в этой статье написали в блоге, пытаясь выяснить настоящую причину внезапного феномена «понимания» больших моделей.
Веса модели MLP показаны на рисунке ниже.Обнаружено, что веса модели поначалу сильно зашумлены, но с увеличением времени они начинают проявлять периодичность.
Поэкспериментируйте с последовательностью 01
Чтобы определить, является ли модель обобщением или запоминанием, в ходе исследования модель научили предсказывать, есть ли нечетное количество единиц в первых трех цифрах случайной последовательности из 30 единиц и нулей. Например, 000110010110001010111001001011 равно 0, а 010110010110001010111001001011 равно 1. По сути, это немного более сложная задача XOR с некоторым мешающим шумом. Если модель является обобщающей, она должна использовать только первые три цифры последовательности; если модель запоминает обучающие данные, она также будет использовать последующие цифры.
Модель, используемая в этом исследовании, представляет собой одноуровневый MLP, обученный на фиксированных партиях из 1200 последовательностей. Сначала улучшается только точность обучения, т.е. модель запоминает данные обучения. Как и в случае с модульной арифметикой, точность теста носит стохастический характер и резко возрастает по мере того, как модель изучает общее решение.
Почему это происходит, легче понять на простом примере задачи последовательности 01. Причина в том, что во время тренировки модель делает две вещи: минимизирует потери и сбрасывает вес. Потери при обучении фактически немного увеличиваются до того, как модель обобщается, поскольку она обменивает потери, связанные с выводом правильной метки, на меньшие веса.
**Когда возник феномен «понимания»? **
Стоит отметить, что «грокинг» — это случайное явление — если размер модели, потеря веса, размер данных и другие гиперпараметры не подходят, феномен «грокинга» исчезнет. Если веса уменьшаются слишком мало, модель будет соответствовать обучающим данным. Если веса уменьшатся слишком сильно, модель не сможет ничему научиться.
Ниже исследование обучает более 1000 моделей задачам 1 и 0 с использованием разных гиперпараметров. Процесс обучения шумный, поэтому для каждого набора гиперпараметров обучаются девять моделей. Это показывает, что только два типа моделей имеют феномен «понимания»: синий и желтый.
** Модульное сложение с пятью нейронами **
Сложение по модулю a+b по модулю 67 является периодическим, если сумма превышает 67, ответ вызовет явление свертывания, которое можно изобразить в виде круга. Чтобы упростить задачу, это исследование строит матрицу вложения, используя cos и sin для размещения a и b на окружности, выраженную в следующей форме.
следующий
Открытые вопросы
Теперь, когда у нас есть четкое представление о том, как однослойные MLP решают модульное сложение и почему оно возникает во время обучения, остается еще много интересных открытых вопросов с точки зрения памяти и обобщения.
** Какая модель более ограничена? **
Вообще говоря, снижение веса действительно может помочь различным моделям избежать запоминания тренировочных данных. Другие методы, которые помогают избежать переобучения, включают отсев, модели с уменьшением размера и даже численно нестабильные алгоритмы оптимизации. Эти методы взаимодействуют сложными нелинейными способами, поэтому трудно априори предсказать, какой метод в конечном итоге приведет к обобщению.
Кроме того, различные гиперпараметры сделают улучшение менее резким.
Одна теория состоит в том, что может быть гораздо больше способов запомнить тренировочный набор, чем обобщить. Таким образом, статистически запоминание должно происходить первым, особенно в случае отсутствия или незначительной регуляризации. Методы регуляризации, такие как уменьшение веса, отдают предпочтение определенным решениям, например, предпочтение «разреженных» решений «плотным».
Исследования показали, что обобщение связано с хорошо структурированными представлениями. Однако это не обязательное условие, некоторые варианты MLP без симметричных входов обучаются менее «круговым» представлениям при решении модульного сложения. Исследовательская группа также обнаружила, что хорошо структурированное представление не является достаточным условием для обобщения. Эта маленькая модель (обученная без снижения веса) начинает обобщать, а затем переключается на использование рекуррентно встроенных воспоминаний.
Как вы можете видеть на рисунке ниже, без уменьшения веса модель памяти может обучаться большим весам, чтобы уменьшить потери.
Понимание решения модульного сложения не является тривиальным. Есть ли у нас надежда понять более крупные модели? На этом пути вам может понадобиться:
Обучайте более простые модели с большим индуктивным смещением и меньшим количеством движущихся частей.
Используйте их, чтобы объяснить загадочные части того, как работают большие модели.
Повторяйте по мере необходимости.
Исследовательская группа считает, что это может быть способом более эффективного понимания больших моделей, и что со временем этот механизированный подход к интерпретируемости может помочь выявить закономерности, которые позволят нейронным сетям обучаться. Алгоритмическое обнаружение становится простым и даже автоматизированным.
Для получения более подробной информации, пожалуйста, прочитайте исходный текст.
Оригинальная ссылка: