У 2021 році дослідники зробили дивовижне відкриття під час навчання серії мініатюрних моделей, тобто після тривалого періоду навчання відбудуться зміни в моделі від лише «запам’ятовування навчальних даних» на початку до зміни на ніколи Дані також демонструють потужну здатність до узагальнення.
Це явище називається «гроккінг». Як показано на малюнку нижче, після того, як модель протягом тривалого часу відповідає даним навчання, раптово з’являється феномен «гроккінгу».
Оскільки мініатюрна модель має цю характеристику, чи раптом складніша модель з’явиться «розуміння» після тривалого періоду навчання? Останнім часом великі мовні моделі (LLM) швидко розвиваються. Здається, вони добре розуміють світ. Багато людей думають, що LLM лише повторюють завчений навчальний матеріал. Наскільки правдиве це твердження? Як ми можемо судити, що LLM виводять пам’ять вміст? , чи він добре узагальнює вхідні дані?
Щоб краще зрозуміти цю проблему, дослідники з Google у цій статті написали блог, намагаючись з’ясувати справжню причину раптового феномену «осягнення» великих моделей.
Ця стаття починається з динаміки навчання мініатюрної моделі. Вони розробили одношаровий MLP з 24 нейронами та навчили їх навчитися виконувати завдання модульного додавання. Нам потрібно лише знати, що результат цього завдання є періодичним. форма (a + b) mod n.
Вагові коефіцієнти моделі MLP показані на малюнку нижче. Виявлено, що спочатку вагові коефіцієнти моделі дуже шумні, але з часом вони починають проявляти періодичність.
Ця періодичність ще більш очевидна, якщо візуалізувати ваги окремих нейронів:
Не недооцінюйте періодичність. Періодичність вагових коефіцієнтів вказує на те, що модель вивчає певну математичну структуру, яка також є ключем до перетворення моделі з даних пам’яті на здатність до узагальнення. Багатьох людей бентежить цей перехід, чому модель змінюється від запам’ятовування шаблону даних до узагальнення шаблону даних.
Експериментуйте з послідовністю 01
Щоб визначити, чи була модель узагальнюючою чи запам’ятовуваною, дослідження навчило модель передбачати, чи є непарна кількість одиниць у перших трьох цифрах випадкової послідовності з 30 одиниць і нулів. Наприклад, 000110010110001010111001001011 дорівнює 0, а 010110010110001010111001001011 дорівнює 1. По суті, це дещо складніша проблема XOR з деякими заважаючими шумами. Якщо модель є узагальнюючою, вона повинна використовувати лише перші три цифри послідовності; якщо модель запам’ятовує навчальні дані, вона також використовуватиме наступні цифри.
Модель, використана в цьому дослідженні, є одношаровим MLP, навченим на фіксованих партіях із 1200 послідовностей. Спочатку підвищується лише точність навчання, тобто модель запам'ятовує навчальні дані. Як і у випадку модульної арифметики, точність тесту має стохастичний характер і різко зростає, коли модель вивчає загальне рішення.
Чому це відбувається, можна легше зрозуміти на простому прикладі проблеми послідовності 01. Причина в тому, що модель робить дві речі під час тренувань: мінімізує втрату та зниження ваги. Втрати при навчанні фактично трохи збільшуються перед узагальненням моделі, оскільки вона замінює втрати, пов’язані з виведенням правильної мітки, на менші ваги.
Різке падіння тестових втрат створює враження, що модель раптово узагальнюється, але якщо ви подивитеся на ваги моделі під час навчання, більшість моделей плавно інтерполюють між двома рішеннями. Швидке узагальнення відбувається, коли остання вага, пов’язана з наступними відволікаючими цифрами, обрізається через розпад ваги.
**Коли виникло явище «розуміння»? **
Варто зазначити, що «гроккінг» є випадковим явищем: якщо розмір моделі, розпад ваги, розмір даних та інші гіперпараметри не є відповідними, феномен «гроккінгу» зникне. Якщо вагові коефіцієнти зменшуються надто мало, модель перевиконується з навчальними даними. Якщо ваги занадто зменшаться, модель не зможе нічого навчитися.
Нижче в дослідженні тренується понад 1000 моделей на завданнях 1 і 0 з використанням різних гіперпараметрів. Процес навчання шумний, тому дев'ять моделей навчаються для кожного набору гіперпараметрів. Це показує, що лише два типи моделей мають феномен «розуміння», синій і жовтий.
** Модульне доповнення з п’ятьма нейронами **
Додавання за модулем a+b mod 67 є періодичним, якщо сума перевищує 67, відповідь викличе явище обгортання, яке можна представити колом. Щоб спростити проблему, у цьому дослідженні будується матриця вбудовування, використовуючи cos і sin для розміщення a і b на колі, вираженому наступною формою.
Виявляється, модель ідеально і точно знаходить рішення лише за допомогою 5 нейронів:
Дивлячись на навчені параметри, дослідницька група виявила, що всі нейрони зближуються до приблизно однакових норм. Якщо побудувати напряму їхні компоненти cos і sin, вони в основному рівномірно розподілені по колу.
наступне
, яка навчається з нуля без вбудованої періодичності, модель має багато різних частот.
У дослідженні використовувалося дискретне перетворення Фур’є (DFT) для розділення частот. Так само, як і в завданні 1s і 0s, лише кілька ваг відіграють ключову роль:
На малюнку нижче показано, що на різних частотах модель також може досягти «розуміння»:
Відкриті запитання
Тепер, хоча ми маємо чітке розуміння того, як одношарові MLP вирішують модульне додавання і чому це виникає під час навчання, все ще залишається багато цікавих відкритих питань щодо пам’яті та узагальнення.
**Яка модель більш обмежена? **
Загалом кажучи, зниження ваги справді може керувати різними моделями, щоб уникнути запам’ятовування даних тренувань. Інші методи, які допомагають уникнути переобладнання, включають моделі відсіву, зменшення розмірів і навіть чисельно нестабільні алгоритми оптимізації. Ці методи взаємодіють складними нелінійними способами, тому важко передбачити апріорі, який метод зрештою призведе до узагальнення.
Крім того, різні гіперпараметри зробили б покращення менш різким.
**Чому запам’ятовувати легше, ніж узагальнювати? **
Одна з теорій полягає в тому, що може бути набагато більше способів запам’ятати навчальний набір, ніж узагальнення. Таким чином, за статистикою, запам’ятовування повинно відбуватися першим, особливо у випадку відсутності або незначної регулярності. Методи регуляризації, такі як розпад ваги, надають перевагу певним рішенням, наприклад, віддають перевагу «розрідженим» рішенням над «щільними».
Дослідження показали, що узагальнення пов’язане з добре структурованими уявленнями. Однак це не є обов’язковою умовою; деякі варіанти MLP без симетричних входів вивчають менше «кругових» представлень під час вирішення модульного додавання. Дослідницька група також виявила, що добре структуроване уявлення не є достатньою умовою для узагальнення. Ця маленька модель (навчена без розпаду ваги) починає узагальнювати, а потім переходить на використання періодично вбудованих спогадів.
Як ви можете бачити на малюнку нижче, без зменшення ваги модель пам’яті може вивчати більші ваги, щоб зменшити втрати.
Можна навіть знайти гіперпараметри, де модель починає узагальнюватися, потім перемикається в пам’ять, а потім повертається до узагальнення.
**А як щодо більших моделей? **
Розуміння рішення модульного додавання не є тривіальним. Чи є у нас якась надія на розуміння більших моделей? На цьому шляху вам може знадобитися:
Навчіть простіші моделі з більшим індуктивним зміщенням і меншою кількістю рухомих частин.
Використовуйте їх, щоб пояснити загадкові частини того, як працюють більші моделі.
Повторіть за потреби.
Дослідницька група вважає, що це може бути способом ефективнішого розуміння великих моделей, і що з часом цей механізований підхід до інтерпретації може допомогти ідентифікувати шаблони, які дозволяють нейронним мережам навчатися. Розкриття алгоритмів стає простим і навіть автоматизованим.
Щоб дізнатися більше, прочитайте оригінальний текст.
Оригінальне посилання:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Google: Великі моделі не тільки мають здатність виникати, але й здатні «розуміти» після тривалого навчання
У 2021 році дослідники зробили дивовижне відкриття під час навчання серії мініатюрних моделей, тобто після тривалого періоду навчання відбудуться зміни в моделі від лише «запам’ятовування навчальних даних» на початку до зміни на ніколи Дані також демонструють потужну здатність до узагальнення.
Це явище називається «гроккінг». Як показано на малюнку нижче, після того, як модель протягом тривалого часу відповідає даним навчання, раптово з’являється феномен «гроккінгу».
Щоб краще зрозуміти цю проблему, дослідники з Google у цій статті написали блог, намагаючись з’ясувати справжню причину раптового феномену «осягнення» великих моделей.
Вагові коефіцієнти моделі MLP показані на малюнку нижче. Виявлено, що спочатку вагові коефіцієнти моделі дуже шумні, але з часом вони починають проявляти періодичність.
Експериментуйте з послідовністю 01
Щоб визначити, чи була модель узагальнюючою чи запам’ятовуваною, дослідження навчило модель передбачати, чи є непарна кількість одиниць у перших трьох цифрах випадкової послідовності з 30 одиниць і нулів. Наприклад, 000110010110001010111001001011 дорівнює 0, а 010110010110001010111001001011 дорівнює 1. По суті, це дещо складніша проблема XOR з деякими заважаючими шумами. Якщо модель є узагальнюючою, вона повинна використовувати лише перші три цифри послідовності; якщо модель запам’ятовує навчальні дані, вона також використовуватиме наступні цифри.
Модель, використана в цьому дослідженні, є одношаровим MLP, навченим на фіксованих партіях із 1200 послідовностей. Спочатку підвищується лише точність навчання, тобто модель запам'ятовує навчальні дані. Як і у випадку модульної арифметики, точність тесту має стохастичний характер і різко зростає, коли модель вивчає загальне рішення.
Чому це відбувається, можна легше зрозуміти на простому прикладі проблеми послідовності 01. Причина в тому, що модель робить дві речі під час тренувань: мінімізує втрату та зниження ваги. Втрати при навчанні фактично трохи збільшуються перед узагальненням моделі, оскільки вона замінює втрати, пов’язані з виведенням правильної мітки, на менші ваги.
**Коли виникло явище «розуміння»? **
Варто зазначити, що «гроккінг» є випадковим явищем: якщо розмір моделі, розпад ваги, розмір даних та інші гіперпараметри не є відповідними, феномен «гроккінгу» зникне. Якщо вагові коефіцієнти зменшуються надто мало, модель перевиконується з навчальними даними. Якщо ваги занадто зменшаться, модель не зможе нічого навчитися.
Нижче в дослідженні тренується понад 1000 моделей на завданнях 1 і 0 з використанням різних гіперпараметрів. Процес навчання шумний, тому дев'ять моделей навчаються для кожного набору гіперпараметрів. Це показує, що лише два типи моделей мають феномен «розуміння», синій і жовтий.
** Модульне доповнення з п’ятьма нейронами **
Додавання за модулем a+b mod 67 є періодичним, якщо сума перевищує 67, відповідь викличе явище обгортання, яке можна представити колом. Щоб спростити проблему, у цьому дослідженні будується матриця вбудовування, використовуючи cos і sin для розміщення a і b на колі, вираженому наступною формою.
наступне
Відкриті запитання
Тепер, хоча ми маємо чітке розуміння того, як одношарові MLP вирішують модульне додавання і чому це виникає під час навчання, все ще залишається багато цікавих відкритих питань щодо пам’яті та узагальнення.
**Яка модель більш обмежена? **
Загалом кажучи, зниження ваги справді може керувати різними моделями, щоб уникнути запам’ятовування даних тренувань. Інші методи, які допомагають уникнути переобладнання, включають моделі відсіву, зменшення розмірів і навіть чисельно нестабільні алгоритми оптимізації. Ці методи взаємодіють складними нелінійними способами, тому важко передбачити апріорі, який метод зрештою призведе до узагальнення.
Крім того, різні гіперпараметри зробили б покращення менш різким.
Одна з теорій полягає в тому, що може бути набагато більше способів запам’ятати навчальний набір, ніж узагальнення. Таким чином, за статистикою, запам’ятовування повинно відбуватися першим, особливо у випадку відсутності або незначної регулярності. Методи регуляризації, такі як розпад ваги, надають перевагу певним рішенням, наприклад, віддають перевагу «розрідженим» рішенням над «щільними».
Дослідження показали, що узагальнення пов’язане з добре структурованими уявленнями. Однак це не є обов’язковою умовою; деякі варіанти MLP без симетричних входів вивчають менше «кругових» представлень під час вирішення модульного додавання. Дослідницька група також виявила, що добре структуроване уявлення не є достатньою умовою для узагальнення. Ця маленька модель (навчена без розпаду ваги) починає узагальнювати, а потім переходить на використання періодично вбудованих спогадів.
Як ви можете бачити на малюнку нижче, без зменшення ваги модель пам’яті може вивчати більші ваги, щоб зменшити втрати.
Розуміння рішення модульного додавання не є тривіальним. Чи є у нас якась надія на розуміння більших моделей? На цьому шляху вам може знадобитися:
Навчіть простіші моделі з більшим індуктивним зміщенням і меншою кількістю рухомих частин.
Використовуйте їх, щоб пояснити загадкові частини того, як працюють більші моделі.
Повторіть за потреби.
Дослідницька група вважає, що це може бути способом ефективнішого розуміння великих моделей, і що з часом цей механізований підхід до інтерпретації може допомогти ідентифікувати шаблони, які дозволяють нейронним мережам навчатися. Розкриття алгоритмів стає простим і навіть автоматизованим.
Щоб дізнатися більше, прочитайте оригінальний текст.
Оригінальне посилання: