Google : les grands modèles ont non seulement la capacité d'émerger, mais aussi la capacité de "comprendre" après une longue période d'entraînement

En 2021, les chercheurs ont fait une découverte étonnante lors de l'entraînement d'une série de modèles miniatures, c'est-à-dire qu'après une longue période d'entraînement, il y aura un changement dans le modèle, passant de la seule "mémorisation des données d'entraînement" au début à un changement à jamais Les données présentent également de fortes capacités de généralisation.

Ce phénomène est appelé "grokking". Comme le montre la figure ci-dessous, après que le modèle ait ajusté les données d'entraînement pendant une longue période, le phénomène de "grokking" apparaîtra soudainement.

Étant donné que le modèle miniature a cette caractéristique, le modèle plus complexe apparaîtra-t-il soudainement "compréhension" après une période d'entraînement plus longue ? Récemment, les grands modèles linguistiques (LLM) se sont développés rapidement. Ils semblent avoir une compréhension riche du monde. Beaucoup de gens pensent que les LLM ne font que répéter le contenu de formation mémorisé. Dans quelle mesure cette affirmation est-elle vraie ? Comment pouvons-nous juger que les LLM produisent de la mémoire contenu ? , ou se généralise-t-il bien aux données d'entrée ?

Afin de mieux comprendre ce problème, les chercheurs de Google dans cet article ont écrit un blog, essayant de comprendre la véritable raison du phénomène soudain de "compréhension" des grands modèles.

Cet article commence par la dynamique de formation du modèle miniature. Ils ont conçu un MLP monocouche avec 24 neurones et les ont formés pour apprendre à faire la tâche d'addition modulaire. Nous avons seulement besoin de savoir que la sortie de cette tâche est périodique. de la forme (a + b) mod n.

Les poids du modèle MLP sont présentés dans la figure ci-dessous. On constate que les poids du modèle sont très bruyants au début, mais à mesure que le temps augmente, ils commencent à montrer une périodicité.

Cette périodicité est encore plus apparente si les poids des neurones individuels sont visualisés :

Ne sous-estimez pas la périodicité La périodicité des pondérations indique que le modèle apprend une certaine structure mathématique, qui est également la clé de la transformation du modèle des données de mémoire en capacité de généralisation. Beaucoup de gens sont confus par cette transition, pourquoi le modèle passe de la mémorisation du modèle de données à la généralisation du modèle de données.

Expérimentez avec la séquence 01

Pour déterminer si le modèle généralisait ou mémorisait, l'étude a entraîné le modèle à prédire s'il y avait un nombre impair de 1 dans les trois premiers chiffres d'une séquence aléatoire de 30 1 et 0. Par exemple, 000110010110001010111001001011 vaut 0 et 010110010110001010111001001011 vaut 1. Il s'agit essentiellement d'un problème XOR légèrement plus délicat avec des bruits parasites. Si le modèle généralise, il ne doit utiliser que les trois premiers chiffres de la séquence ; si le modèle mémorise les données d'apprentissage, il utilisera également les chiffres suivants.

Le modèle utilisé dans cette étude est un MLP monocouche formé sur des lots fixes de 1200 séquences. Au début, seule la précision de l'entraînement s'améliore, c'est-à-dire que le modèle se souvient des données d'entraînement. Comme pour l'arithmétique modulaire, la précision des tests est de nature stochastique, augmentant fortement à mesure que le modèle apprend une solution générale.

Pourquoi cela se produit peut être plus facilement compris avec l'exemple simple du problème de séquence 01. La raison en est que le modèle fait deux choses pendant l'entraînement : minimiser la perte et la perte de poids. La perte d'entraînement augmente en fait légèrement avant que le modèle ne se généralise, car il échange la perte associée à la sortie de l'étiquette correcte pour des poids inférieurs.

La forte baisse de la perte de test donne l'impression que le modèle se généralise soudainement, mais si vous regardez les poids du modèle pendant l'entraînement, la plupart des modèles interpolent en douceur entre les deux solutions. Une généralisation rapide se produit lorsque le dernier poids connecté aux chiffres gênants suivants est élagué par la décroissance du poids.

**Quand le phénomène de "compréhension" s'est-il produit ? **

Il convient de noter que le "grokking" est un phénomène accidentel - si la taille du modèle, la décroissance du poids, la taille des données et d'autres hyperparamètres ne sont pas appropriés, le phénomène de "grokking" disparaîtra. Si les pondérations diminuent trop peu, le modèle sera surajusté aux données d'apprentissage. Si les poids diminuent trop, le modèle ne pourra rien apprendre.

Ci-dessous, l'étude forme plus de 1000 modèles sur les tâches 1 et 0 en utilisant différents hyperparamètres. Le processus de formation est bruyant, donc neuf modèles sont formés pour chaque ensemble d'hyperparamètres. Il montre que seuls deux types de modèles ont un phénomène de "compréhension", le bleu et le jaune.

** Ajout modulaire à cinq neurones **

L'addition modulo a+b mod 67 est périodique, si la somme dépasse 67, la réponse produira un phénomène d'enroulement, qui peut être représenté par un cercle. Afin de simplifier le problème, cette étude construit une matrice d'intégration, en utilisant cos⁡ et sin⁡ pour placer a et b sur le cercle, exprimée sous la forme suivante.

Il s'avère que le modèle trouve la solution parfaitement et précisément avec seulement 5 neurones :

En examinant les paramètres entraînés, l'équipe de recherche a découvert que tous les neurones convergeaient vers des normes à peu près égales. Si vous tracez directement leurs composantes cos⁡ et sin⁡, elles sont essentiellement réparties uniformément sur un cercle.

la prochaine est

, qui est formé à partir de zéro sans périodicité intégrée, le modèle a de nombreuses fréquences différentes.

L'étude a utilisé la transformée de Fourier discrète (DFT) pour séparer les fréquences. Tout comme dans la tâche des 1 et des 0, seuls quelques poids jouent un rôle clé :

La figure ci-dessous montre qu'à différentes fréquences, le modèle peut également atteindre la "compréhension":

Questions ouvertes

Maintenant, bien que nous ayons une solide compréhension de la façon dont les MLP à une seule couche résolvent l'addition modulaire et pourquoi elle survient pendant la formation, il reste encore de nombreuses questions ouvertes intéressantes en termes de mémoire et de généralisation.

**Quel modèle est le plus contraint ? **

D'une manière générale, la perte de poids peut en effet guider différents modèles pour éviter de mémoriser les données d'entraînement. D'autres techniques qui aident à éviter le surajustement incluent l'abandon, les modèles de réduction des effectifs et même les algorithmes d'optimisation numériquement instables. Ces méthodes interagissent de manière non linéaire complexe, il est donc difficile de prédire a priori quelle méthode induira finalement la généralisation.

De plus, des hyperparamètres différents rendraient l'amélioration moins brutale.

**Pourquoi la mémorisation est-elle plus facile que la généralisation ? **

Une théorie est qu'il peut y avoir beaucoup plus de façons de mémoriser l'ensemble de formation que de généraliser. Par conséquent, statistiquement, la mémorisation devrait être plus susceptible de se produire en premier, en particulier dans le cas de peu ou pas de régularisation. Les techniques de régularisation telles que la décroissance du poids favorisent certaines solutions, par exemple en favorisant les solutions « clairsemées » par rapport aux solutions « denses ».

La recherche a montré que la généralisation est associée à des représentations bien structurées. Cependant, ce n'est pas une condition nécessaire ; certaines variantes MLP sans entrées symétriques apprennent des représentations moins "circulaires" lors de la résolution de l'addition modulaire. L'équipe de recherche a également constaté qu'une représentation bien structurée n'est pas une condition suffisante pour la généralisation. Ce petit modèle (entraîné sans perte de poids) commence à se généraliser puis passe à l'utilisation de mémoires intégrées de manière récurrente.

Comme vous pouvez le voir sur la figure ci-dessous, sans perte de poids, le modèle de mémoire peut apprendre des poids plus importants pour réduire la perte.

Il est même possible de trouver les hyperparamètres où le modèle commence à généraliser, puis de passer en mémoire, puis de revenir à généraliser.

** Qu'en est-il des modèles plus grands ? **

Comprendre la solution à l'addition modulaire n'est pas anodin. Avons-nous le moindre espoir de comprendre des modèles plus grands ? Sur ce chemin, vous aurez peut-être besoin de :

  1. Entraînez des modèles plus simples avec plus de polarisation inductive et moins de pièces mobiles.

  2. Utilisez-les pour expliquer les parties déroutantes du fonctionnement des modèles plus grands.

  3. Répétez au besoin.

L'équipe de recherche pense que cela peut être un moyen de mieux comprendre efficacement les grands modèles, et qu'au fil du temps, cette approche mécanisée de l'interprétabilité peut aider à identifier les modèles qui permettent aux réseaux de neurones d'apprendre. La révélation algorithmique devient facile et même automatisée.

Pour plus de détails, veuillez lire le texte original.

Lien d'origine :

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)