Google: los modelos grandes no solo tienen la capacidad de emerger, sino que también tienen la capacidad de "comprender" después de un largo tiempo de entrenamiento
En 2021, los investigadores hicieron un descubrimiento sorprendente al entrenar una serie de modelos en miniatura, es decir, después de un largo período de entrenamiento, habrá un cambio en el modelo, de solo "memorizar datos de entrenamiento" al principio, a cambiar a nunca. visto antes Los datos también exhiben fuertes capacidades de generalización.
Este fenómeno se llama "grokking".Como se muestra en la figura a continuación, después de que el modelo se ajuste a los datos de entrenamiento durante mucho tiempo, el fenómeno de "grokking" aparecerá de repente.
Dado que el modelo en miniatura tiene esta característica, ¿aparecerá repentinamente "comprensión" el modelo más complejo después de un período de entrenamiento más largo? Recientemente, los modelos de lenguaje extenso (LLM, por sus siglas en inglés) se han desarrollado rápidamente. Parecen tener una rica comprensión del mundo. Mucha gente piensa que los LLM solo están repitiendo el contenido de aprendizaje memorizado. ¿Qué tan cierta es esta afirmación? ¿Cómo podemos juzgar que los LLM están generando memoria? contenido? , o se generaliza bien a los datos de entrada?
Para comprender mejor este problema, los investigadores de Google en este artículo escribieron un blog, tratando de descubrir la verdadera razón del fenómeno repentino de "comprensión" de los modelos grandes.
Este artículo comienza con la dinámica de entrenamiento del modelo en miniatura, diseñaron un MLP de una sola capa con 24 neuronas y las entrenaron para aprender a hacer la tarea de suma modular, solo necesitamos saber que la salida de esta tarea es periódica. la forma (a + b) mod n.
Los pesos del modelo MLP se muestran en la siguiente figura, se encuentra que los pesos del modelo son muy ruidosos al principio, pero a medida que aumenta el tiempo, comienzan a mostrar periodicidad.
Esta periodicidad es aún más evidente si se visualizan los pesos de las neuronas individuales:
No subestime la periodicidad. La periodicidad de los pesos indica que el modelo está aprendiendo una cierta estructura matemática, que también es la clave para la transformación del modelo de datos de memoria a capacidad de generalización. Mucha gente está confundida por esta transición, por qué el modelo cambia de memorizar el patrón de datos a generalizar el patrón de datos.
Experimento con la secuencia 01
Para determinar si el modelo estaba generalizando o memorizando, el estudio entrenó al modelo para predecir si había un número impar de 1 en los primeros tres dígitos de una secuencia aleatoria de 30 1 y 0. Por ejemplo, 000110010110001010111001001011 es 0 y 010110010110001010111001001011 es 1. Este es básicamente un problema XOR un poco más complicado con algo de ruido de interferencia. Si el modelo está generalizando, solo debe usar los primeros tres dígitos de la secuencia; si el modelo está memorizando los datos de entrenamiento, también usará los dígitos subsiguientes.
El modelo utilizado en este estudio es un MLP de una sola capa entrenado en lotes fijos de 1200 secuencias. Al principio, solo mejora la precisión del entrenamiento, es decir, el modelo recuerda los datos de entrenamiento. Al igual que con la aritmética modular, la precisión de la prueba es de naturaleza estocástica y aumenta bruscamente a medida que el modelo aprende una solución general.
Por qué sucede esto se puede entender más fácilmente con el ejemplo simple del problema de la secuencia 01. La razón es que el modelo hace dos cosas durante el entrenamiento: minimizar la pérdida y el decaimiento de peso. La pérdida de entrenamiento en realidad aumenta ligeramente antes de que el modelo se generalice, ya que intercambia la pérdida asociada con la salida de la etiqueta correcta por pesos más bajos.
La fuerte caída en la pérdida de prueba hace que parezca que el modelo está generalizando repentinamente, pero si observa los pesos del modelo durante el entrenamiento, la mayoría de los modelos interpolan sin problemas entre las dos soluciones. La generalización rápida ocurre cuando el último peso conectado a los dígitos de distracción posteriores se poda a través de la disminución del peso.
**¿Cuándo ocurrió el fenómeno de la "comprensión"? **
Vale la pena señalar que "grokking" es un fenómeno accidental: si el tamaño del modelo, la disminución del peso, el tamaño de los datos y otros hiperparámetros no son apropiados, el fenómeno de "grokking" desaparecerá. Si los pesos decaen demasiado poco, el modelo se sobreajustará a los datos de entrenamiento. Si los pesos decaen demasiado, el modelo no podrá aprender nada.
A continuación, el estudio entrena más de 1000 modelos en las tareas 1 y 0 utilizando diferentes hiperparámetros. El proceso de entrenamiento es ruidoso, por lo que se entrenan nueve modelos para cada conjunto de hiperparámetros. Muestra que solo dos tipos de modelos tienen fenómeno de "comprensión", azul y amarillo.
** Adición modular con cinco neuronas **
La suma módulo a+b mod 67 es periódica, si la suma excede 67, la respuesta producirá un fenómeno de envolvimiento, que puede ser representado por un círculo. Para simplificar el problema, este estudio construye una matriz de incrustación, usando cos y sin para colocar a y b en el círculo, expresada de la siguiente forma.
Resulta que el modelo encuentra la solución de manera perfecta y precisa con solo 5 neuronas:
Al observar los parámetros entrenados, el equipo de investigación descubrió que todas las neuronas convergieron en normas aproximadamente iguales. Si traza sus componentes cos y sen directamente, básicamente se distribuyen uniformemente en un círculo.
el siguiente es
, que se entrena desde cero sin periodicidad incorporada, el modelo tiene muchas frecuencias diferentes.
El estudio utilizó la transformada discreta de Fourier (DFT) para separar las frecuencias. Al igual que en la tarea de 1 y 0, solo unos pocos pesos juegan un papel clave:
La siguiente figura muestra que a diferentes frecuencias, el modelo también puede lograr "comprensión":
Preguntas abiertas
Ahora, si bien tenemos una comprensión sólida de cómo las MLP de una sola capa resuelven la suma modular y por qué surge durante el entrenamiento, todavía hay muchas preguntas abiertas interesantes en términos de memoria y generalización.
**¿Qué modelo está más limitado? **
En términos generales, la disminución del peso puede guiar a varios modelos para evitar memorizar datos de entrenamiento. Otras técnicas que ayudan a evitar el sobreajuste incluyen abandonos, modelos de reducción de tamaño e incluso algoritmos de optimización numéricamente inestables. Estos métodos interactúan en formas no lineales complejas, por lo que es difícil predecir a priori qué método eventualmente inducirá la generalización.
Además, diferentes hiperparámetros harían que la mejora fuera menos abrupta.
**¿Por qué la memorización es más fácil que la generalización? **
Una teoría es que puede haber muchas más formas de memorizar el conjunto de entrenamiento que generalizar. Por lo tanto, estadísticamente, es más probable que la memorización ocurra primero, especialmente en el caso de poca o ninguna regularización. Las técnicas de regularización, como el decaimiento del peso, favorecen ciertas soluciones, por ejemplo, favoreciendo las soluciones "escasas" sobre las "densas".
La investigación ha demostrado que la generalización está asociada con representaciones bien estructuradas. Sin embargo, esta no es una condición necesaria; algunas variantes de MLP sin entradas simétricas aprenden representaciones menos "circulares" al resolver la suma modular. El equipo de investigación también encontró que una representación bien estructurada no es una condición suficiente para la generalización. Este modelo pequeño (entrenado sin pérdida de peso) comienza a generalizar y luego cambia a usar memorias incrustadas de forma recurrente.
Como puede ver en la figura a continuación, sin pérdida de peso, el modelo de memoria puede aprender pesos mayores para reducir la pérdida.
Incluso es posible encontrar los hiperparámetros donde el modelo comienza a generalizar, luego cambia a la memoria y luego vuelve a generalizar.
**¿Qué pasa con los modelos más grandes? **
Entender la solución a la suma modular no es trivial. ¿Tenemos alguna esperanza de entender modelos más grandes? En este camino es posible que necesite:
Entrene modelos más simples con más polarización inductiva y menos partes móviles.
Úselos para explicar partes desconcertantes de cómo funcionan los modelos más grandes.
Repita según sea necesario.
El equipo de investigación cree que esta puede ser una forma de comprender mejor los modelos grandes de manera eficiente y que, con el tiempo, este enfoque mecanizado de la interpretabilidad puede ayudar a identificar patrones que permiten que las redes neuronales aprendan. La revelación algorítmica se vuelve fácil e incluso automatizada.
Para más detalles, lea el texto original.
Enlace original:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Google: los modelos grandes no solo tienen la capacidad de emerger, sino que también tienen la capacidad de "comprender" después de un largo tiempo de entrenamiento
En 2021, los investigadores hicieron un descubrimiento sorprendente al entrenar una serie de modelos en miniatura, es decir, después de un largo período de entrenamiento, habrá un cambio en el modelo, de solo "memorizar datos de entrenamiento" al principio, a cambiar a nunca. visto antes Los datos también exhiben fuertes capacidades de generalización.
Este fenómeno se llama "grokking".Como se muestra en la figura a continuación, después de que el modelo se ajuste a los datos de entrenamiento durante mucho tiempo, el fenómeno de "grokking" aparecerá de repente.
Para comprender mejor este problema, los investigadores de Google en este artículo escribieron un blog, tratando de descubrir la verdadera razón del fenómeno repentino de "comprensión" de los modelos grandes.
Los pesos del modelo MLP se muestran en la siguiente figura, se encuentra que los pesos del modelo son muy ruidosos al principio, pero a medida que aumenta el tiempo, comienzan a mostrar periodicidad.
Experimento con la secuencia 01
Para determinar si el modelo estaba generalizando o memorizando, el estudio entrenó al modelo para predecir si había un número impar de 1 en los primeros tres dígitos de una secuencia aleatoria de 30 1 y 0. Por ejemplo, 000110010110001010111001001011 es 0 y 010110010110001010111001001011 es 1. Este es básicamente un problema XOR un poco más complicado con algo de ruido de interferencia. Si el modelo está generalizando, solo debe usar los primeros tres dígitos de la secuencia; si el modelo está memorizando los datos de entrenamiento, también usará los dígitos subsiguientes.
El modelo utilizado en este estudio es un MLP de una sola capa entrenado en lotes fijos de 1200 secuencias. Al principio, solo mejora la precisión del entrenamiento, es decir, el modelo recuerda los datos de entrenamiento. Al igual que con la aritmética modular, la precisión de la prueba es de naturaleza estocástica y aumenta bruscamente a medida que el modelo aprende una solución general.
Por qué sucede esto se puede entender más fácilmente con el ejemplo simple del problema de la secuencia 01. La razón es que el modelo hace dos cosas durante el entrenamiento: minimizar la pérdida y el decaimiento de peso. La pérdida de entrenamiento en realidad aumenta ligeramente antes de que el modelo se generalice, ya que intercambia la pérdida asociada con la salida de la etiqueta correcta por pesos más bajos.
**¿Cuándo ocurrió el fenómeno de la "comprensión"? **
Vale la pena señalar que "grokking" es un fenómeno accidental: si el tamaño del modelo, la disminución del peso, el tamaño de los datos y otros hiperparámetros no son apropiados, el fenómeno de "grokking" desaparecerá. Si los pesos decaen demasiado poco, el modelo se sobreajustará a los datos de entrenamiento. Si los pesos decaen demasiado, el modelo no podrá aprender nada.
A continuación, el estudio entrena más de 1000 modelos en las tareas 1 y 0 utilizando diferentes hiperparámetros. El proceso de entrenamiento es ruidoso, por lo que se entrenan nueve modelos para cada conjunto de hiperparámetros. Muestra que solo dos tipos de modelos tienen fenómeno de "comprensión", azul y amarillo.
** Adición modular con cinco neuronas **
La suma módulo a+b mod 67 es periódica, si la suma excede 67, la respuesta producirá un fenómeno de envolvimiento, que puede ser representado por un círculo. Para simplificar el problema, este estudio construye una matriz de incrustación, usando cos y sin para colocar a y b en el círculo, expresada de la siguiente forma.
el siguiente es
Preguntas abiertas
Ahora, si bien tenemos una comprensión sólida de cómo las MLP de una sola capa resuelven la suma modular y por qué surge durante el entrenamiento, todavía hay muchas preguntas abiertas interesantes en términos de memoria y generalización.
**¿Qué modelo está más limitado? **
En términos generales, la disminución del peso puede guiar a varios modelos para evitar memorizar datos de entrenamiento. Otras técnicas que ayudan a evitar el sobreajuste incluyen abandonos, modelos de reducción de tamaño e incluso algoritmos de optimización numéricamente inestables. Estos métodos interactúan en formas no lineales complejas, por lo que es difícil predecir a priori qué método eventualmente inducirá la generalización.
Además, diferentes hiperparámetros harían que la mejora fuera menos abrupta.
Una teoría es que puede haber muchas más formas de memorizar el conjunto de entrenamiento que generalizar. Por lo tanto, estadísticamente, es más probable que la memorización ocurra primero, especialmente en el caso de poca o ninguna regularización. Las técnicas de regularización, como el decaimiento del peso, favorecen ciertas soluciones, por ejemplo, favoreciendo las soluciones "escasas" sobre las "densas".
La investigación ha demostrado que la generalización está asociada con representaciones bien estructuradas. Sin embargo, esta no es una condición necesaria; algunas variantes de MLP sin entradas simétricas aprenden representaciones menos "circulares" al resolver la suma modular. El equipo de investigación también encontró que una representación bien estructurada no es una condición suficiente para la generalización. Este modelo pequeño (entrenado sin pérdida de peso) comienza a generalizar y luego cambia a usar memorias incrustadas de forma recurrente.
Como puede ver en la figura a continuación, sin pérdida de peso, el modelo de memoria puede aprender pesos mayores para reducir la pérdida.
Entender la solución a la suma modular no es trivial. ¿Tenemos alguna esperanza de entender modelos más grandes? En este camino es posible que necesite:
Entrene modelos más simples con más polarización inductiva y menos partes móviles.
Úselos para explicar partes desconcertantes de cómo funcionan los modelos más grandes.
Repita según sea necesario.
El equipo de investigación cree que esta puede ser una forma de comprender mejor los modelos grandes de manera eficiente y que, con el tiempo, este enfoque mecanizado de la interpretabilidad puede ayudar a identificar patrones que permiten que las redes neuronales aprendan. La revelación algorítmica se vuelve fácil e incluso automatizada.
Para más detalles, lea el texto original.
Enlace original: