Em 2021, os pesquisadores fizeram uma descoberta incrível ao treinar uma série de modelos em miniatura, ou seja, após um longo período de treinamento, haverá uma mudança no modelo, de apenas "memorizar dados de treinamento" no início, para mudar para nunca visto antes.Os dados também exibem fortes capacidades de generalização.
Este fenômeno é chamado de "grokking". Conforme mostrado na figura abaixo, depois que o modelo ajustar os dados de treinamento por um longo tempo, o fenômeno de "grokking" aparecerá repentinamente.
Como o modelo em miniatura tem essa característica, o modelo mais complexo aparecerá repentinamente "compreendido" após um período de treinamento mais longo? Recentemente, grandes modelos de linguagem (LLMs) se desenvolveram rapidamente. Eles parecem ter uma compreensão rica do mundo. Muitas pessoas pensam que os LLMs estão apenas repetindo o conteúdo de treinamento memorizado. Quão verdadeira é essa afirmação? Como podemos julgar que os LLMs estão gerando memória content? , ou generaliza bem para os dados de entrada?
Para entender melhor esse problema, os pesquisadores do Google neste artigo escreveram um blog, tentando descobrir o verdadeiro motivo do súbito fenômeno de "compreensão" de modelos grandes.
Este artigo começa com a dinâmica de treinamento do modelo em miniatura. Eles projetaram um MLP de camada única com 24 neurônios e os treinaram para aprender a fazer a tarefa de adição modular. Precisamos apenas saber que a saída dessa tarefa é periódica. a forma (a + b) mod n.
Os pesos do modelo MLP são mostrados na figura abaixo.Verifica-se que os pesos do modelo são muito ruidosos a princípio, mas conforme o tempo aumenta, eles começam a apresentar periodicidade.
Essa periodicidade é ainda mais aparente se os pesos dos neurônios individuais forem visualizados:
Não subestime a periodicidade.A periodicidade dos pesos indica que o modelo está aprendendo uma certa estrutura matemática, que também é a chave para a transformação do modelo de dados de memória para capacidade de generalização. Muitas pessoas ficam confusas com essa transição, por que o modelo muda de memorizar o padrão de dados para generalizar o padrão de dados.
Experimente com 01 sequência
Para saber se o modelo estava generalizando ou memorizando, o estudo treinou o modelo para prever se havia um número ímpar de 1s nos três primeiros dígitos de uma sequência aleatória de 30 uns e zeros. Por exemplo, 000110010110001010111001001011 é 0 e 010110010110001010111001001011 é 1. Este é basicamente um problema XOR um pouco mais complicado com algum ruído interferente. Se o modelo estiver generalizando, ele deve usar apenas os três primeiros dígitos da sequência; se o modelo estiver memorizando os dados de treinamento, ele também usará os dígitos subsequentes.
O modelo usado neste estudo é um MLP de camada única treinado em lotes fixos de 1200 sequências. A princípio, apenas a precisão do treinamento melhora, ou seja, o modelo se lembra dos dados de treinamento. Assim como na aritmética modular, a precisão do teste é de natureza estocástica, aumentando acentuadamente à medida que o modelo aprende uma solução geral.
Por que isso acontece pode ser mais facilmente entendido com o exemplo simples do problema da sequência 01. A razão é que o modelo faz duas coisas durante o treinamento: minimizar a perda e a queda de peso. Na verdade, a perda de treinamento aumenta um pouco antes da generalização do modelo, pois ele troca a perda associada à saída do rótulo correto para pesos mais baixos.
A queda acentuada na perda de teste faz parecer que o modelo está generalizando repentinamente, mas se você observar os pesos do modelo durante o treinamento, a maioria dos modelos interpolará suavemente entre as duas soluções. A generalização rápida ocorre quando o último peso conectado aos dígitos de distração subseqüentes é podado por meio de decaimento de peso.
**Quando ocorreu o fenômeno da "compreensão"? **
Vale a pena notar que "grokking" é um fenômeno acidental - se o tamanho do modelo, queda de peso, tamanho dos dados e outros hiperparâmetros não forem apropriados, o fenômeno "grokking" desaparecerá. Se os pesos diminuírem muito pouco, o modelo será superajustado aos dados de treinamento. Se os pesos diminuírem muito, o modelo não será capaz de aprender nada.
Abaixo, o estudo treina mais de 1.000 modelos nas tarefas 1 e 0 usando diferentes hiperparâmetros. O processo de treinamento é ruidoso, então nove modelos são treinados para cada conjunto de hiperparâmetros. Isso mostra que apenas dois tipos de modelos têm fenômeno de "compreensão", azul e amarelo.
** Adição modular com cinco neurônios **
A adição de módulo a+b mod 67 é periódica, se a soma for superior a 67, a resposta produzirá um fenômeno de envolvimento, que pode ser representado por um círculo. Para simplificar o problema, este estudo constrói uma matriz de imersão, usando cos e sin para colocar aeb no círculo, expressa na seguinte forma.
Acontece que o modelo encontra a solução de forma perfeita e precisa com apenas 5 neurônios:
Olhando para os parâmetros treinados, a equipe de pesquisa descobriu que todos os neurônios convergiram para normas aproximadamente iguais. Se você plotar seus componentes cos e sin diretamente, eles serão basicamente distribuídos uniformemente em um círculo.
proximo é
, que é treinado do zero sem periodicidade integrada, o modelo tem muitas frequências diferentes.
O estudo usou a transformada discreta de Fourier (DFT) para separar as frequências. Assim como na tarefa de 1s e 0s, apenas alguns pesos desempenham um papel fundamental:
A figura abaixo mostra que em diferentes frequências, o modelo também pode alcançar a "compreensão":
Perguntas abertas
Agora, embora tenhamos uma compreensão sólida de como as MLPs de camada única resolvem a adição modular e por que ela surge durante o treinamento, ainda existem muitas questões interessantes em aberto em termos de memória e generalização.
**Qual modelo é mais restrito? **
De um modo geral, a queda de peso pode de fato guiar vários modelos para evitar a memorização de dados de treinamento. Outras técnicas que ajudam a evitar o overfitting incluem dropout, modelos de downsizing e até mesmo algoritmos de otimização numericamente instáveis. Esses métodos interagem de maneiras não lineares complexas, por isso é difícil prever a priori qual método acabará induzindo à generalização.
Além disso, diferentes hiperparâmetros tornariam a melhoria menos abrupta.
** Por que a memorização é mais fácil do que a generalização? **
Uma teoria é que pode haver muito mais maneiras de memorizar o conjunto de treinamento do que generalizar. Portanto, estatisticamente, a memorização deve ser mais provável de acontecer primeiro, especialmente no caso de pouca ou nenhuma regularização. Técnicas de regularização, como decaimento de peso, favorecem certas soluções, por exemplo, favorecendo soluções "esparsas" em vez de "densas".
A pesquisa mostrou que a generalização está associada a representações bem estruturadas. No entanto, esta não é uma condição necessária; algumas variantes MLP sem entradas simétricas aprendem menos representações "circulares" ao resolver a adição modular. A equipe de pesquisa também descobriu que uma representação bem estruturada não é condição suficiente para a generalização. Este pequeno modelo (treinado sem decaimento de peso) começa a generalizar e então passa a usar memórias incorporadas recorrentemente.
Como você pode ver na figura abaixo, sem queda de peso, o modelo de memória pode aprender pesos maiores para reduzir a perda.
É até possível encontrar os hiperparâmetros onde o modelo começa a generalizar, depois alternar para a memória e voltar para generalizar.
**E os modelos maiores? **
Compreender a solução para a adição modular não é trivial. Temos alguma esperança de entender modelos maiores? Neste caminho você pode precisar de:
Treine modelos mais simples com viés mais indutivo e menos partes móveis.
Use-os para explicar partes intrigantes de como funcionam os modelos maiores.
Repita conforme necessário.
A equipe de pesquisa acredita que esta pode ser uma maneira de entender melhor os grandes modelos de forma eficiente e que, com o tempo, essa abordagem mecanizada da interpretabilidade pode ajudar a identificar padrões que permitem que as redes neurais aprendam. A revelação algorítmica se torna fácil e até automatizada.
Para mais detalhes, leia o texto original.
Links originais:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Google: Modelos grandes não só têm a capacidade de emergir, mas também têm a capacidade de "compreender" após um longo tempo de treinamento
Em 2021, os pesquisadores fizeram uma descoberta incrível ao treinar uma série de modelos em miniatura, ou seja, após um longo período de treinamento, haverá uma mudança no modelo, de apenas "memorizar dados de treinamento" no início, para mudar para nunca visto antes.Os dados também exibem fortes capacidades de generalização.
Este fenômeno é chamado de "grokking". Conforme mostrado na figura abaixo, depois que o modelo ajustar os dados de treinamento por um longo tempo, o fenômeno de "grokking" aparecerá repentinamente.
Para entender melhor esse problema, os pesquisadores do Google neste artigo escreveram um blog, tentando descobrir o verdadeiro motivo do súbito fenômeno de "compreensão" de modelos grandes.
Os pesos do modelo MLP são mostrados na figura abaixo.Verifica-se que os pesos do modelo são muito ruidosos a princípio, mas conforme o tempo aumenta, eles começam a apresentar periodicidade.
Experimente com 01 sequência
Para saber se o modelo estava generalizando ou memorizando, o estudo treinou o modelo para prever se havia um número ímpar de 1s nos três primeiros dígitos de uma sequência aleatória de 30 uns e zeros. Por exemplo, 000110010110001010111001001011 é 0 e 010110010110001010111001001011 é 1. Este é basicamente um problema XOR um pouco mais complicado com algum ruído interferente. Se o modelo estiver generalizando, ele deve usar apenas os três primeiros dígitos da sequência; se o modelo estiver memorizando os dados de treinamento, ele também usará os dígitos subsequentes.
O modelo usado neste estudo é um MLP de camada única treinado em lotes fixos de 1200 sequências. A princípio, apenas a precisão do treinamento melhora, ou seja, o modelo se lembra dos dados de treinamento. Assim como na aritmética modular, a precisão do teste é de natureza estocástica, aumentando acentuadamente à medida que o modelo aprende uma solução geral.
Por que isso acontece pode ser mais facilmente entendido com o exemplo simples do problema da sequência 01. A razão é que o modelo faz duas coisas durante o treinamento: minimizar a perda e a queda de peso. Na verdade, a perda de treinamento aumenta um pouco antes da generalização do modelo, pois ele troca a perda associada à saída do rótulo correto para pesos mais baixos.
**Quando ocorreu o fenômeno da "compreensão"? **
Vale a pena notar que "grokking" é um fenômeno acidental - se o tamanho do modelo, queda de peso, tamanho dos dados e outros hiperparâmetros não forem apropriados, o fenômeno "grokking" desaparecerá. Se os pesos diminuírem muito pouco, o modelo será superajustado aos dados de treinamento. Se os pesos diminuírem muito, o modelo não será capaz de aprender nada.
Abaixo, o estudo treina mais de 1.000 modelos nas tarefas 1 e 0 usando diferentes hiperparâmetros. O processo de treinamento é ruidoso, então nove modelos são treinados para cada conjunto de hiperparâmetros. Isso mostra que apenas dois tipos de modelos têm fenômeno de "compreensão", azul e amarelo.
** Adição modular com cinco neurônios **
A adição de módulo a+b mod 67 é periódica, se a soma for superior a 67, a resposta produzirá um fenômeno de envolvimento, que pode ser representado por um círculo. Para simplificar o problema, este estudo constrói uma matriz de imersão, usando cos e sin para colocar aeb no círculo, expressa na seguinte forma.
proximo é
Perguntas abertas
Agora, embora tenhamos uma compreensão sólida de como as MLPs de camada única resolvem a adição modular e por que ela surge durante o treinamento, ainda existem muitas questões interessantes em aberto em termos de memória e generalização.
**Qual modelo é mais restrito? **
De um modo geral, a queda de peso pode de fato guiar vários modelos para evitar a memorização de dados de treinamento. Outras técnicas que ajudam a evitar o overfitting incluem dropout, modelos de downsizing e até mesmo algoritmos de otimização numericamente instáveis. Esses métodos interagem de maneiras não lineares complexas, por isso é difícil prever a priori qual método acabará induzindo à generalização.
Além disso, diferentes hiperparâmetros tornariam a melhoria menos abrupta.
Uma teoria é que pode haver muito mais maneiras de memorizar o conjunto de treinamento do que generalizar. Portanto, estatisticamente, a memorização deve ser mais provável de acontecer primeiro, especialmente no caso de pouca ou nenhuma regularização. Técnicas de regularização, como decaimento de peso, favorecem certas soluções, por exemplo, favorecendo soluções "esparsas" em vez de "densas".
A pesquisa mostrou que a generalização está associada a representações bem estruturadas. No entanto, esta não é uma condição necessária; algumas variantes MLP sem entradas simétricas aprendem menos representações "circulares" ao resolver a adição modular. A equipe de pesquisa também descobriu que uma representação bem estruturada não é condição suficiente para a generalização. Este pequeno modelo (treinado sem decaimento de peso) começa a generalizar e então passa a usar memórias incorporadas recorrentemente.
Como você pode ver na figura abaixo, sem queda de peso, o modelo de memória pode aprender pesos maiores para reduzir a perda.
Compreender a solução para a adição modular não é trivial. Temos alguma esperança de entender modelos maiores? Neste caminho você pode precisar de:
Treine modelos mais simples com viés mais indutivo e menos partes móveis.
Use-os para explicar partes intrigantes de como funcionam os modelos maiores.
Repita conforme necessário.
A equipe de pesquisa acredita que esta pode ser uma maneira de entender melhor os grandes modelos de forma eficiente e que, com o tempo, essa abordagem mecanizada da interpretabilidade pode ajudar a identificar padrões que permitem que as redes neurais aprendam. A revelação algorítmica se torna fácil e até automatizada.
Para mais detalhes, leia o texto original.
Links originais: