Google: Büyük modeller sadece ortaya çıkma yeteneğine sahip değil, aynı zamanda uzun bir eğitim süresinden sonra "anlama" yeteneğine de sahip

2021'de araştırmacılar, bir dizi minyatür modeli eğitirken inanılmaz bir keşifte bulundular, yani uzun bir eğitim süresinden sonra, modelde başlangıçta yalnızca "eğitim verilerini ezberlemek"ten, hiçbir zaman değişmeyecek şekilde bir değişiklik olacak. Veriler ayrıca güçlü genelleme yetenekleri sergiliyor.

Bu fenomene "grokking" denir.Aşağıdaki şekilde gösterildiği gibi, model eğitim verilerine uzun süre uyduktan sonra, "grokking" fenomeni aniden ortaya çıkacaktır.

Minyatür model bu özelliğe sahip olduğuna göre, daha karmaşık olan model, daha uzun bir eğitim sürecinden sonra aniden "anlama" mı gösterecek? Son zamanlarda, büyük dil modelleri (LLM'ler) hızla gelişti. Dünya hakkında zengin bir anlayışa sahip görünüyorlar. Birçok kişi, LLM'lerin sadece ezberlenmiş eğitim içeriğini tekrar ettiğini düşünüyor. Bu ifade ne kadar doğru? LLM'lerin bellek çıktısı aldığına nasıl karar verebiliriz? veya girdi verilerine iyi bir genelleme yapıyor mu?

Bu sorunu daha iyi anlamak için Google'dan araştırmacılar bu makalede bir blog yazarak büyük modellerin aniden ortaya çıkan "kavrama" olgusunun gerçek nedenini bulmaya çalıştılar.

Bu makale minyatür modelin eğitim dinamikleri ile başlıyor.24 nöronlu tek katmanlı bir MLP tasarladılar ve onları modüler toplama görevini yapmayı öğrenmek için eğittiler.Yalnızca bu görevin çıktısının periyodik olduğunu bilmemiz gerekiyor. form (a + b) mod n.

MLP modeline ait ağırlıklar aşağıdaki şekilde gösterilmiştir.Model ağırlıklarının ilk başlarda çok gürültülü olduğu fakat zaman arttıkça periyodiklik göstermeye başladığı görülmüştür.

Bireysel nöronların ağırlıkları görselleştirilirse, bu periyodiklik daha da belirgindir:

Periyodikliği hafife almayın Ağırlıkların periyodikliği, modelin belirli bir matematiksel yapıyı öğrendiğini gösterir, bu da modelin hafıza verisinden genelleme yeteneğine dönüşmesinin anahtarıdır. Modelin neden veri modelini ezberlemekten veri modelini genelleştirmeye geçtiğine dair bu geçiş birçok kişinin kafasını karıştırıyor.

01 dizisi ile deneme

Modelin genelleme mi yoksa ezberleme mi olduğunu belirlemek için çalışma, modeli 30 1 ve 0'dan oluşan rastgele bir dizinin ilk üç basamağında 1'lerin tek sayı olup olmadığını tahmin edecek şekilde eğitti. Örneğin, 000110010110001010111001001011, 0'dır ve 010110010110001010111001001011, 1'dir. Bu, temel olarak, biraz parazit yapan, biraz daha hileli bir XOR problemidir. Model genelleme yapıyorsa, dizinin yalnızca ilk üç basamağını kullanmalıdır; model eğitim verilerini ezberliyorsa sonraki basamakları da kullanacaktır.

Bu çalışmada kullanılan model, 1200 dizilik sabit gruplar üzerinde eğitilmiş tek katmanlı bir MLP'dir. İlk başta, yalnızca eğitim doğruluğu gelişir, yani model eğitim verilerini hatırlar. Modüler aritmetikte olduğu gibi, test doğruluğu doğası gereği stokastiktir ve model genel bir çözümü öğrendikçe keskin bir şekilde artar.

Bunun neden olduğu 01 dizi probleminin basit örneği ile daha kolay anlaşılabilir. Bunun nedeni, modelin eğitim sırasında iki şey yapmasıdır: kaybı en aza indirmek ve kilo kaybını en aza indirmek. Eğitim kaybı, daha düşük ağırlıklar için doğru etiketi çıkarmakla ilişkili kaybı takas ettiğinden, model genelleştirmeden önce aslında biraz artar.

Test kaybındaki keskin düşüş, modelin aniden genelleşiyormuş gibi görünmesine neden olur, ancak eğitim sırasında modelin ağırlıklarına bakarsanız, çoğu model iki çözüm arasında sorunsuz bir şekilde enterpolasyon yapar. Hızlı genelleme, sonraki dikkat dağıtıcı basamaklara bağlı son ağırlık, ağırlık azalması yoluyla budandığında gerçekleşir.

**"Anlama" olgusu ne zaman ortaya çıktı? **

"Grkking"in tesadüfi bir fenomen olduğunu belirtmekte fayda var - eğer model boyutu, ağırlık azalması, veri boyutu ve diğer hiperparametreler uygun değilse, "grokking" fenomeni ortadan kalkacaktır. Ağırlıklar çok az azalırsa, model eğitim verilerine gereğinden fazla uyar. Ağırlıklar çok fazla düşerse, model hiçbir şey öğrenemez.

Aşağıda, çalışma, farklı hiperparametreler kullanarak 1 ve 0 görevlerinde 1000'den fazla modeli eğitiyor. Eğitim süreci gürültülüdür, bu nedenle her bir hiperparametre seti için dokuz model eğitilir. Mavi ve sarı olmak üzere sadece iki tür modelin "kavrama" olgusuna sahip olduğunu gösterir.

** Beş nöronlu modüler ekleme **

Modülo ekleme a+b mod 67 periyodiktir, toplam 67'yi aşarsa, cevap bir daire ile temsil edilebilen bir sarma fenomeni üretecektir. Problemi basitleştirmek için, bu çalışma a ve b'yi daireye yerleştirmek için cos⁡ ve sin⁡ kullanarak aşağıdaki şekilde ifade edilen bir gömme matrisi oluşturur.

Modelin çözümü sadece 5 nöronla mükemmel ve doğru bir şekilde bulduğu ortaya çıktı:

Eğitilmiş parametrelere bakıldığında, araştırma ekibi tüm nöronların kabaca eşit normlara yakınsadığını buldu. Doğrudan cos⁡ ve sin⁡ bileşenlerini çizerseniz, temel olarak bir daire üzerinde eşit olarak dağılırlar.

sıradaki

Periyodisite olmadan sıfırdan eğitilen model, birçok farklı frekansa sahiptir.

Çalışma, frekansları ayırmak için Ayrık Fourier Dönüşümü'nü (DFT) kullandı. Tıpkı 1'ler ve 0'lar görevinde olduğu gibi, yalnızca birkaç ağırlık önemli bir rol oynar:

Aşağıdaki şekil, modelin farklı frekanslarda "anlamayı" da başarabildiğini göstermektedir:

Açık Sorular

Şimdi, tek katmanlı MLP'lerin modüler toplamayı nasıl çözdüğüne ve eğitim sırasında neden ortaya çıktığına dair sağlam bir anlayışa sahip olsak da, hafıza ve genelleme açısından hala birçok ilginç açık soru var.

**Hangi model daha kısıtlı? **

Genel olarak konuşursak, kilo kaybı, eğitim verilerini ezberlemekten kaçınmak için gerçekten de çeşitli modellere rehberlik edebilir. Aşırı uyumdan kaçınmaya yardımcı olan diğer teknikler arasında bırakma, küçültme modelleri ve hatta sayısal olarak kararsız optimizasyon algoritmaları bulunur. Bu yöntemler karmaşık doğrusal olmayan yollarla etkileşime girer, bu nedenle hangi yöntemin sonunda genellemeye neden olacağını önceden tahmin etmek zordur.

Ayrıca, farklı hiperparametreler, iyileşmeyi daha az ani hale getirecektir.

**Ezberlemek neden genellemeye göre daha kolaydır? **

Bir teori, eğitim setini ezberlemenin genelleme yapmaktan çok daha fazla yolu olabileceğidir. Bu nedenle, istatistiksel olarak, özellikle düzenlileştirmenin olmadığı veya çok az olduğu durumlarda ezberlemenin ilk önce gerçekleşmesi daha olasıdır. Ağırlık azaltma gibi düzenleme teknikleri belirli çözümleri tercih eder, örneğin "yoğun" çözümler yerine "seyrek" çözümleri tercih eder.

Araştırmalar, genellemenin iyi yapılandırılmış temsillerle ilişkili olduğunu göstermiştir. Ancak bu gerekli bir koşul değildir; simetrik girişleri olmayan bazı MLP varyantları, modüler toplamayı çözerken daha az "dairesel" temsiller öğrenir. Araştırma ekibi ayrıca, iyi yapılandırılmış bir temsilin genelleme için yeterli bir koşul olmadığını da buldu. Bu küçük model (ağırlık azaltmadan eğitildi) genelleştirmeye başlar ve ardından tekrarlayan gömülü anıları kullanmaya geçer.

Aşağıdaki şekilde görebileceğiniz gibi, ağırlık kaybı olmadan, bellek modeli kaybı azaltmak için daha büyük ağırlıkları öğrenebilir.

Hatta modelin genellemeye başladığı hiperparametreleri bulmak, ardından belleğe geçmek ve ardından genelleştirmek için geri dönmek mümkündür.

**Ya daha büyük modeller? **

Modüler eklemeye yönelik çözümü anlamak önemsiz değildir. Daha büyük modelleri anlama umudumuz var mı? Bu yolda ihtiyacınız olabilir:

  1. Daha endüktif eğilim ve daha az hareketli parça ile daha basit modeller eğitin.

  2. Daha büyük modellerin nasıl çalıştığının şaşırtıcı kısımlarını açıklamak için bunları kullanın.

  3. Gerektiği kadar tekrarlayın.

Araştırma ekibi, bunun büyük modelleri verimli bir şekilde daha iyi anlamanın bir yolu olabileceğine ve zaman içinde yorumlanabilirliğe yönelik bu mekanize yaklaşımın, sinir ağlarının öğrenmesine olanak tanıyan kalıpların belirlenmesine yardımcı olabileceğine inanıyor. Algoritmik açıklama kolay ve hatta otomatik hale geliyor.

Daha fazla ayrıntı için lütfen orijinal metni okuyunuz.

Orijinal bağlantı:

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)