في عام 2021 ، توصل الباحثون إلى اكتشاف مذهل عند تدريب سلسلة من النماذج المصغرة ، أي بعد فترة طويلة من التدريب ، سيكون هناك تغيير في النموذج ، من "حفظ بيانات التدريب" فقط في البداية ، إلى التغيير إلى أبدًا. كما رأينا من قبل ، تُظهر البيانات أيضًا قدرات تعميم قوية.
هذه الظاهرة تسمى "grokking" وكما هو مبين في الشكل أدناه ، بعد أن يناسب النموذج بيانات التدريب لفترة طويلة ، ستظهر ظاهرة "grokking" فجأة.
بما أن النموذج المصغر له هذه الخاصية ، فهل سيظهر النموذج الأكثر تعقيدًا فجأة "فهم" بعد فترة تدريب أطول؟ في الآونة الأخيرة ، تطورت نماذج اللغة الكبيرة (LLMs) بسرعة. يبدو أن لديهم فهمًا ثريًا للعالم. يعتقد الكثير من الناس أن LLMs تقوم فقط بتكرار محتوى التدريب المحفوظ. ما مدى صحة هذه العبارة؟ كيف يمكننا الحكم على أن LLMs تقوم بإخراج الذاكرة المحتوى؟ ، أم أنه يعمم جيدًا على بيانات الإدخال؟
من أجل فهم هذه المشكلة بشكل أفضل ، كتب باحثون من Google في هذا المقال مدونة ، في محاولة لمعرفة السبب الحقيقي لظاهرة "الفهم" المفاجئة للنماذج الكبيرة.
تبدأ هذه المقالة بديناميكيات التدريب للنموذج المصغر ، حيث قاموا بتصميم MLP أحادي الطبقة يحتوي على 24 خلية عصبية ودربتهم على تعلم القيام بمهمة الإضافة المعيارية. نحتاج فقط إلى معرفة أن ناتج هذه المهمة دوري. النموذج (أ + ب) تعديل ن.
أوزان نموذج MLP موضحة في الشكل أدناه ، ووجد أن أوزان النموذج صاخبة جدًا في البداية ، ولكن مع زيادة الوقت ، تبدأ في إظهار الدورية.
تكون هذه الدورية أكثر وضوحًا إذا تم تصور أوزان الخلايا العصبية الفردية:
لا تقلل من أهمية دورية الأوزان تشير دورية الأوزان إلى أن النموذج يتعلم بنية رياضية معينة ، وهو أيضًا مفتاح تحويل النموذج من بيانات الذاكرة إلى القدرة على التعميم. كثير من الناس مرتبكون بسبب هذا الانتقال ، لماذا يتغير النموذج من حفظ نمط البيانات إلى تعميم نمط البيانات.
** تجربة مع تسلسل 01 **
لمعرفة ما إذا كان النموذج يعمم أو يحفظ ، دربت الدراسة النموذج على التنبؤ بما إذا كان هناك عدد فردي من 1 في الأرقام الثلاثة الأولى من تسلسل عشوائي من 30 واحد وصفر. على سبيل المثال ، 000110010110001010111001001011 يساوي 0 و 010110010110001010111001001011 هو 1. هذه في الأساس مشكلة XOR أصعب قليلاً مع بعض الضوضاء المتداخلة. إذا كان النموذج معممًا ، فيجب أن يستخدم فقط الأرقام الثلاثة الأولى من التسلسل ؛ إذا كان النموذج يحفظ بيانات التدريب ، فسيستخدم أيضًا الأرقام اللاحقة.
النموذج المستخدم في هذه الدراسة هو MLP أحادي الطبقة تم تدريبه على دفعات ثابتة من 1200 تسلسل. في البداية ، تتحسن دقة التدريب فقط ، أي أن النموذج يتذكر بيانات التدريب. كما هو الحال مع الحساب النمطي ، تعد دقة الاختبار عشوائية بطبيعتها ، حيث ترتفع بشكل حاد عندما يتعلم النموذج حلاً عامًا.
يمكن فهم سبب حدوث ذلك بسهولة أكبر باستخدام مثال بسيط لمشكلة التسلسل 01. والسبب هو أن النموذج يقوم بأمرين أثناء التدريب: تقليل فقدان الوزن وتآكله. في الواقع ، تزداد خسارة التدريب قليلاً قبل أن يتعمم النموذج ، حيث يتم تداول الخسارة المرتبطة بإخراج التسمية الصحيحة للأوزان المنخفضة.
الانخفاض الحاد في خسارة الاختبار يجعل الأمر يبدو وكأن النموذج يتعمم فجأة ، ولكن إذا نظرت إلى أوزان النموذج أثناء التدريب ، فإن معظم النماذج تقحم بين الحلين بسلاسة. يحدث التعميم السريع عندما يتم تقليم الوزن الأخير المرتبط بأرقام مشتتة لاحقة من خلال تسوس الوزن.
** متى حدثت ظاهرة "الاستيعاب"؟ **
وتجدر الإشارة إلى أن "grokking" هي ظاهرة عرضية - إذا كان حجم النموذج ، واضمحلال الوزن ، وحجم البيانات والمعلمات الفائقة الأخرى غير مناسبة ، فستختفي ظاهرة "grokking". إذا كانت الأوزان تتحلل قليلاً ، فإن النموذج سوف يتناسب مع بيانات التدريب. إذا اضمحلت الأوزان كثيرًا ، فلن يتمكن النموذج من تعلم أي شيء.
أدناه ، تدرب الدراسة أكثر من 1000 نموذج على المهمتين 1 و 0 باستخدام معلمات تشعبية مختلفة. عملية التدريب صاخبة ، لذلك يتم تدريب تسعة نماذج لكل مجموعة من المعلمات الفائقة. يظهر أن هناك نوعين فقط من النماذج لديهما ظاهرة "الفهم" ، الأزرق والأصفر.
** إضافة معيارية بخمس خلايا عصبية **
تعد إضافة Modulo a + b mod 67 دورية ، إذا تجاوز المجموع 67 ، ستنتج الإجابة ظاهرة التفاف يمكن تمثيلها بدائرة. من أجل تبسيط المشكلة ، تُنشئ هذه الدراسة مصفوفة تضمين ، باستخدام cos و sin لوضع a و b على الدائرة ، معبرًا عنها بالصيغة التالية.
اتضح أن النموذج يجد الحل بشكل مثالي ودقيق باستخدام 5 خلايا عصبية فقط:
بالنظر إلى المعلمات المدربة ، وجد فريق البحث أن جميع الخلايا العصبية تقاربت إلى معايير متساوية تقريبًا. إذا قمت برسم مكوني cos و sin مباشرة ، فسيتم توزيعهما بشكل متساوٍ على دائرة.
التالي هو
، الذي يتم تدريبه من البداية بدون دورية مدمجة ، يحتوي النموذج على العديد من الترددات المختلفة.
استخدمت الدراسة تحويل فورييه المنفصل (DFT) لفصل الترددات. تمامًا كما هو الحال في مهمة 1 و 0 ، يلعب عدد قليل من الأوزان دورًا رئيسيًا:
يوضح الشكل أدناه أنه عند الترددات المختلفة ، يمكن للنموذج أيضًا تحقيق "الفهم":
أسئلة مفتوحة
الآن ، بينما لدينا فهم قوي لكيفية حل MLPs أحادية الطبقة الإضافة المعيارية ولماذا تنشأ أثناء التدريب ، لا يزال هناك العديد من الأسئلة المفتوحة المثيرة للاهتمام من حيث الذاكرة والتعميم.
** ما النموذج الأكثر تقييدًا؟ **
بشكل عام ، يمكن أن يؤدي تسوس الوزن بالفعل إلى توجيه نماذج مختلفة لتجنب حفظ بيانات التدريب. التقنيات الأخرى التي تساعد في تجنب فرط التخصيص تشمل التسرب ، ونماذج تصغير الحجم ، وحتى خوارزميات التحسين غير المستقرة عدديًا. تتفاعل هذه الطرق بطرق غير خطية معقدة ، لذلك من الصعب التنبؤ مسبقًا بالطريقة التي ستؤدي في النهاية إلى التعميم.
أيضًا ، من شأن المعلمات الفائقة المختلفة أن تجعل التحسن أقل حدة.
** لماذا الحفظ أسهل من التعميم؟ **
تقول إحدى النظريات أنه قد يكون هناك العديد من الطرق لحفظ مجموعة التدريب أكثر من التعميم. لذلك ، إحصائيًا ، من المرجح أن يحدث الحفظ أولاً ، خاصةً في حالة عدم التنظيم أو القليل منه. تفضل تقنيات التنظيم مثل تناقص الوزن حلولًا معينة ، على سبيل المثال ، تفضيل الحلول "المتفرقة" على الحلول "الكثيفة".
أظهرت الأبحاث أن التعميم يرتبط بتمثيلات جيدة التنظيم. ومع ذلك ، هذا ليس شرطًا ضروريًا ؛ فبعض متغيرات MLP بدون مدخلات متماثلة تتعلم تمثيلات "دائرية" أقل عند حل الجمع المعياري. وجد فريق البحث أيضًا أن التمثيل الجيد التنظيم ليس شرطًا كافيًا للتعميم. يبدأ هذا النموذج الصغير (الذي تم تدريبه دون تدهور الوزن) في التعميم ثم يتحول إلى استخدام الذكريات المضمنة بشكل متكرر.
كما ترون في الشكل أدناه ، بدون تسوس الوزن ، يمكن لنموذج الذاكرة تعلم أوزان أكبر لتقليل الخسارة.
من الممكن أيضًا العثور على المعلمات الفائقة حيث يبدأ النموذج في التعميم ، ثم التبديل إلى الذاكرة ، ثم الرجوع مرة أخرى للتعميم.
** ماذا عن الطرز الأكبر؟ **
إن فهم حل الإضافة المعيارية ليس بالأمر الهين. هل لدينا أي أمل في فهم النماذج الأكبر؟ قد تحتاج في هذا المسار إلى:
تدريب نماذج أبسط مع مزيد من التحيز الاستقرائي وأجزاء متحركة أقل.
استخدمها لشرح الأجزاء المحيرة لكيفية عمل النماذج الأكبر.
كرر حسب الحاجة.
يعتقد فريق البحث أن هذا قد يكون وسيلة لفهم النماذج الكبيرة بشكل أفضل بكفاءة ، وأنه بمرور الوقت ، قد يساعد هذا النهج الآلي للتفسير في تحديد الأنماط التي تسمح للشبكات العصبية بتعلم الكشف الخوارزمي يصبح سهلاً وحتى آليًا.
لمزيد من التفاصيل ، يرجى قراءة النص الأصلي.
الرابط الأصلي:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
Google: لا تمتلك النماذج الكبيرة القدرة على الظهور فحسب ، بل تتمتع أيضًا بالقدرة على "الفهم" بعد فترة تدريب طويلة
في عام 2021 ، توصل الباحثون إلى اكتشاف مذهل عند تدريب سلسلة من النماذج المصغرة ، أي بعد فترة طويلة من التدريب ، سيكون هناك تغيير في النموذج ، من "حفظ بيانات التدريب" فقط في البداية ، إلى التغيير إلى أبدًا. كما رأينا من قبل ، تُظهر البيانات أيضًا قدرات تعميم قوية.
هذه الظاهرة تسمى "grokking" وكما هو مبين في الشكل أدناه ، بعد أن يناسب النموذج بيانات التدريب لفترة طويلة ، ستظهر ظاهرة "grokking" فجأة.
من أجل فهم هذه المشكلة بشكل أفضل ، كتب باحثون من Google في هذا المقال مدونة ، في محاولة لمعرفة السبب الحقيقي لظاهرة "الفهم" المفاجئة للنماذج الكبيرة.
أوزان نموذج MLP موضحة في الشكل أدناه ، ووجد أن أوزان النموذج صاخبة جدًا في البداية ، ولكن مع زيادة الوقت ، تبدأ في إظهار الدورية.
** تجربة مع تسلسل 01 **
لمعرفة ما إذا كان النموذج يعمم أو يحفظ ، دربت الدراسة النموذج على التنبؤ بما إذا كان هناك عدد فردي من 1 في الأرقام الثلاثة الأولى من تسلسل عشوائي من 30 واحد وصفر. على سبيل المثال ، 000110010110001010111001001011 يساوي 0 و 010110010110001010111001001011 هو 1. هذه في الأساس مشكلة XOR أصعب قليلاً مع بعض الضوضاء المتداخلة. إذا كان النموذج معممًا ، فيجب أن يستخدم فقط الأرقام الثلاثة الأولى من التسلسل ؛ إذا كان النموذج يحفظ بيانات التدريب ، فسيستخدم أيضًا الأرقام اللاحقة.
النموذج المستخدم في هذه الدراسة هو MLP أحادي الطبقة تم تدريبه على دفعات ثابتة من 1200 تسلسل. في البداية ، تتحسن دقة التدريب فقط ، أي أن النموذج يتذكر بيانات التدريب. كما هو الحال مع الحساب النمطي ، تعد دقة الاختبار عشوائية بطبيعتها ، حيث ترتفع بشكل حاد عندما يتعلم النموذج حلاً عامًا.
يمكن فهم سبب حدوث ذلك بسهولة أكبر باستخدام مثال بسيط لمشكلة التسلسل 01. والسبب هو أن النموذج يقوم بأمرين أثناء التدريب: تقليل فقدان الوزن وتآكله. في الواقع ، تزداد خسارة التدريب قليلاً قبل أن يتعمم النموذج ، حيث يتم تداول الخسارة المرتبطة بإخراج التسمية الصحيحة للأوزان المنخفضة.
** متى حدثت ظاهرة "الاستيعاب"؟ **
وتجدر الإشارة إلى أن "grokking" هي ظاهرة عرضية - إذا كان حجم النموذج ، واضمحلال الوزن ، وحجم البيانات والمعلمات الفائقة الأخرى غير مناسبة ، فستختفي ظاهرة "grokking". إذا كانت الأوزان تتحلل قليلاً ، فإن النموذج سوف يتناسب مع بيانات التدريب. إذا اضمحلت الأوزان كثيرًا ، فلن يتمكن النموذج من تعلم أي شيء.
أدناه ، تدرب الدراسة أكثر من 1000 نموذج على المهمتين 1 و 0 باستخدام معلمات تشعبية مختلفة. عملية التدريب صاخبة ، لذلك يتم تدريب تسعة نماذج لكل مجموعة من المعلمات الفائقة. يظهر أن هناك نوعين فقط من النماذج لديهما ظاهرة "الفهم" ، الأزرق والأصفر.
** إضافة معيارية بخمس خلايا عصبية **
تعد إضافة Modulo a + b mod 67 دورية ، إذا تجاوز المجموع 67 ، ستنتج الإجابة ظاهرة التفاف يمكن تمثيلها بدائرة. من أجل تبسيط المشكلة ، تُنشئ هذه الدراسة مصفوفة تضمين ، باستخدام cos و sin لوضع a و b على الدائرة ، معبرًا عنها بالصيغة التالية.
التالي هو
أسئلة مفتوحة
الآن ، بينما لدينا فهم قوي لكيفية حل MLPs أحادية الطبقة الإضافة المعيارية ولماذا تنشأ أثناء التدريب ، لا يزال هناك العديد من الأسئلة المفتوحة المثيرة للاهتمام من حيث الذاكرة والتعميم.
** ما النموذج الأكثر تقييدًا؟ **
بشكل عام ، يمكن أن يؤدي تسوس الوزن بالفعل إلى توجيه نماذج مختلفة لتجنب حفظ بيانات التدريب. التقنيات الأخرى التي تساعد في تجنب فرط التخصيص تشمل التسرب ، ونماذج تصغير الحجم ، وحتى خوارزميات التحسين غير المستقرة عدديًا. تتفاعل هذه الطرق بطرق غير خطية معقدة ، لذلك من الصعب التنبؤ مسبقًا بالطريقة التي ستؤدي في النهاية إلى التعميم.
أيضًا ، من شأن المعلمات الفائقة المختلفة أن تجعل التحسن أقل حدة.
تقول إحدى النظريات أنه قد يكون هناك العديد من الطرق لحفظ مجموعة التدريب أكثر من التعميم. لذلك ، إحصائيًا ، من المرجح أن يحدث الحفظ أولاً ، خاصةً في حالة عدم التنظيم أو القليل منه. تفضل تقنيات التنظيم مثل تناقص الوزن حلولًا معينة ، على سبيل المثال ، تفضيل الحلول "المتفرقة" على الحلول "الكثيفة".
أظهرت الأبحاث أن التعميم يرتبط بتمثيلات جيدة التنظيم. ومع ذلك ، هذا ليس شرطًا ضروريًا ؛ فبعض متغيرات MLP بدون مدخلات متماثلة تتعلم تمثيلات "دائرية" أقل عند حل الجمع المعياري. وجد فريق البحث أيضًا أن التمثيل الجيد التنظيم ليس شرطًا كافيًا للتعميم. يبدأ هذا النموذج الصغير (الذي تم تدريبه دون تدهور الوزن) في التعميم ثم يتحول إلى استخدام الذكريات المضمنة بشكل متكرر.
كما ترون في الشكل أدناه ، بدون تسوس الوزن ، يمكن لنموذج الذاكرة تعلم أوزان أكبر لتقليل الخسارة.
إن فهم حل الإضافة المعيارية ليس بالأمر الهين. هل لدينا أي أمل في فهم النماذج الأكبر؟ قد تحتاج في هذا المسار إلى:
تدريب نماذج أبسط مع مزيد من التحيز الاستقرائي وأجزاء متحركة أقل.
استخدمها لشرح الأجزاء المحيرة لكيفية عمل النماذج الأكبر.
كرر حسب الحاجة.
يعتقد فريق البحث أن هذا قد يكون وسيلة لفهم النماذج الكبيرة بشكل أفضل بكفاءة ، وأنه بمرور الوقت ، قد يساعد هذا النهج الآلي للتفسير في تحديد الأنماط التي تسمح للشبكات العصبية بتعلم الكشف الخوارزمي يصبح سهلاً وحتى آليًا.
لمزيد من التفاصيل ، يرجى قراءة النص الأصلي.
الرابط الأصلي: