ما هو مستوى موثوقية نموذج التحويل المدرب مسبقًا (GPT)؟ للإجابة على هذا السؤال، أصدرت مجموعة من عدة جامعات ومؤسسات بحثية معروفة منصة تقييم موثوقية شاملة لنماذج اللغة الكبيرة (LLMs)، وتم تقديم تفاصيلها في الورقة البحثية الأخيرة "DecodingTrust: تقييم شامل لموثوقية نموذج GPT".
وجد فريق البحث بعض المشكلات المهمة المتعلقة بالموثوقية. على سبيل المثال، من السهل تضليل نموذج GPT، مما يؤدي إلى إنتاج مخرجات سامة ومتحيزة، وكشف معلومات خاصة من بيانات التدريب وسجل المحادثات. من المثير للاهتمام أنه على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة أنظمة أو تلميحات مصممة بشكل خبيث، وقد يكون ذلك لأن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.
تظهر هذه الدراسة تقييمًا شاملًا لموثوقية نموذج GPT، وكشفت عن بعض الفجوات الرئيسية في الموثوقية. وقد شارك فريق البحث النتائج مع الأطراف المعنية لمعالجة القضايا المحتملة في الوقت المناسب. هدفهم هو تشجيع المزيد من الباحثين على الاستمرار في هذا المجال، وبالتالي منع الجهات الفاعلة الضارة من استغلال هذه الثغرات وإحداث الضرر.
وجهة نظر موثوقية نموذج اللغة
قيم فريق البحث نموذج GPT من زوايا مختلفة، حيث غطت التقييمات مشاهد بناء متنوعة، ومهام، ومؤشرات، ومجموعات بيانات. كان الهدف الرئيسي هو تقييم أداء نموذج GPT من وجهات نظر موثوقية مختلفة، بالإضافة إلى قدرته على التكيف في بيئات معادية.
على سبيل المثال، لتقييم قوة GPT-3.5 و GPT-4 ضد هجمات النصوص المضادة، قامت فريق البحث بإنشاء ثلاثة سيناريوهات تقييم:
التقييم على معايير AdvGLUE القياسية باستخدام وصف مهمة عدمي.
تقييم على معيار AdvGLUE ، تقديم أوصاف مهام توجيهية مختلفة وتصميم تلميحات النظام.
تقييم النصوص التنافسية الصعبة AdvGLUE++ التي أنشأها فريق البحث
الاكتشافات الرئيسية لـ DecodingTrust
أظهرت الدراسات بعض المزايا والتهديدات غير المعلنة سابقًا لنماذج اللغة الكبيرة من حيث الموثوقية.
فيما يتعلق بمتانة النماذج ضد العروض التقديمية الاستفزازية، لا يتم تضليل GPT-3.5 و GPT-4 بالأمثلة المضادة للحقائق المضافة إلى العرض، بل يمكن أن تستفيد منها حتى. ومع ذلك، فإن العروض التقديمية لمكافحة الاحتيال قد تضلل هذه النماذج في توقعاتها بشأن المدخلات المضادة للحقائق، خاصةً عندما تكون العروض المضادة للحقائق قريبة من مدخلات المستخدم. GPT-4 يتأثر بهذا أكثر من GPT-3.5.
فيما يتعلق بالتحيز والانحياز، فإن النموذجين GPT يختلفان قليلاً في انحياز معظم مواضيع الصور النمطية تحت مؤشرات النظام الجيدة وغير المستهدفة. ولكن تحت مؤشرات النظام المضللة، قد يتم "خداعهما" للموافقة على محتوى متحيز. النموذج GPT-4 أكثر عرضة للتأثر بمؤشرات النظام المضللة المستهدفة مقارنةً بـ GPT-3.5. كما يعتمد انحياز النموذج على الفئات السكانية ومواضيع الصور النمطية المذكورة في تلميحات المستخدم.
فيما يتعلق بمشكلة تسرب الخصوصية، وجدت الأبحاث أن نماذج GPT قد تسرب معلومات حساسة من بيانات التدريب، خاصة في بعض الحالات المحددة. يظهر GPT-4 أداءً أفضل في حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، لكن كلا النموذجين يظهران قوة نسبية عند مواجهة أنواع معينة من المعلومات الشخصية. ومع ذلك، في ظل ظروف معينة، قد يكشف كلا النموذجين عن أنواع مختلفة من المعلومات الشخصية.
بشكل عام، تقدم هذه الدراسة رؤى مهمة حول موثوقية نماذج GPT، كما تكشف عن بعض المخاطر والتحديات المحتملة. هذه الاكتشافات لها أهمية كبيرة في تحسين وتطوير نماذج اللغة الكبيرة، كما تحدد الاتجاهات للأبحاث المستقبلية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تقييم شامل لموثوقية نموذج GPT: المزايا والمخاطر المحتملة متعايشة
تقييم شامل لمصداقية نموذج GPT
ما هو مستوى موثوقية نموذج التحويل المدرب مسبقًا (GPT)؟ للإجابة على هذا السؤال، أصدرت مجموعة من عدة جامعات ومؤسسات بحثية معروفة منصة تقييم موثوقية شاملة لنماذج اللغة الكبيرة (LLMs)، وتم تقديم تفاصيلها في الورقة البحثية الأخيرة "DecodingTrust: تقييم شامل لموثوقية نموذج GPT".
وجد فريق البحث بعض المشكلات المهمة المتعلقة بالموثوقية. على سبيل المثال، من السهل تضليل نموذج GPT، مما يؤدي إلى إنتاج مخرجات سامة ومتحيزة، وكشف معلومات خاصة من بيانات التدريب وسجل المحادثات. من المثير للاهتمام أنه على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة أنظمة أو تلميحات مصممة بشكل خبيث، وقد يكون ذلك لأن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.
تظهر هذه الدراسة تقييمًا شاملًا لموثوقية نموذج GPT، وكشفت عن بعض الفجوات الرئيسية في الموثوقية. وقد شارك فريق البحث النتائج مع الأطراف المعنية لمعالجة القضايا المحتملة في الوقت المناسب. هدفهم هو تشجيع المزيد من الباحثين على الاستمرار في هذا المجال، وبالتالي منع الجهات الفاعلة الضارة من استغلال هذه الثغرات وإحداث الضرر.
وجهة نظر موثوقية نموذج اللغة
قيم فريق البحث نموذج GPT من زوايا مختلفة، حيث غطت التقييمات مشاهد بناء متنوعة، ومهام، ومؤشرات، ومجموعات بيانات. كان الهدف الرئيسي هو تقييم أداء نموذج GPT من وجهات نظر موثوقية مختلفة، بالإضافة إلى قدرته على التكيف في بيئات معادية.
على سبيل المثال، لتقييم قوة GPT-3.5 و GPT-4 ضد هجمات النصوص المضادة، قامت فريق البحث بإنشاء ثلاثة سيناريوهات تقييم:
الاكتشافات الرئيسية لـ DecodingTrust
أظهرت الدراسات بعض المزايا والتهديدات غير المعلنة سابقًا لنماذج اللغة الكبيرة من حيث الموثوقية.
فيما يتعلق بمتانة النماذج ضد العروض التقديمية الاستفزازية، لا يتم تضليل GPT-3.5 و GPT-4 بالأمثلة المضادة للحقائق المضافة إلى العرض، بل يمكن أن تستفيد منها حتى. ومع ذلك، فإن العروض التقديمية لمكافحة الاحتيال قد تضلل هذه النماذج في توقعاتها بشأن المدخلات المضادة للحقائق، خاصةً عندما تكون العروض المضادة للحقائق قريبة من مدخلات المستخدم. GPT-4 يتأثر بهذا أكثر من GPT-3.5.
فيما يتعلق بالتحيز والانحياز، فإن النموذجين GPT يختلفان قليلاً في انحياز معظم مواضيع الصور النمطية تحت مؤشرات النظام الجيدة وغير المستهدفة. ولكن تحت مؤشرات النظام المضللة، قد يتم "خداعهما" للموافقة على محتوى متحيز. النموذج GPT-4 أكثر عرضة للتأثر بمؤشرات النظام المضللة المستهدفة مقارنةً بـ GPT-3.5. كما يعتمد انحياز النموذج على الفئات السكانية ومواضيع الصور النمطية المذكورة في تلميحات المستخدم.
فيما يتعلق بمشكلة تسرب الخصوصية، وجدت الأبحاث أن نماذج GPT قد تسرب معلومات حساسة من بيانات التدريب، خاصة في بعض الحالات المحددة. يظهر GPT-4 أداءً أفضل في حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، لكن كلا النموذجين يظهران قوة نسبية عند مواجهة أنواع معينة من المعلومات الشخصية. ومع ذلك، في ظل ظروف معينة، قد يكشف كلا النموذجين عن أنواع مختلفة من المعلومات الشخصية.
بشكل عام، تقدم هذه الدراسة رؤى مهمة حول موثوقية نماذج GPT، كما تكشف عن بعض المخاطر والتحديات المحتملة. هذه الاكتشافات لها أهمية كبيرة في تحسين وتطوير نماذج اللغة الكبيرة، كما تحدد الاتجاهات للأبحاث المستقبلية.