Evaluasi menyeluruh terhadap keandalan model GPT: Keuntungan dan risiko potensial yang berdampingan

robot
Pembuatan abstrak sedang berlangsung

Penilaian Menyeluruh Terhadap Keandalan Model GPT

Seberapa kredibel model transformer pra-latih generatif (GPT)? Untuk menjawab pertanyaan ini, sebuah tim yang terdiri dari beberapa universitas dan lembaga penelitian terkenal telah merilis platform evaluasi kredibilitas model bahasa besar (LLMs) dan dijelaskan secara rinci dalam makalah terbaru "DecodingTrust: Evaluasi Komprehensif terhadap Kredibilitas Model GPT".

Tim penelitian menemukan beberapa masalah penting yang terkait dengan kredibilitas. Misalnya, model GPT rentan terhadap misinformasi, menghasilkan output yang beracun dan bias, serta membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 biasanya lebih dapat diandalkan daripada GPT-3.5 dalam pengujian standar, saat menghadapi sistem atau prompt yang dirancang dengan jahat, GPT-4 justru lebih rentan terhadap serangan, yang mungkin disebabkan oleh fakta bahwa GPT-4 lebih ketat mengikuti instruksi yang menyesatkan.

Pekerjaan ini menunjukkan evaluasi komprehensif tentang kredibilitas model GPT, mengungkapkan beberapa kesenjangan kredibilitas yang penting. Tim peneliti telah membagikan hasil penelitian dengan pihak-pihak terkait agar dapat segera menangani masalah potensial. Tujuan mereka adalah mendorong lebih banyak peneliti untuk melanjutkan penelitian lebih dalam berdasarkan ini, sehingga dapat mencegah pelaku buruk memanfaatkan celah ini untuk menyebabkan kerugian.

Perspektif Keandalan Model Bahasa

Tim penelitian melakukan evaluasi komprehensif terhadap model GPT dari delapan sudut pandang yang berbeda, mencakup berbagai skenario konstruksi, tugas, metrik, dan dataset. Tujuan utama mereka adalah untuk mengevaluasi kinerja model GPT dari berbagai perspektif kredibilitas, serta kemampuannya untuk beradaptasi dalam lingkungan yang bersifat antagonis.

Misalnya, untuk menilai ketahanan GPT-3.5 dan GPT-4 terhadap serangan adversarial teks, tim peneliti membangun tiga skenario evaluasi:

  1. Evaluasi dilakukan pada standar referensi AdvGLUE, menggunakan deskripsi tugas nihil.
  2. Evaluasi pada benchmark AdvGLUE, berikan berbagai instruksi tugas yang bersifat panduan dan desain petunjuk sistem.
  3. Evaluasi teks adversarial yang menantang yang dihasilkan oleh tim penelitian AdvGLUE++

Temuan Utama DecodingTrust

Penelitian menemukan beberapa keuntungan dan ancaman sebelumnya yang tidak diungkapkan tentang model bahasa besar dalam hal keandalan.

Dalam hal ketahanan model terhadap demonstrasi adversarial, GPT-3.5 dan GPT-4 tidak akan terganggu oleh contoh kontra-faktual yang ditambahkan dalam demonstrasi, bahkan dapat mengambil manfaat darinya. Namun, demonstrasi anti-penipuan mungkin menyesatkan model-model ini untuk membuat prediksi yang salah terhadap input kontra-faktual, terutama ketika demonstrasi kontra-faktual dekat dengan input pengguna. GPT-4 lebih mudah terpengaruh dalam hal ini dibandingkan dengan GPT-3.5.

Dalam hal toksisitas dan bias, kedua model GPT menunjukkan deviasi yang tidak signifikan pada sebagian besar tema stereotip di bawah sistem prompt yang benign dan tanpa tujuan. Namun, di bawah sistem prompt yang menyesatkan, mereka dapat "tertipu" untuk setuju dengan konten yang bias. GPT-4 lebih mudah terpengaruh oleh sistem prompt menyesatkan yang ditargetkan dibandingkan GPT-3.5. Bias model juga tergantung pada kelompok populasi dan tema stereotip yang disebutkan dalam prompt pengguna.

Dalam masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dari data pelatihan, terutama dalam beberapa situasi tertentu. GPT-4 berkinerja lebih baik dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model menunjukkan ketahanan yang relatif baik saat menghadapi beberapa jenis informasi pribadi. Namun, dalam kondisi tertentu, kedua model dapat membocorkan berbagai jenis informasi pribadi.

Secara keseluruhan, penelitian ini memberikan wawasan penting tentang keandalan model GPT, sekaligus mengungkap beberapa risiko dan tantangan potensial. Temuan ini memiliki signifikansi penting untuk lebih meningkatkan dan menyempurnakan model bahasa besar, serta memberikan arahan untuk penelitian di masa depan.

GPT4.17%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 3
  • Posting ulang
  • Bagikan
Komentar
0/400
CryptoMotivatorvip
· 17jam yang lalu
Model besar juga hanya pada level ini
Lihat AsliBalas0
SingleForYearsvip
· 17jam yang lalu
GPT juga tidak dapat diandalkan
Lihat AsliBalas0
SneakyFlashloanvip
· 18jam yang lalu
Disarankan untuk tidak terlalu mempercayai apa yang dikatakannya.
Lihat AsliBalas0
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)