Pertarungan seratus model di tengah gelombang AI: Daya Komputasi big pump, keuntungan sulit dicari

Kekacauan di Bidang AI: Satu Negara Satu Model, Hasil Panen Seratus Ribu Jin per Mu

Bulan lalu, industri AI mengalami "pertempuran hewan".

Di satu sisi ada Llama, yang sangat disukai oleh pengembang karena sifatnya yang open source. Setelah menganalisis makalah dan kode Llama, perusahaan listrik Jepang dengan cepat mengembangkan versi ChatGPT dalam bahasa Jepang, mengatasi masalah bottleneck Jepang di bidang AI.

Sisi lain adalah model besar bernama Falcon. Pada bulan Mei tahun ini, Falcon-40B diluncurkan, melampaui Llama dan menduduki puncak "Daftar Peringkat LLM Sumber Terbuka". Daftar ini dibuat oleh komunitas model sumber terbuka, yang menyediakan standar untuk mengevaluasi kemampuan LLM. Di peringkat, pada dasarnya Llama dan Falcon bergantian menduduki posisi teratas.

Setelah peluncuran Llama 2, keluarga Llama sempat mengungguli; tetapi pada awal September, Falcon meluncurkan versi 180B, sekali lagi mendapatkan peringkat yang lebih tinggi.

Menariknya, pengembang Falcon bukanlah perusahaan teknologi, melainkan sebuah lembaga penelitian inovasi teknologi di ibu kota UEA. Pejabat pemerintah menyatakan bahwa mereka terlibat dalam bidang ini untuk mengguncang pemain inti.

Hari setelah rilis versi 180B, Menteri Kecerdasan Buatan UEA terpilih dalam daftar "100 Orang Paling Berpengaruh di Bidang AI" versi Majalah Time; bersama dia, juga terpilih "Bapak AI" Hinton, Altman dari OpenAI, dan lainnya.

Saat ini, bidang AI telah memasuki fase persaingan banyak pihak: negara dan perusahaan yang kuat sedang membangun model bahasa besar mereka sendiri. Hanya di kawasan Teluk, ada lebih dari satu peserta. Pada bulan Agustus, Arab Saudi membeli lebih dari 3000 chip H100 untuk universitas dalam negeri, yang digunakan untuk melatih LLM.

Seorang investor pernah mengeluh: "Dulu meremehkan inovasi model bisnis internet, merasa tidak ada batasan: perang seratus grup, perang seratus mobil, perang seratus siaran; tidak menyangka bahwa kewirausahaan model besar teknologi keras masih merupakan perang seratus model..."

Bagaimana teknologi keras yang seharusnya memiliki hambatan tinggi, bisa menjadi bidang yang dapat diikuti oleh semua orang?

Transformer Menghancurkan Dunia

Baik perusahaan rintisan Amerika, raksasa teknologi China, maupun taipan minyak Timur Tengah, mereka dapat terjun ke bidang model besar berkat makalah terkenal itu: "Attention Is All You Need."

Pada tahun 2017, delapan ilmuwan komputer mempublikasikan algoritma Transformer dalam makalah ini. Makalah ini saat ini adalah makalah yang paling banyak dikutip ketiga dalam sejarah AI, munculnya Transformer telah memicu gelombang antusiasme AI ini.

Saat ini, semua model besar, termasuk seri GPT yang menggemparkan dunia, dibangun di atas dasar Transformer.

Sebelum ini, "mengajarkan mesin membaca" selalu menjadi tantangan akademis yang diakui. Berbeda dengan pengenalan gambar, saat membaca, manusia tidak hanya memperhatikan kata-kata dan kalimat yang sedang dibaca, tetapi juga menggabungkan konteks untuk memahami.

Jaringan saraf awal memiliki input yang independen satu sama lain, sehingga tidak dapat memahami teks panjang bahkan seluruh artikel, sehingga sering muncul beberapa hasil terjemahan yang konyol.

Pada tahun 2014, ilmuwan Google, Ilya, pertama kali mencapai terobosan. Dia menggunakan jaringan saraf berulang (RNN) untuk memproses bahasa alami, yang secara signifikan meningkatkan kinerja Google Translate.

RNN mengusulkan "desain sirkuler", yang memungkinkan setiap neuron menerima input saat ini serta input dari waktu sebelumnya, sehingga memiliki kemampuan "menggabungkan konteks".

Munculnya RNN telah memicu semangat penelitian di kalangan akademisi, penulis makalah Transformer, Ashish Vaswani, juga pernah melakukan penelitian mendalam. Namun, para pengembang segera menyadari bahwa RNN memiliki kekurangan yang serius:

Algoritma ini menggunakan perhitungan berurutan, meskipun telah menyelesaikan masalah konteks, tetapi efisiensi operasinya rendah, sulit untuk menangani banyak parameter.

Desain RNN yang rumit segera membuat Shazelle merasa bosan. Oleh karena itu, mulai tahun 2015, Shazelle dan tujuh rekan yang memiliki minat yang sama mulai mengembangkan alternatif untuk RNN, yang hasilnya adalah Transformer.

Dibandingkan dengan RNN, Transformer memiliki dua inovasi besar:

Pertama, posisi encoding menggantikan desain siklik RNN, memungkinkan perhitungan paralel, yang secara signifikan meningkatkan efisiensi pelatihan, sehingga dapat menangani data besar dan mendorong AI menuju era model besar; kedua, semakin memperkuat kemampuan untuk memahami konteks.

Transformer telah secara signifikan mengatasi berbagai kekurangan dan secara bertahap menjadi solusi utama di bidang NLP, dengan perasaan "Jika tidak ada Transformer, NLP akan selamanya seperti malam yang panjang." Bahkan Ilia pun meninggalkan RNN yang ia ciptakan dan beralih mendukung Transformer.

Dengan kata lain, Transformer adalah dasar dari semua model besar saat ini, yang mengubah model besar dari penelitian teoritis menjadi masalah rekayasa murni.

Pada tahun 2019, OpenAI mengembangkan GPT-2 berdasarkan Transformer, yang mengejutkan dunia akademik. Sebagai respons, Google dengan cepat meluncurkan AI yang lebih kuat, bernama Meena.

Dibandingkan dengan GPT-2, Meena tidak memiliki terobosan algoritma, hanya meningkatkan 8,5 kali jumlah parameter pelatihan dan 14 kali kekuatan komputasi. Penulis makalah Transformer, Shazeer, sangat terkejut dengan cara "penumpukan kekerasan" ini, segera menulis memo berjudul "Meena Menelan Dunia."

Kehadiran Transformer telah memperlambat inovasi algoritma dasar di dunia akademis secara signifikan. Elemen-elemen teknik seperti rekayasa data, skala komputasi, dan arsitektur model secara bertahap menjadi kunci dalam kompetisi AI, sehingga perusahaan teknologi dengan kemampuan teknis tertentu dapat mengembangkan model besar.

Oleh karena itu, ilmuwan komputer Andrew Ng menyatakan dalam pidatonya di Universitas Stanford: "AI adalah sekumpulan alat, termasuk pembelajaran terawasi, pembelajaran tidak terawasi, pembelajaran penguatan, serta kecerdasan buatan generatif saat ini. Semua ini adalah teknologi umum, mirip dengan listrik dan internet sebagai teknologi umum lainnya."

Meskipun OpenAI masih menjadi pemimpin dalam LLM, lembaga analisis semikonduktor Semi Analysis berpendapat bahwa daya saing GPT-4 terutama berasal dari solusi rekayasa — jika bersifat open source, pesaing mana pun dapat dengan cepat menyalinnya.

Analis ini memperkirakan bahwa perusahaan teknologi besar lainnya mungkin segera dapat mengembangkan model besar yang setara dengan kinerja GPT-4.

Benteng yang Dibangun di Atas Kaca

Kini, "pertempuran seratus model" tidak lagi sekadar sebuah metafora, melainkan realitas objektif.

Laporan terkait menunjukkan bahwa hingga Juli tahun ini, jumlah model besar di dalam negeri telah mencapai 130, melampaui 114 di Amerika Serikat, menciptakan keunggulan yang signifikan, dan berbagai mitos dan legenda hampir tidak cukup untuk dinamai oleh perusahaan teknologi dalam negeri.

Di luar AS dan China, banyak negara kaya lainnya juga hampir mencapai "satu negara satu model": selain Jepang dan Uni Emirat Arab, ada model besar Bhashini yang dipimpin oleh pemerintah India, serta HyperClova X yang dikembangkan oleh perusahaan internet Korea, Naver.

Situasi ini mengingatkan orang pada era penjelajahan internet di mana gelembung meletus dan "kemampuan uang" menentukan segalanya.

Seperti yang disebutkan sebelumnya, Transformer menjadikan model besar sebagai masalah rekayasa murni, asalkan ada bakat, dana, dan perangkat keras, yang tersisa diserahkan kepada parameter. Namun, penurunan ambang masuk tidak berarti semua orang dapat menjadi raksasa di era AI.

Contoh klasik dari "pertarungan hewan" yang disebutkan di awal: meskipun Falcon melampaui Llama dalam peringkat, sulit untuk mengatakan seberapa besar dampaknya terhadap Meta.

Seperti yang kita ketahui, perusahaan membuka sumber hasil penelitian mereka untuk berbagi pencapaian teknologi dengan masyarakat dan juga berharap dapat memicu kecerdasan masyarakat. Seiring dengan semakin banyaknya profesor universitas, lembaga penelitian, dan perusahaan kecil menengah yang terus menggunakan dan memperbaiki Llama, Meta dapat menerapkan hasil ini dalam produk mereka sendiri.

Untuk model besar sumber terbuka, komunitas pengembang yang aktif adalah kekuatan inti mereka.

Sejak mendirikan laboratorium AI pada tahun 2015, Meta telah menetapkan prinsip dasar open source; Zuckerberg, yang memulai dari media sosial, lebih memahami pentingnya "memelihara hubungan dengan publik".

Misalnya, pada bulan Oktober, Meta mengadakan acara "Insentif Kreator Versi AI": Pengembang yang menggunakan Llama 2 untuk menyelesaikan masalah sosial seperti pendidikan dan lingkungan memiliki kesempatan untuk mendapatkan dana sebesar 500.000 dolar.

Saat ini, seri Llama dari Meta telah menjadi patokan untuk LLM sumber terbuka.

Hingga awal Oktober, dari 10 besar papan peringkat LLM sumber terbuka, 8 di antaranya dikembangkan berdasarkan Llama 2, semuanya menggunakan lisensi sumber terbukanya. Hanya di platform tersebut, sudah ada lebih dari 1500 LLM yang menggunakan lisensi sumber terbuka Llama 2.

Tentu saja, meningkatkan kinerja seperti Falcon juga tidak ada salahnya, tetapi saat ini sebagian besar LLM di pasar masih memiliki perbedaan yang jelas dengan GPT-4.

Misalnya baru-baru ini, GPT-4 menduduki peringkat pertama dalam pengujian AgentBench dengan skor 4,41. AgentBench adalah standar yang diluncurkan bersama oleh Universitas Tsinghua, Universitas Negeri Ohio, dan Universitas California, Berkeley, untuk mengevaluasi kemampuan penalaran dan pengambilan keputusan LLM dalam lingkungan generasi terbuka multidimensi, dengan konten pengujian mencakup sistem operasi, basis data, grafik pengetahuan, pertempuran kartu, dan 8 tugas di lingkungan berbeda.

Hasil tes menunjukkan bahwa Claude yang berada di posisi kedua hanya mendapatkan 2,77 poin, selisihnya masih jelas. Adapun LLM sumber terbuka yang ramai dibicarakan, skor tes mereka umumnya sekitar 1 poin, belum mencapai seperempat dari GPT-4.

Perlu diketahui, GPT-4 dirilis pada bulan Maret tahun ini, ini adalah hasil setelah rekan-rekan di seluruh dunia mengejar selama lebih dari setengah tahun. Dan penyebab perbedaan ini adalah tim ilmuwan tingkat tinggi dari OpenAI dan pengalaman yang terakumulasi dari penelitian jangka panjang tentang LLM, sehingga dapat terus mempertahankan posisi terdepan.

Dengan kata lain, kemampuan inti dari model besar bukanlah parameter, tetapi pembangunan ekosistem (sumber terbuka) atau kemampuan inferensi murni (sumber tertutup).

Dengan semakin aktifnya komunitas sumber terbuka, kinerja berbagai LLM mungkin akan menjadi serupa, karena semua orang menggunakan arsitektur model dan dataset yang mirip.

Masalah lain yang lebih intuitif adalah: selain Midjourney, sepertinya belum ada model besar lain yang dapat menghasilkan laba.

Titik Pijakan Nilai

Pada bulan Agustus tahun ini, sebuah artikel berjudul "OpenAI mungkin bangkrut pada akhir 2024" menarik perhatian banyak orang. Inti dari artikel ini dapat diringkas dalam satu kalimat: Kecepatan pengeluaran OpenAI terlalu cepat.

Dalam teks tersebut disebutkan bahwa sejak pengembangan ChatGPT, kerugian OpenAI semakin meluas dengan cepat, hanya pada tahun 2022 saja kerugian mencapai sekitar 540 juta dolar AS, dan hanya bisa menunggu investor Microsoft untuk membayar.

Meskipun judul artikel terkesan berlebihan, ia juga menggambarkan kondisi banyak penyedia model besar: ketidakseimbangan serius antara biaya dan pendapatan.

Biaya yang terlalu tinggi menyebabkan saat ini hanya NVIDIA yang menghasilkan banyak uang dari kecerdasan buatan, mungkin ditambah Broadcom.

Menurut perkiraan perusahaan konsultasi Omdia, Nvidia telah menjual lebih dari 300.000 unit H100 pada kuartal kedua tahun ini. Ini adalah chip AI dengan efisiensi pelatihan AI yang sangat tinggi, dan perusahaan teknologi serta lembaga penelitian di seluruh dunia berebut untuk membelinya. Jika 300.000 unit H100 yang terjual ditumpuk satu sama lain, beratnya setara dengan 4,5 pesawat Boeing 747.

Kinerja Nvidia juga melonjak, dengan pertumbuhan pendapatan tahunan sebesar 854%, yang mengejutkan Wall Street. Perlu dicatat bahwa saat ini harga H100 di pasar sekunder telah meroket menjadi 40-50 ribu dolar, sementara biaya materialnya hanya sekitar 3000 dolar.

Biaya komputasi yang tinggi telah menjadi hambatan bagi perkembangan industri dalam beberapa hal. Sequoia Capital pernah melakukan perkiraan: perusahaan teknologi global diperkirakan akan menghabiskan 200 miliar dolar AS setiap tahun untuk pembangunan infrastruktur model besar; dibandingkan dengan itu, model besar hanya dapat menghasilkan pendapatan maksimum 75 miliar dolar AS per tahun, dengan celah setidaknya 125 miliar dolar AS di antara keduanya.

Selain itu, kecuali beberapa pengecualian seperti Midjourney, sebagian besar perusahaan perangkat lunak belum memikirkan cara untuk menghasilkan keuntungan meskipun telah mengeluarkan biaya yang besar. Terutama, dua pemimpin industri - Microsoft dan Adobe - menunjukkan kinerja yang kurang memuaskan.

Microsoft dan OpenAI pernah bekerja sama untuk mengembangkan alat penghasil kode AI GitHub Copilot, meskipun mengenakan biaya langganan 10 dolar per bulan, Microsoft malah harus mengalami kerugian 20 dolar karena biaya fasilitas, sementara pengguna berat bahkan bisa membuat Microsoft rugi 80 dolar per bulan. Berdasarkan ini, bisa diperkirakan bahwa Microsoft 365 Copilot yang dipatok seharga 30 dolar mungkin akan merugi lebih banyak.

Sama halnya, Adobe yang baru saja meluncurkan alat Firefly AI dengan cepat memperkenalkan sistem poin yang menyertainya, untuk mencegah pengguna menggunakan berlebihan yang dapat menyebabkan kerugian bagi perusahaan. Begitu pengguna menggunakan lebih dari jumlah poin yang dialokasikan setiap bulan, Adobe akan mengurangi kecepatan layanan.

Perlu diketahui bahwa Microsoft dan Adobe sudah merupakan raksasa perangkat lunak dengan skenario bisnis yang jelas dan memiliki banyak pengguna berbayar yang sudah ada. Sementara itu, sebagian besar model besar yang terakumulasi dengan parameter masih memiliki skenario aplikasi utama yaitu untuk chatting.

Tidak dapat disangkal, jika tidak ada kemunculan OpenAI dan ChatGPT, revolusi AI ini mungkin tidak akan terjadi sama sekali; tetapi saat ini, nilai yang dibawa oleh pelatihan model besar mungkin perlu dipertanyakan.

Selain itu, dengan meningkatnya persaingan homogenitas dan semakin banyaknya model sumber terbuka di pasar, ruang bagi penyedia model besar yang murni mungkin akan semakin kecil.

Keberhasilan iPhone 4 bukan karena prosesor A4 45nm, tetapi karena dapat memainkan Plants vs. Zombies dan Angry Birds.

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • 5
  • Bagikan
Komentar
0/400
MetamaskMechanicvip
· 07-11 04:21
Seperti besar-besaran peleburan besi.
Lihat AsliBalas0
ForkPrincevip
· 07-10 13:58
Model bertarung, teknologi atau teknologi
Lihat AsliBalas0
SpeakWithHatOnvip
· 07-08 05:03
Siapa yang menghasilkan lebih banyak per hektar, dia adalah yang terkuat.
Lihat AsliBalas0
MEVSupportGroupvip
· 07-08 05:02
Apakah angka digital bisa lebih besar lagi?
Lihat AsliBalas0
StablecoinGuardianvip
· 07-08 04:45
Dua model ini bersaing cukup ketat, apakah ada kegunaan praktisnya?
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)