AI heyecanı altında yüzlerce model savaşı: Bilgi İşlem Gücü büyük yükseliş, kâr bulmak zor.

AI alanında karmaşa: Her ülke bir model, dekar başına 100.000 jin

Geçen ay, AI endüstrisinde bir "hayvanlar savaşı" patlak verdi.

Bir tarafta Llama var, açık kaynak özelliği nedeniyle geliştiriciler tarafından çok seviliyor. Japon Elektrik Şirketi, Llama makalesini ve kodunu inceledikten sonra hızlıca Japonca ChatGPT'yi geliştirdi ve Japonya'nın AI alanındaki darboğaz sorununu çözdü.

Diğer taraf, Falcon adında büyük bir modeldir. Bu yıl Mayıs ayında, Falcon-40B piyasaya sürüldü ve Llama'yı geride bırakarak "açık kaynak LLM sıralamasında" zirveye yerleşti. Bu liste, açık kaynak model topluluğu tarafından oluşturulmuştur ve LLM yeteneklerini değerlendirmek için standartlar sunmaktadır. Sıralamada genellikle Llama ve Falcon sırayla birinci sırayı alıyor.

Llama 2'nin piyasaya sürülmesinden sonra, Llama ailesi bir süre öne geçti; ancak Eylül ayının başında, Falcon 180B sürümünü tanıttı ve tekrar daha yüksek bir sıralama elde etti.

İlginç bir şekilde, Falcon'un geliştiricileri bir teknoloji şirketi değil, Birleşik Arap Emirlikleri'nin başkentindeki bir teknoloji inovasyon araştırma enstitüsüdür. Hükümet yetkilileri, bu alanda yer almalarının temel oyuncuları alt üst etmek amacıyla olduğunu belirtti.

180B versiyonunun yayımlanmasından sonraki gün, Birleşik Arap Emirlikleri Yapay Zeka Bakanı, "Zaman Dergisi" tarafından seçilen "Yapay Zeka alanında en etkili 100 kişi" listesine girdi; onunla birlikte "Yapay Zeka Babası" Hinton, OpenAI'dan Altman gibi isimler de yer aldı.

Bugün, AI alanı birçok farklı görüşün ortaya çıktığı bir aşamaya girmiştir: güçlü ülkeler ve şirketler kendi büyük dil modellerini geliştirmektedir. Körfez bölgesinde birden fazla katılımcı bulunmaktadır. Ağustos ayında Suudi Arabistan, yerel üniversiteler için 3000'den fazla H100 çipi satın aldı ve bunları LLM eğitimi için kullanmayı planladı.

Bir yatırımcı şöyle sitem etmiş: "O yıllarda internetin iş modeli yeniliklerini küçümsedim, bir engel yok zannediyordum: yüzlerce grup savaşları, yüzlerce araba savaşları, yüzlerce yayın savaşları; ama katı teknoloji büyük model girişimlerinde de yüzlerce model savaşı olduğunu hiç tahmin etmemiştim..."

Yüksek giriş engeline sahip olması gereken sert teknoloji, nasıl herkesin katılabileceği bir alan haline geldi?

Transformer Dünyayı Yutuyor

Ne Amerikan girişimciler, ne Çin teknoloji devleri, ne de Orta Doğu petrol baronları, büyük model alanına girebildiler, hepsi o ünlü makaleye borçlular: "Attention Is All You Need."

2017 yılında, 8 bilgisayar bilimci bu makalede Transformer algoritmasını açıkladı. Bu makale, şu anda AI tarihindeki en çok alıntı yapılan üçüncü makale olup, Transformer'ın ortaya çıkışı bu AI dalgasını tetikledi.

Mevcut tüm büyük modeller, dünyayı sarsan GPT serisi de dahil olmak üzere, Transformer temelinde inşa edilmiştir.

Bundan önce, "makineleri okumayı öğretmek" her zaman kabul gören bir akademik zorluktu. Görüntü tanımadan farklı olarak, insanlar okurken yalnızca mevcut kelime ve cümlelere odaklanmaz, aynı zamanda bağlamı da anlayarak okurlar.

Erken sinir ağlarının girdileri birbirinden bağımsızdı ve uzun metinleri veya bütün makaleleri anlayamıyordu, bu nedenle bazı saçma çeviri sonuçları sıklıkla ortaya çıkıyordu.

2014 yılında, Google'ın bilim insanı Ilya ilk kez bir atılım yapmıştır. Doğal dili işlemek için döngüsel sinir ağları (RNN) kullanarak Google Çeviri'nin performansını büyük ölçüde artırmıştır.

RNN, her nöronunun hem mevcut girişi hem de bir önceki zamandaki girişi kabul etmesini sağlayan "döngü tasarımı"nı önerdi, bu sayede "bağlamı birleştirme" yeteneğine sahip oldu.

RNN'nin ortaya çıkışı akademik dünyada araştırma hevesini artırdı, Transformer makalesinin yazarı Şazel de derinlemesine araştırmalar yaptı. Ancak geliştiriciler kısa sürede RNN'nin ciddi eksiklikleri olduğunu fark ettiler:

Bu algoritma sıralı hesaplama kullanıyor, bağlam sorununu çözmesine rağmen, çalışma verimliliği düşüktür ve çok sayıda parametreyi işlemek zordur.

RNN'nin karmaşık tasarımı kısa sürede Chazelle'i sıkmaya başladı. Bu nedenle 2015'ten itibaren Chazelle ve 7 benzer ilgi alanına sahip kişi, RNN'nin bir alternatifini geliştirmeye başladı ve bunun sonucu Transformer oldu.

RNN'ye kıyasla, Transformer'ın iki büyük yeniliği var:

Birincisi, konum kodlaması, RNN'nin döngü tasarımının yerini alarak paralel hesaplama gerçekleştirdi, eğitim verimliliğini büyük ölçüde artırarak büyük verileri işleyebilmesini sağladı ve AI'yi büyük model çağlarına taşıdı; ikincisi, bağlamı anlama yeteneğini daha da güçlendirdi.

Transformer, birçok eksikliği bir anda çözdü ve giderek NLP alanında ana akım bir çözüm haline geldi. "Eğer Transformer doğmasaydı, NLP sonsuz bir karanlıkta kalırdı" hissi uyandırıyor. Hatta İlya, kendi yarattığı RNN'den vazgeçip Transformer'ı desteklemeye başladı.

Diğer bir deyişle, Transformer günümüzdeki tüm büyük modellerin temel taşıdır, bu da büyük modelleri teorik araştırmadan saf mühendislik sorunlarına dönüştürmektedir.

2019'da OpenAI, Transformer tabanlı GPT-2'yi geliştirdi ve akademik dünyayı şok etti. Buna karşılık, Google daha güçlü bir AI olan Meena'yı hızla piyasaya sürdü.

GPT-2'ye kıyasla, Meena'nın herhangi bir algoritmik sıçraması yoktur, sadece 8.5 kat daha fazla eğitim parametresi ve 14 kat daha fazla hesaplama gücü eklenmiştir. Transformer makalesinin yazarı Shazeel, bu tür "şiddetli birikim" yönteminden derin bir şekilde etkilenmiş ve hemen "Meena dünyayı yutuyor" başlıklı bir not yazmıştır.

Transformer'ın ortaya çıkması, akademik dünyadaki temel algoritma yeniliklerinin hızının büyük ölçüde yavaşlamasına neden oldu. Veri mühendisliği, hesaplama ölçeği, model mimarisi gibi mühendislik unsurları, AI yarışmasının anahtarı haline geldi; belirli bir teknik yeterliliğe sahip olan teknoloji şirketleri büyük modeller geliştirebiliyor.

Bu nedenle, bilgisayar bilimcisi Andrew Ng, Stanford Üniversitesi'nde yaptığı konuşmada şunları söyledi: "Yapay zeka, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve şimdi de üretken yapay zeka dahil olmak üzere bir dizi aracın toplamıdır. Bunlar, elektrik ve internet gibi diğer genel teknolojilere benzer genel teknolojilerdir."

OpenAI hala LLM'nin öncüsü olsa da, yarı iletken analiz kurumu Semi Analysis, GPT-4'ün rekabet gücünün esasen mühendislik çözümlerinden kaynaklandığını düşünüyor - eğer açık kaynak olursa, herhangi bir rakip bunu hızla kopyalayabilir.

Bu analist, diğer büyük teknoloji şirketlerinin yakında GPT-4 performansına denk büyük modeller geliştirebileceğini tahmin ediyor.

Cam Üzerinde İnşa Edilen Set

Artık "Yüzlerce Model Savaşı" bir mecaz değil, bir nesnel gerçeklik haline geldi.

İlgili raporlar, bu yılın Temmuz ayı itibarıyla, yurtiçindeki büyük model sayısının 130'a ulaştığını ve Amerika'nın 114'ünü geçtiğini gösteriyor. Bu, bir tür hızlı kalkış sağladı ve çeşitli efsaneler neredeyse yurtiçindeki teknoloji şirketlerinin isimlendirmesi için yeterli olmuyor.

Çin ve ABD dışında, birçok daha zengin ülke de "bir ülke bir model" ilkesini esasen gerçekleştirmiştir: Japonya ve Birleşik Arap Emirlikleri dışında, Hindistan hükümeti tarafından yönetilen büyük model Bhashini, Kore internet şirketi Naver tarafından geliştirilen HyperClova X gibi.

Bu tür bir sahne, insanı her şeyin "para gücü" ile belirlendiği o internetin keşif dönemindeki balonların havada uçuştuğu zamanlara hatırlatıyor.

Daha önce belirtildiği gibi, Transformer büyük modelleri tamamen mühendislik sorununa dönüştürdü; yeterli yetenek, sermaye ve donanım olduğu sürece geriye kalan her şey parametrelerle ilgilidir. Ancak giriş engellerinin azalması, herkesin AI çağının devlerinden biri olabileceği anlamına gelmez.

Başlangıçta bahsedilen "hayvanlar savaşı" tipik bir örnektir: Falcon, sıralamada Llama'yı geçmesine rağmen, Meta üzerinde ne kadar büyük bir etki yarattığını söylemek zor.

Bilindiği üzere, işletmeler kendi araştırma sonuçlarını açık kaynak haline getirirken, hem teknolojik buluşları topluma paylaşmayı hem de halkın zekasını teşvik etmeyi amaçlamaktadır. Çeşitli üniversite profesörleri, araştırma kurumları ve KOBİ'ler Llama'yı sürekli olarak kullanıp geliştirirken, Meta bu sonuçları kendi ürünlerinde uygulayabilir.

Açık kaynak büyük modeller için, aktif bir geliştirici topluluğu ana rekabet avantajıdır.

2015 yılında AI laboratuvarı kurulduğunda, Meta açık kaynak temel ilkesini belirlemişti; Zuckerberg sosyal medya ile başlayarak, "kamu ilişkilerini sürdürmenin" önemünü daha iyi anlıyor.

Örneğin Ekim ayında, Meta özel olarak bir "Yapay Zeka Tabanlı İçerik Üreticileri Teşvik" etkinliği düzenledi: Llama 2'yi eğitim, çevre gibi sosyal sorunları çözmek için kullanan geliştiriciler, 500.000 dolarlık hibe alma fırsatına sahip olacaklar.

Artık Meta'nın Llama serisi, açık kaynaklı LLM'lerin bir öncüsü haline geldi.

Ekim ayının başı itibarıyla, bir açık kaynak LLM sıralamasında ilk 10'da yer alan 8 modelin Llama 2 tabanlı olduğu ve hepsinin açık kaynak lisansını kullandığı görülmektedir. Bu platformda, Llama 2 açık kaynak lisansını kullanan LLM sayısı 1500'ü geçmiştir.

Elbette, Falcon gibi performansı artırmak da mümkün, ancak şu anda piyasadaki çoğu LLM ile GPT-4 arasında hala belirgin bir fark var.

Örneğin, kısa bir süre önce, GPT-4, AgentBench testinde 4.41 puan alarak birinci sırada yer aldı. AgentBench, Tsinghua Üniversitesi ile Ohio Eyalet Üniversitesi ve Kaliforniya Üniversitesi, Berkeley tarafından birlikte geliştirilen bir standarttır ve LLM'nin çok boyutlu açık üretim ortamlarındaki akıl yürütme ve karar verme yeteneklerini değerlendirmek için kullanılır. Test içeriği, işletim sistemleri, veritabanları, bilgi grafikleri, kart savaşları gibi 8 farklı ortamda görevleri içermektedir.

Test sonuçları, ikinci olan Claude'un sadece 2.77 puan aldığını ve farkın hala belirgin olduğunu gösteriyor. Oysa o kadar büyük bir gürültüyle tanıtılan açık kaynaklı LLM'lerin test sonuçları genellikle 1 puan civarında ve GPT-4'ün dörtte birinden bile az.

Bilmek gerekir ki, GPT-4 bu yılın Mart ayında piyasaya sürüldü ve bu, dünya genelindeki rakiplerin yarım yıl boyunca sürdürdüğü bir çabanın sonucudur. Bu farkı yaratan ise OpenAI'nin yüksek kalitedeki bilim insanları ekibi ve LLM üzerine uzun süreli araştırmaların birikimidir; bu sayede sürekli olarak önde kalabilmektedir.

Başka bir deyişle, büyük modelin temel yeteneği parametreler değil, ekosistem inşası (açık kaynak) veya saf akıl yürütme yeteneğidir (kapalı kaynak).

Açık kaynak topluluğunun giderek daha aktif hale gelmesiyle, çeşitli LLM'lerin performansı benzer model mimarileri ve veri setleri kullandıkları için birbirine yakınsama gösterebilir.

Bir başka daha sezgisel soru şu: Midjourney dışında, görünüşe göre başka bir büyük model kâr elde edemiyor.

Değerin Referans Noktası

Bu yılın Ağustos ayında, "OpenAI'nin 2024'ün sonuna kadar iflas etme ihtimali" başlıklı bir makale dikkat çekti. Makalenin ana fikri neredeyse bir cümleyle özetlenebilir: OpenAI'nin para harcama hızı çok hızlı.

Metinde, ChatGPT'nin geliştirilmesinden bu yana OpenAI'nin zararının hızla büyüdüğü, yalnızca 2022'de yaklaşık 540 milyon dolar zarar ettiği ve yalnızca Microsoft yatırımcılarının ödemesini bekleyebileceği belirtiliyor.

Makale başlığı abartılı olsa da, birçok büyük model sağlayıcısının durumunu ortaya koyuyor: maliyet ve gelir ciddi şekilde dengesiz.

Aşırı yüksek maliyetler, şu anda yapay zeka ile büyük paralar kazanabilenlerin sadece Nvidia olduğunu ve en fazla Broadcom'un eklenebileceğini gösteriyor.

Danışmanlık şirketi Omdia'nın tahminlerine göre, Nvidia bu yılın ikinci çeyreğinde 300.000'den fazla H100 sattı. Bu, AI için son derece verimli bir eğitim çipi ve dünya çapında teknoloji şirketleri ile araştırma kuruluşları tarafından büyük ilgi görüyor. Eğer satılan bu 300.000 H100 üst üste konulursa, ağırlığı 4,5 adet Boeing 747 uçağına eşdeğer olur.

NVIDIA’nin performansı da buna paralel olarak fırladı, yıllık gelir artışı %854 ile Wall Street’i oldukça şaşırttı. Şunu belirtmekte fayda var ki, şu anda H100’ün ikinci el piyasasındaki fiyatı 40.000-50.000 dolar seviyelerine çıkmışken, malzeme maliyeti yalnızca yaklaşık 3.000 dolar.

Yüksek hesaplama gücü maliyetleri, belirli bir ölçüde sektörün gelişimi için bir engel haline gelmiştir. Sequoia Capital, dünya genelindeki teknoloji şirketlerinin her yıl büyük model altyapı inşasına 200 milyar dolar harcayacağını tahmin etmiştir; buna karşılık, büyük modellerin her yıl en fazla 75 milyar dolar gelir elde edebileceği ve arada en az 125 milyar dolarlık bir açık olduğu hesaplanmıştır.

Ayrıca, Midjourney gibi birkaç istisna dışında, çoğu yazılım şirketi büyük maliyetler harcadıktan sonra hala nasıl kâr elde edeceğini düşünemedi. Özellikle sektörün iki büyük lideri - Microsoft ve Adobe'nun performansı pek tatmin edici değil.

Microsoft ve OpenAI, GitHub Copilot adında bir AI kod oluşturma aracı geliştirmek için işbirliği yaptı. Aylık 10 dolar ücret almasına rağmen, tesis maliyetleri nedeniyle Microsoft aslında aylık 20 dolar zarar ediyor. Aşırı kullanıcılar, Microsoft'un her ay 80 dolar zarar etmesine neden olabiliyor. Bu nedenle, fiyatı 30 dolar olan Microsoft 365 Copilot'un daha fazla zarar etmesi muhtemel.

Aynı şekilde, yeni Firefly AI aracını piyasaya süren Adobe, kullanıcıların aşırı kullanımının şirketin zararına yol açmasını önlemek için hızla bir yan puan sistemi getirdi. Kullanıcılar aylık tahsis edilen puanları aştığında, Adobe hizmet hızını düşürecektir.

Microsoft ve Adobe'nin iş senaryolarının net olduğu ve çok sayıda mevcut ücretli kullanıcıya sahip yazılım devleri olduğunu bilmek önemlidir. Ancak, çoğu parametre yığınla dolu olan büyük modellerin en önemli uygulama alanı hala sohbet.

Inkar edilemez ki, OpenAI ve ChatGPT'nin ortaya çıkışı olmasaydı, bu AI devrimi muhtemelen hiç gerçekleşmeyecekti; ancak şu anda, büyük modellerin eğitilmesinin sağladığı değer hakkında bir soru işareti koymak zorunda kalabiliriz.

Ayrıca, homojen rekabetin artması ve piyasada açık kaynaklı modellerin sayısının artmasıyla, yalnızca büyük model tedarikçileri için kalan alan daha da az olabilir.

iPhone 4'ün başarısı 45nm süreçteki A4 işlemcisinden değil, bitki savaşları ve öfkeli kuşları oynayabilmesinden kaynaklanıyor.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 5
  • Share
Comment
0/400
MetamaskMechanicvip
· 07-11 04:21
Büyük çelik üretimine benziyor.
View OriginalReply0
ForkPrincevip
· 07-10 13:58
Model dövüşü, teknoloji mi yoksa teknoloji mi?
View OriginalReply0
SpeakWithHatOnvip
· 07-08 05:03
Kim daha yüksek verim alıyorsa o liderdir.
View OriginalReply0
MEVSupportGroupvip
· 07-08 05:02
Spekülasyon Dijital daha büyük olabilir mi
View OriginalReply0
StablecoinGuardianvip
· 07-08 04:45
Bu iki modelin rekabeti oldukça şiddetli, bunun ne gibi somut bir faydası olabilir ki?
View OriginalReply0
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)