La guerre des modèles sous l'engouement de l'IA : Puissance de calcul big pump, bénéfices difficiles à trouver

La danse des démons dans le domaine de l'IA : un pays, un modèle, une production de cent mille jin par mu

Le mois dernier, l'industrie de l'IA a déclenché une "guerre des animaux".

D'un côté, il y a Llama, qui est très apprécié des développeurs en raison de sa nature open source. Après avoir étudié le papier et le code de Llama, la société de technologie japonaise a rapidement développé une version japonaise de ChatGPT, résolvant ainsi les problèmes de goulot d'étranglement dans le domaine de l'IA au Japon.

L'autre partie est un grand modèle nommé Falcon. En mai de cette année, Falcon-40B a été lancé, dépassant Llama pour atteindre le sommet du "classement des LLM open source". Ce classement est élaboré par la communauté des modèles open source et fournit des normes pour évaluer les capacités des LLM. Dans ce classement, Llama et Falcon occupent essentiellement les premières places en alternance.

Après le lancement de Llama 2, la famille Llama a temporairement pris de l'avance ; mais début septembre, Falcon a lancé la version 180B, obtenant à nouveau un meilleur classement.

Fait intéressant, les développeurs de Falcon ne sont pas une entreprise technologique, mais plutôt un institut de recherche en innovation technologique basé dans la capitale des Émirats arabes unis. Des responsables gouvernementaux ont déclaré qu'ils s'engagent dans ce domaine pour bouleverser les acteurs clés.

Le lendemain de la publication de la version 180B, le ministre des IA des Émirats Arabes Unis a été sélectionné parmi les "100 personnes les plus influentes dans le domaine de l'IA" par le magazine Time ; parmi les autres sélectionnés figurent le "parrain de l'IA" Hinton, ainsi qu'Altman d'OpenAI.

Aujourd'hui, le domaine de l'IA est entré dans une phase de concurrence intense : des pays et des entreprises puissants développent leurs propres modèles de langage de grande taille. Rien qu'au sein de la région du Golfe, il y a plus d'un participant. En août, l'Arabie saoudite a acheté plus de 3000 puces H100 pour les universités nationales, afin de former des LLM.

Des investisseurs se sont plaints : "À l'époque, je méprisais les innovations des modèles commerciaux d'Internet, pensant qu'il n'y avait pas de barrières : la bataille des cent groupes, la bataille des cent voitures, la bataille des cent diffusions ; je ne pensais pas qu'entreprendre avec des grands modèles de technologie dure serait toujours une bataille des cent modèles..."

Comment une technologie dure, qui devrait avoir un seuil d'entrée élevé, est-elle devenue un domaine auquel tout le monde peut participer ?

Transformer dévore le monde

Que ce soit des startups américaines, des géants technologiques chinois ou des magnats du pétrole du Moyen-Orient, ils doivent tous leur capacité à s'engager dans le domaine des grands modèles à cet article célèbre : « Attention Is All You Need ».

En 2017, huit informaticiens ont publié l'algorithme Transformer dans cet article. Cet article est actuellement le troisième le plus cité dans l'histoire de l'IA, et l'apparition de Transformer a déclenché cette vague actuelle d'IA.

Tous les grands modèles actuels, y compris la série GPT qui a fait sensation dans le monde, sont basés sur le Transformer.

Avant cela, "enseigner aux machines à lire" était reconnu comme un problème académique difficile. Contrairement à la reconnaissance d'images, lorsque les humains lisent, ils ne se concentrent pas seulement sur les mots et les phrases actuels, mais intègrent également le contexte pour comprendre.

Les entrées des premiers réseaux de neurones étaient indépendantes les unes des autres, incapables de comprendre de longs textes ou même des articles entiers, ce qui entraînait souvent des résultats de traduction absurdes.

En 2014, le scientifique d'entreprise Google, Ilya, a réalisé une percée. Il a utilisé des réseaux de neurones récurrents (RNN) pour traiter le langage naturel, ce qui a considérablement amélioré les performances de Google Traduction.

Le RNN a proposé un "design récurrent", permettant à chaque neurone de recevoir à la fois l'entrée actuelle et l'entrée du moment précédent, acquérant ainsi la capacité de "comprendre le contexte".

L'apparition des RNN a suscité un grand intérêt de recherche dans le milieu académique, et l'auteur de l'article sur le Transformer, Ashish Vaswani, a également mené des recherches approfondies. Cependant, les développeurs ont rapidement découvert que les RNN présentaient des défauts graves :

L'algorithme utilise un calcul séquentiel, bien qu'il résolve le problème de contexte, son efficacité d'exécution est faible, ce qui le rend difficile à traiter avec un grand nombre de paramètres.

La conception complexe des RNN a rapidement ennuyé Szyszkowicz. Ainsi, à partir de 2015, Szyszkowicz et sept passionnés ont commencé à développer une alternative aux RNN, dont le résultat est le Transformer.

Par rapport aux RNN, le Transformer a deux grandes innovations :

Premièrement, l'encodage de position a remplacé la conception cyclique des RNN, permettant un calcul parallèle, ce qui a considérablement amélioré l'efficacité de l'entraînement et a permis de traiter de grandes quantités de données, propulsant l'IA vers l'ère des grands modèles ; deuxièmement, cela a encore renforcé la capacité de compréhension du contexte.

Le Transformer a résolu de nombreux défauts en un seul coup et est progressivement devenu la solution dominante dans le domaine du NLP, donnant un sentiment de "Sans le Transformer, le NLP serait plongé dans une nuit éternelle". Même Ilia a abandonné son propre RNN pour soutenir le Transformer.

En d'autres termes, le Transformer est la pierre angulaire de tous les grands modèles d'aujourd'hui, transformant les grands modèles d'une recherche théorique en un problème purement technique.

En 2019, OpenAI a développé GPT-2 basé sur Transformer, choquant le monde académique. En réponse, Google a rapidement lancé une IA plus performante, nommée Meena.

Comparé à GPT-2, Meena n'a pas de percée algorithmique, mais a simplement augmenté de 8,5 fois le nombre de paramètres d'entraînement et de 14 fois la puissance de calcul. L'auteur du papier sur le Transformer, Szegedy, a été profondément frappé par cette manière de "pile de manière violente" et a immédiatement écrit un mémorandum intitulé "Meena dévore le monde".

L'émergence des Transformers a considérablement ralenti la vitesse d'innovation des algorithmes de base dans le monde académique. Les éléments d'ingénierie tels que l'ingénierie des données, l'échelle de puissance de calcul et l'architecture des modèles sont devenus les clés de la compétition en IA, et toute entreprise technologique ayant une certaine capacité technique peut développer de grands modèles.

Ainsi, le scientifique informatique Andrew Ng a déclaré lors d'une conférence à l'université de Stanford : "L'IA est un ensemble d'outils, y compris l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentissage par renforcement et maintenant l'intelligence artificielle générative. Ce sont toutes des technologies générales, similaires à d'autres technologies générales comme l'électricité et Internet."

Bien qu'OpenAI soit toujours le leader des LLM, l'agence d'analyse des semi-conducteurs Semi Analysis estime que la compétitivité de GPT-4 provient principalement des solutions d'ingénierie - si elles étaient open source, tout concurrent pourrait rapidement les reproduire.

Cet analyste s'attend à ce que d'autres grandes entreprises technologiques soient bientôt en mesure de développer de grands modèles de performance comparable à celle de GPT-4.

Une douve construite sur du verre

Aujourd'hui, la "bataille des cent modèles" n'est plus une métaphore, mais une réalité objective.

Des rapports pertinents montrent qu'à la fin de juillet de cette année, le nombre de grands modèles nationaux a atteint 130, dépassant les 114 des États-Unis, réalisant ainsi un rattrapage. Les diverses mythes et légendes ne suffisent presque plus aux entreprises technologiques nationales pour les nommer.

En dehors de la Chine et des États-Unis, de nombreux pays plus riches ont également essentiellement réalisé le "one country, one model" : en plus du Japon et des Émirats Arabes Unis, il y a le modèle Bhashini dirigé par le gouvernement indien, ainsi que HyperClova X développé par la société sud-coréenne Naver.

Cette scène rappelle l'époque des pionniers de l'Internet, où la "capacité monétaire" déterminait tout, avec des bulles qui volaient dans tous les sens.

Comme mentionné précédemment, le Transformer a transformé les grands modèles en un problème purement technique; tant qu'il y a des talents, des fonds et du matériel, le reste dépend des paramètres. Cependant, la baisse du seuil d'entrée ne signifie pas que tout le monde peut devenir un géant à l'ère de l'IA.

Le "conflit des animaux" mentionné au début est un cas typique : bien que Falcon ait dépassé Llama dans le classement, il est difficile de dire quel impact cela a eu sur Meta.

Il est bien connu que les entreprises ouvrent leurs résultats de recherche afin de partager les réalisations scientifiques avec la société, tout en espérant stimuler l'intelligence collective. Alors que des professeurs d'universités, des instituts de recherche et des petites et moyennes entreprises continuent d'utiliser et d'améliorer Llama, Meta peut appliquer ces résultats dans ses propres produits.

Pour les grands modèles open source, une communauté de développeurs active est leur principale force concurrentielle.

Dès la création du laboratoire d'IA en 2015, Meta a établi des principes fondamentaux d'open source ; Zuckerberg, qui a fait ses débuts avec les médias sociaux, comprend mieux l'importance de "maintenir les relations avec le public".

Par exemple, en octobre, Meta a organisé un événement intitulé "Incentives pour les créateurs en version IA" : les développeurs utilisant Llama 2 pour résoudre des problèmes sociaux tels que l'éducation et l'environnement ont la possibilité de recevoir un financement de 500 000 dollars.

Aujourd'hui, la série Llama de Meta est devenue le baromètre des LLM open source.

À début octobre, parmi les 10 premiers classements des LLM open source, 8 sont développés sur la base de Llama 2, tous utilisant son protocole open source. Rien que sur cette plateforme, plus de 1500 LLM utilisant le protocole open source de Llama 2 ont été créés.

Bien sûr, améliorer les performances comme Falcon n'est pas une mauvaise idée, mais la plupart des LLM sur le marché ont encore un écart évident par rapport à GPT-4.

Par exemple, récemment, GPT-4 a obtenu la première place avec un score de 4,41 lors du test AgentBench. AgentBench est une norme lancée conjointement par l'Université Tsinghua, l'Université d'État de l'Ohio et l'Université de Californie à Berkeley, utilisée pour évaluer les capacités de raisonnement et de prise de décision des LLM dans des environnements de génération ouverts multidimensionnels. Le contenu du test comprend des tâches dans 8 environnements différents, tels que les systèmes d'exploitation, les bases de données, les graphes de connaissances et les batailles de cartes.

Les résultats des tests montrent que Claude, en deuxième position, n'a obtenu que 2,77 points, ce qui reste un écart significatif. Quant à ces LLM open source qui ont fait grand bruit, leurs résultats aux tests tournent généralement autour de 1 point, soit moins d'un quart de ceux de GPT-4.

Il faut savoir que GPT-4 a été publié en mars de cette année, et cela fait suite à des mois de rattrapage par les pairs mondiaux. La raison de cet écart est l'équipe de scientifiques de haut niveau d'OpenAI et l'expérience accumulée grâce à une longue recherche sur les LLM, ce qui leur permet de maintenir une position de leader.

En d'autres termes, la capacité fondamentale du grand modèle n'est pas les paramètres, mais la construction de l'écosystème (open source) ou la capacité de raisonnement pure (closed source).

Avec l'essor des communautés open source, les performances des différents LLM pourraient converger, car tout le monde utilise des architectures de modèles et des ensembles de données similaires.

Une autre question plus intuitive est : à part Midjourney, il semble qu'aucun autre grand modèle ne puisse être rentable.

Point d'ancrage de la valeur

En août de cette année, un article intitulé "OpenAI pourrait faire faillite d'ici fin 2024" a suscité beaucoup d'attention. Le propos de l'article peut presque se résumer en une seule phrase : OpenAI brûle trop d'argent trop rapidement.

L'article mentionne que depuis le développement de ChatGPT, les pertes d'OpenAI se sont rapidement aggravées, avec une perte d'environ 540 millions de dollars rien qu'en 2022, et ils doivent attendre que les investisseurs de Microsoft paient.

Bien que le titre de l'article soit accrocheur, il reflète également la situation de nombreux fournisseurs de grands modèles : un déséquilibre grave entre les coûts et les revenus.

Des coûts trop élevés signifient qu'à l'heure actuelle, seules Nvidia et peut-être Broadcom gagnent beaucoup d'argent grâce à l'intelligence artificielle.

Selon la société de conseil Omdia, NVIDIA a vendu plus de 300 000 unités de H100 au cours du deuxième trimestre de cette année. Il s'agit d'une puce AI, dont l'efficacité pour former des intelligences artificielles est extrêmement élevée, et les entreprises technologiques et les institutions de recherche du monde entier se battent pour en acheter. Si l'on empile les 300 000 H100 vendues, leur poids équivaut à celui de 4,5 avions Boeing 747.

Les performances d'Nvidia ont également grimpé en flèche, avec une augmentation des revenus de 854 % par rapport à l'année précédente, ce qui a beaucoup surpris Wall Street. Il est à noter qu'actuellement, le prix du H100 sur le marché de l'occasion a été gonflé à 40 000 à 50 000 dollars, alors que son coût matériel n'est que d'environ 3 000 dollars.

Le coût élevé de la puissance de calcul est devenu, dans une certaine mesure, un frein au développement de l'industrie. Sequoia Capital a réalisé une estimation : les entreprises technologiques du monde entier devraient dépenser 200 milliards de dollars par an pour construire des infrastructures de grands modèles ; en revanche, les grands modèles ne peuvent générer au maximum que 75 milliards de dollars de revenus par an, laissant un écart d'au moins 125 milliards de dollars.

De plus, à l'exception de quelques rares cas comme Midjourney, la plupart des entreprises de logiciels, après avoir engagé d'énormes coûts, n'ont pas encore réfléchi à la manière de générer des bénéfices. En particulier, les performances des deux leaders du secteur - Microsoft et Adobe - laissent à désirer.

Microsoft et OpenAI ont collaboré pour développer un outil de génération de code AI, GitHub Copilot. Bien qu'un abonnement mensuel de 10 dollars soit facturé, en raison des coûts d'infrastructure, Microsoft se retrouve à perdre 20 dollars. Les utilisateurs intensifs peuvent même faire perdre à Microsoft jusqu'à 80 dollars par mois. Sur cette base, on peut supposer que le Microsoft 365 Copilot, qui est tarifé à 30 dollars, pourrait entraîner des pertes encore plus importantes.

De même, Adobe, qui vient de lancer l'outil Firefly AI, a rapidement introduit un système de points associé pour empêcher les utilisateurs d'en abuser et de causer des pertes à l'entreprise. Si un utilisateur dépasse les points alloués mensuellement, Adobe réduira la vitesse du service.

Il faut savoir que Microsoft et Adobe sont déjà des géants du logiciel avec des scénarios d'affaires clairs et un grand nombre d'utilisateurs payants existants. En revanche, la plupart des grands modèles, qui sont remplis de paramètres, ont pour principal champ d'application le chat.

Il est indéniable que sans l'émergence d'OpenAI et de ChatGPT, cette révolution de l'IA ne se serait probablement pas produite ; mais actuellement, la valeur apportée par l'entraînement de grands modèles mérite sans doute d'être remise en question.

De plus, avec l'intensification de la concurrence homogène et l'augmentation des modèles open source sur le marché, l'espace disponible pour les simples fournisseurs de grands modèles pourrait se réduire.

Le succès de l'iPhone 4 n'est pas dû au processeur A4 en 45 nm, mais à sa capacité à jouer à Plants vs. Zombies et Angry Birds.

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • 5
  • Partager
Commentaire
0/400
MetamaskMechanicvip
· 07-11 04:21
C'est comme la Grande Révolution de l'Acier.
Voir l'originalRépondre0
ForkPrincevip
· 07-10 13:58
Modèles en combat, technologie ou technologie
Voir l'originalRépondre0
SpeakWithHatOnvip
· 07-08 05:03
Celui qui a le plus haut rendement par mu est le patron.
Voir l'originalRépondre0
MEVSupportGroupvip
· 07-08 05:02
La spéculation, le chiffre peut-il encore être plus grand ?
Voir l'originalRépondre0
StablecoinGuardianvip
· 07-08 04:45
Ces deux modèles se disputent assez intensément, ont-ils une réelle utilité ?
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)