A batalha de cem modelos na onda da IA: Poder de computação Grande subida, lucros difíceis de encontrar

O caos no campo da IA: um país, um modelo, uma produção de cem mil quilos por hectare

No mês passado, a indústria de IA assistiu a uma "disputa animal".

De um lado está o Llama, que é muito apreciado pelos desenvolvedores devido à sua natureza de código aberto. Após estudar o artigo e o código do Llama, a empresa japonesa de eletricidade rapidamente desenvolveu uma versão em japonês do ChatGPT, resolvendo o problema de gargalo no campo da IA no Japão.

O outro lado é um grande modelo chamado Falcon. Em maio deste ano, o Falcon-40B foi lançado, superando o Llama e alcançando o topo da "Tabela de Classificação de LLMs de Código Aberto". Esta tabela é elaborada pela comunidade de modelos de código aberto e fornece padrões para avaliar a capacidade dos LLMs. Na tabela, basicamente, o Llama e o Falcon alternam-se no primeiro lugar.

Após o lançamento do Llama 2, a família Llama chegou a superar; mas no início de setembro, o Falcon lançou a versão 180B, obtendo novamente uma classificação mais alta.

Curiosamente, os desenvolvedores do Falcon não são uma empresa de tecnologia, mas sim um instituto de pesquisa em inovação tecnológica na capital dos Emirados Árabes Unidos. Fontes do governo afirmaram que eles estão envolvidos neste setor para desafiar os principais players.

No dia seguinte ao lançamento da versão 180B, o Ministro da Inteligência Artificial dos Emirados Árabes Unidos foi selecionado para a lista dos "100 mais influentes na área de IA" da revista Time; junto com ele, foram selecionados o "pai da IA" Geoffrey Hinton, o CEO da OpenAI Sam Altman, entre outros.

Hoje, o campo da IA entrou numa fase de competição acirrada: países e empresas com capacidade estão a desenvolver os seus próprios grandes modelos de linguagem. Apenas na região do Golfo, há mais de um participante. Em agosto, a Arábia Saudita comprou mais de 3000 chips H100 para universidades locais, para treinar LLM.

Um investidor comentou: "Naquela época, subestimei a inovação do modelo de negócios da internet, achando que não havia barreiras: a batalha das cem tropas, a batalha dos cem carros, a batalha das cem transmissões; não pensei que o empreendedorismo em modelos de hard tech ainda seria uma batalha de cem modelos..."

Como é que a tecnologia de ponta, que deveria ter um alto nível de exigência, se tornou um campo ao qual todos podem ter acesso?

Transformer devora o mundo

Quer sejam startups americanas, gigantes tecnológicos chineses ou magnatas do petróleo do Médio Oriente, todos eles devem a sua capacidade de se aventurarem no campo dos grandes modelos ao famoso artigo: "Attention Is All You Need".

Em 2017, oito cientistas da computação publicaram o algoritmo Transformer neste artigo. Este artigo é atualmente o terceiro mais citado na história da IA, e o surgimento do Transformer desencadeou esta onda atual de entusiasmo em IA.

Todos os grandes modelos atuais, incluindo a série GPT que tem causado sensação no mundo, são construídos com base na arquitetura Transformer.

Antes disso, "ensinar máquinas a ler" era um problema acadêmico amplamente reconhecido. Ao contrário do reconhecimento de imagens, a leitura humana não se concentra apenas nas palavras e frases atuais, mas também combina a compreensão do contexto.

As redes neurais iniciais tinham entradas independentes umas das outras e não conseguiam compreender textos longos ou até mesmo artigos inteiros, resultando frequentemente em algumas traduções absurdas.

Em 2014, o cientista da Google, Ilya, fez um grande avanço. Ele usou redes neurais recorrentes (RNN) para processar linguagem natural, melhorando significativamente o desempenho do Google Tradutor.

A RNN propôs o "design cíclico", permitindo que cada neurônio receba tanto a entrada atual quanto a entrada do momento anterior, conferindo-lhe a capacidade de "combinar contexto".

A aparição do RNN despertou o entusiasmo da comunidade acadêmica para a pesquisa, e o autor do artigo sobre o Transformer, Ashish Vaswani, também se aprofundou no assunto. No entanto, os desenvolvedores rapidamente descobriram que o RNN apresentava sérias falhas:

O algoritmo utiliza cálculos sequenciais, embora resolva problemas de contexto, a eficiência de execução é baixa, sendo difícil lidar com um grande número de parâmetros.

O design complicado do RNN rapidamente aborreceu o Chazelle. Assim, a partir de 2015, Chazelle e sete entusiastas começaram a desenvolver um substituto para o RNN, cujo resultado é o Transformer.

Comparado com RNN, o Transformer tem duas grandes inovações:

Primeiro, a codificação de posição substituiu o design cíclico do RNN, permitindo cálculos paralelos, aumentando significativamente a eficiência do treinamento e possibilitando o processamento de grandes volumes de dados, levando a IA para a era dos grandes modelos; segundo, melhorou ainda mais a capacidade de compreender o contexto.

O Transformer resolveu vários defeitos de uma só vez, tornando-se gradualmente a solução dominante na área de NLP, dando a sensação de que "sem o Transformer, a NLP estaria em uma longa noite eterna". Até o Ilya abandonou sua própria criação, o RNN, e passou a apoiar o Transformer.

Em outras palavras, o Transformer é a pedra angular de todos os grandes modelos atuais, transformando a pesquisa teórica em um problema puramente de engenharia.

Em 2019, a OpenAI desenvolveu o GPT-2 baseado em Transformer, surpreendendo a comunidade acadêmica. Em resposta, o Google lançou rapidamente uma IA mais poderosa, chamada Meena.

Comparado ao GPT-2, Meena não apresenta uma quebra de algoritmo, apenas aumentou em 8,5 vezes o número de parâmetros de treino e em 14 vezes a capacidade computacional. O autor do artigo do Transformer, Ashish Vaswani, ficou profundamente impressionado com essa abordagem de "empilhamento violento" e imediatamente escreveu um memorando intitulado "Meena devora o mundo".

A chegada do Transformer fez com que a velocidade de inovação dos algoritmos de base na academia diminuísse significativamente. Elementos de engenharia, como engenharia de dados, escala de poder computacional e arquitetura de modelos, tornaram-se gradualmente a chave nas competições de IA, permitindo que qualquer empresa de tecnologia com um certo nível de capacidade técnica pudesse desenvolver grandes modelos.

Assim, o cientista da computação Andrew Ng, ao falar na Universidade de Stanford, propôs: "A IA é um conjunto de ferramentas, incluindo aprendizado supervisionado, aprendizado não supervisionado, aprendizado por reforço e, agora, inteligência artificial generativa. Todas essas são tecnologias gerais, semelhantes a outras tecnologias gerais como eletricidade e internet."

Embora a OpenAI continue a ser a líder em LLM, a empresa de análise de semicondutores Semi Analysis acredita que a competitividade do GPT-4 vem principalmente de soluções de engenharia - se for open source, qualquer concorrente poderá replicá-lo rapidamente.

O analista prevê que outras grandes empresas de tecnologia poderão rapidamente desenvolver grandes modelos com desempenho equivalente ao GPT-4.

A vala construída sobre o vidro

Hoje, a "batalha dos cem modelos" já não é uma metáfora, mas uma realidade objetiva.

Relatórios relacionados mostram que, até julho deste ano, o número de grandes modelos no país já atingiu 130, superando os 114 dos Estados Unidos, conseguindo uma ultrapassagem em curva, e várias lendas e mitos quase não são suficientes para que as empresas de tecnologia nacionais consigam nomeá-los.

Fora da China e dos EUA, muitos países mais ricos também alcançaram basicamente o "um país, um modelo": além do Japão e dos Emirados Árabes Unidos, há o modelo Bhashini liderado pelo governo indiano, e o HyperClova X criado pela empresa de internet sul-coreana Naver.

Este cenário lembra a era de exploração da internet, onde a "capacidade de dinheiro" decidia tudo, com bolhas a voar por todo o lado.

Como mencionado anteriormente, o Transformer transformou grandes modelos em um problema puramente de engenharia; desde que haja talentos, financiamento e hardware, o resto fica a cargo dos parâmetros. No entanto, a diminuição da barreira de entrada não significa que qualquer um possa se tornar um gigante na era da IA.

O "conflito dos animais" mencionado no início é um caso típico: embora o Falcon tenha superado o Llama no ranking, é difícil dizer qual foi o impacto real sobre a Meta.

Como é bem sabido, as empresas que tornam públicos os seus resultados de investigação científica o fazem tanto para compartilhar as conquistas tecnológicas com a sociedade quanto para estimular a sabedoria popular. À medida que professores universitários, instituições de pesquisa e pequenas e médias empresas continuam a usar e melhorar o Llama, a Meta pode aplicar esses resultados nos seus próprios produtos.

Para grandes modelos de código aberto, uma comunidade de desenvolvedores ativa é a sua principal vantagem competitiva.

Desde a formação do laboratório de IA em 2015, a Meta estabeleceu as diretrizes básicas de código aberto; Zuckerberg, que começou com as redes sociais, compreende melhor a importância de "manter relações com o público".

Por exemplo, em outubro, a Meta organizou um evento especial chamado "Incentivo a Criadores em IA": desenvolvedores que utilizem o Llama 2 para resolver problemas sociais, como educação e meio ambiente, têm a oportunidade de receber um financiamento de 500.000 dólares.

Hoje, a série Llama da Meta tornou-se o padrão para LLMs de código aberto.

Até o início de outubro, 8 dos 10 principais LLMs em um ranking de código aberto eram desenvolvidos com base no Llama 2, todos utilizando seu protocolo de código aberto. Somente nessa plataforma, mais de 1500 LLMs já utilizam o protocolo de código aberto do Llama 2.

Claro, melhorar o desempenho como o Falcon não é uma má ideia, mas atualmente a maioria dos LLMs no mercado ainda apresenta uma diferença óbvia em relação ao GPT-4.

Por exemplo, recentemente, o GPT-4 obteve a primeira posição no teste AgentBench com uma pontuação de 4,41. O AgentBench é um padrão desenvolvido pela Universidade Tsinghua em colaboração com a Universidade Estadual de Ohio e a Universidade da Califórnia em Berkeley, destinado a avaliar a capacidade de raciocínio e tomada de decisão de LLM em ambientes de geração aberta multidimensionais, com tarefas que incluem sistemas operacionais, bancos de dados, grafos de conhecimento, batalhas de cartas e outras 8 diferentes tarefas.

Os resultados dos testes mostram que Claude, em segundo lugar, obteve apenas 2,77 pontos, ainda há uma diferença clara. Quanto aos LLMs de código aberto com grande alarde, suas pontuações nos testes ficam em torno de 1 ponto, menos de um quarto do GPT-4.

É importante notar que o GPT-4 foi lançado em março deste ano, e isso é o resultado de meio ano de competição global. A razão para essa diferença é a equipa de cientistas de alto nível da OpenAI e a experiência acumulada ao longo de anos de pesquisa em LLM, permitindo-lhes manter uma posição de liderança.

Em outras palavras, a capacidade central dos grandes modelos não são os parâmetros, mas sim a construção do ecossistema (código aberto) ou a capacidade pura de inferência (código fechado).

Com a crescente atividade da comunidade de código aberto, o desempenho dos diversos LLMs pode tender a convergir, uma vez que todos estão a utilizar arquiteturas de modelos e conjuntos de dados semelhantes.

Outra questão mais intuitiva é: além do Midjourney, parece que nenhum outro grande modelo conseguiu obter lucro.

Ponto de ancoragem de valor

Em agosto deste ano, um artigo intitulado "A OpenAI pode falir até o final de 2024" chamou bastante atenção. O tema do artigo pode ser resumido em uma frase: a velocidade com que a OpenAI está queimando dinheiro é demasiado rápida.

O texto menciona que, desde o desenvolvimento do ChatGPT, as perdas da OpenAI estão a aumentar rapidamente, com uma perda de cerca de 540 milhões de dólares apenas em 2022, tendo que esperar que os investidores da Microsoft paguem a conta.

Embora o título do artigo seja alarmante, também revela a realidade de muitos fornecedores de grandes modelos: um sério desequilíbrio entre custos e receitas.

Os custos excessivos fazem com que atualmente apenas a Nvidia ganhe muito dinheiro com inteligência artificial, podendo juntar-se a ela a Broadcom.

De acordo com a consultora Omdia, a Nvidia vendeu mais de 300.000 placas H100 no segundo trimestre deste ano. Trata-se de um chip de IA que tem uma eficiência de treinamento extremamente alta, e empresas de tecnologia e instituições de pesquisa em todo o mundo estão competindo para comprá-lo. Se empilharmos essas 300.000 placas H100, o seu peso é equivalente a 4,5 aviões Boeing 747.

Os resultados da Nvidia também dispararam, com um aumento de receita de 854% em relação ao ano anterior, surpreendendo Wall Street. Vale a pena mencionar que, atualmente, o preço do H100 no mercado de segunda mão já foi inflacionado para 40-50 mil dólares, enquanto o seu custo de material é de apenas cerca de 3000 dólares.

Os altos custos de poder computacional tornaram-se, em certa medida, um obstáculo ao desenvolvimento da indústria. A Sequoia Capital fez uma estimativa: as empresas de tecnologia em todo o mundo deverão gastar 200 mil milhões de dólares anualmente na construção de infraestrutura para grandes modelos; em contrapartida, os grandes modelos podem gerar no máximo 75 mil milhões de dólares de receita por ano, existindo uma lacuna de pelo menos 125 mil milhões de dólares.

Além disso, com exceção de poucas como a Midjourney, a maioria das empresas de software, após incorrer em enormes custos, ainda não sabe como lucrar. Especialmente o desempenho dos dois principais líderes da indústria - Microsoft e Adobe - tem sido um pouco insatisfatório.

A Microsoft e a OpenAI colaboraram no desenvolvimento de uma ferramenta de geração de código AI chamada GitHub Copilot. Embora cobre uma taxa mensal de 10 dólares, devido aos custos de operação, a Microsoft acaba por ter um prejuízo de 20 dólares, e os usuários intensivos podem fazer com que a Microsoft perca até 80 dólares por mês. Assim, pode-se supor que o Microsoft 365 Copilot, com um preço de 30 dólares, pode ter prejuízos ainda maiores.

Da mesma forma, a Adobe, que lançou recentemente a ferramenta Firefly AI, rapidamente introduziu um sistema de pontos associado para evitar que os usuários a utilizem em excesso, o que poderia levar a prejuízos para a empresa. Assim que os usuários utilizam mais do que os pontos alocados mensalmente, a Adobe reduz a velocidade do serviço.

É importante notar que a Microsoft e a Adobe já são gigantes de software com cenários de negócios bem definidos e uma quantidade significativa de usuários pagantes existentes. Enquanto isso, a maioria dos grandes modelos com parâmetros acumulados ainda tem como principal cenário de aplicação as conversas.

É inegável que, sem a emergência da OpenAI e do ChatGPT, esta revolução da IA pode não ter acontecido; mas atualmente, o valor trazido pelo treinamento de grandes modelos provavelmente precisa ser questionado.

Além disso, à medida que a concorrência homogênea se intensifica e há cada vez mais modelos de código aberto no mercado, o espaço disponível para fornecedores de grandes modelos puros pode ser ainda menor.

O sucesso do iPhone 4 não é devido ao processador A4 de 45nm, mas sim ao fato de que ele pode jogar Plants vs. Zombies e Angry Birds.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 5
  • Compartilhar
Comentário
0/400
MetamaskMechanicvip
· 07-11 04:21
Como a grande produção de aço.
Ver originalResponder0
ForkPrincevip
· 07-10 13:58
Modelos lutando tecnologia ou tecnologia
Ver originalResponder0
SpeakWithHatOnvip
· 07-08 05:03
Quem tiver a maior produção por hectare é o chefe, certo?
Ver originalResponder0
MEVSupportGroupvip
· 07-08 05:02
A especulação pode ser ainda maior?
Ver originalResponder0
StablecoinGuardianvip
· 07-08 04:45
Estes dois modelos estão a competir bastante intensamente. Terão alguma utilidade prática?
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)