Poder de computação em falta: os desafios e as respostas do treino de grandes modelos
O treinamento de grandes modelos está em plena expansão, mas a escassez de GPUs de alto desempenho se tornou um grande desafio enfrentado pela indústria. Apesar dos preços em constante ascensão, o aluguel mensal de uma GPU de topo já atingiu 50.000 a 70.000 yuan, mas ainda assim é difícil encontrar uma. Esta situação de alta demanda e baixa oferta é difícil de aliviar no curto prazo, e as grandes empresas estão avaliando quanto "estoque" têm em mãos.
No entanto, o limiar para o treinamento de grandes modelos não se resume apenas a obter GPUs. Tomemos como exemplo um grande modelo meteorológico, cujo custo de treinamento ultrapassa 2 milhões de yuanes. Para modelos gerais, é difícil continuar sem um investimento de bilhões de yuanes. Alguns empreendedores descrevem a concorrência atual no campo dos grandes modelos como uma "queima de dinheiro"; sem um forte apoio financeiro, é difícil persistir.
Diante dessa dificuldade, as empresas também estão ativamente buscando soluções. Alguns métodos incluem: usar dados de maior qualidade para aumentar a eficiência do treinamento; melhorar a capacidade da infraestrutura para garantir operação estável por longos períodos; otimizar a alocação de Poder de computação para aumentar a utilização; adotar uma arquitetura de supercomputador em vez da arquitetura de computação em nuvem, entre outros. Além disso, algumas empresas optam por usar plataformas nacionais para o treinamento e inferência de grandes modelos, substituindo as escassas GPUs importadas.
Na verdade, o poder de computação está se tornando um novo modelo de serviço. O serviço de poder de computação baseia-se na diversificação do poder de computação e, através da ligação de redes de poder de computação, tem como objetivo fornecer poder de computação eficaz. Ele não inclui apenas o poder de computação, mas também abrange a embalagem unificada de recursos como armazenamento e rede. Nesta cadeia industrial, as empresas upstream fornecem recursos básicos de poder de computação, as empresas midstream são responsáveis pela produção e fornecimento de poder de computação, enquanto os downstream são usuários de setores que dependem do serviço de poder de computação para agregar valor.
Com a normalização da demanda por computação de alto desempenho por modelos grandes, os serviços de poder de computação estão rapidamente se desenvolvendo em uma cadeia industrial e modelo de negócios únicos. Embora atualmente existam problemas de escassez de GPUs de alto desempenho e altos custos, a longo prazo, a prestação de serviços de poder de computação é uma tendência certa. Os provedores de serviços de poder de computação precisam se antecipar e estar preparados para as mudanças no mercado.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
9 gostos
Recompensa
9
4
Partilhar
Comentar
0/400
TooScaredToSell
· 08-06 10:11
Sem força, corra rápido, queimando dinheiro.
Ver originalResponder0
CompoundPersonality
· 08-06 10:09
Fui minerar com GPU, adeus e até logo.
Ver originalResponder0
RektButSmiling
· 08-06 10:06
Os jogadores de explosão de cartões apareceram novamente.
Treinamento de grandes modelos de IA encontra gargalos, a escassez de Poder de computação provoca dificuldades na indústria e respostas.
Poder de computação em falta: os desafios e as respostas do treino de grandes modelos
O treinamento de grandes modelos está em plena expansão, mas a escassez de GPUs de alto desempenho se tornou um grande desafio enfrentado pela indústria. Apesar dos preços em constante ascensão, o aluguel mensal de uma GPU de topo já atingiu 50.000 a 70.000 yuan, mas ainda assim é difícil encontrar uma. Esta situação de alta demanda e baixa oferta é difícil de aliviar no curto prazo, e as grandes empresas estão avaliando quanto "estoque" têm em mãos.
No entanto, o limiar para o treinamento de grandes modelos não se resume apenas a obter GPUs. Tomemos como exemplo um grande modelo meteorológico, cujo custo de treinamento ultrapassa 2 milhões de yuanes. Para modelos gerais, é difícil continuar sem um investimento de bilhões de yuanes. Alguns empreendedores descrevem a concorrência atual no campo dos grandes modelos como uma "queima de dinheiro"; sem um forte apoio financeiro, é difícil persistir.
Diante dessa dificuldade, as empresas também estão ativamente buscando soluções. Alguns métodos incluem: usar dados de maior qualidade para aumentar a eficiência do treinamento; melhorar a capacidade da infraestrutura para garantir operação estável por longos períodos; otimizar a alocação de Poder de computação para aumentar a utilização; adotar uma arquitetura de supercomputador em vez da arquitetura de computação em nuvem, entre outros. Além disso, algumas empresas optam por usar plataformas nacionais para o treinamento e inferência de grandes modelos, substituindo as escassas GPUs importadas.
Na verdade, o poder de computação está se tornando um novo modelo de serviço. O serviço de poder de computação baseia-se na diversificação do poder de computação e, através da ligação de redes de poder de computação, tem como objetivo fornecer poder de computação eficaz. Ele não inclui apenas o poder de computação, mas também abrange a embalagem unificada de recursos como armazenamento e rede. Nesta cadeia industrial, as empresas upstream fornecem recursos básicos de poder de computação, as empresas midstream são responsáveis pela produção e fornecimento de poder de computação, enquanto os downstream são usuários de setores que dependem do serviço de poder de computação para agregar valor.
Com a normalização da demanda por computação de alto desempenho por modelos grandes, os serviços de poder de computação estão rapidamente se desenvolvendo em uma cadeia industrial e modelo de negócios únicos. Embora atualmente existam problemas de escassez de GPUs de alto desempenho e altos custos, a longo prazo, a prestação de serviços de poder de computação é uma tendência certa. Os provedores de serviços de poder de computação precisam se antecipar e estar preparados para as mudanças no mercado.