A IT House divulgou um artigo hoje afirmando que o volume de heap cego do modelo AI não é necessariamente melhor. Depende mais da qualidade dos dados de treinamento. A Microsoft lançou recentemente um modelo de linguagem phi-1 com 1,3 bilhão de parâmetros , usando treinamento de conjunto de dados de alta qualidade "nível de livro didático", diz-se que "o efeito real é melhor do que GPT 3.5 com 100 bilhões de parâmetros". O modelo é baseado na arquitetura Transformer, e a equipe da Microsoft usou dados "de nível de livro didático" da web e "conteúdo logicamente rigoroso" processado com GPT-3.5, bem como oito GPUs Nvidia A100, para concluir o treinamento em apenas 4 dias . A equipe da Microsoft disse que, em vez de aumentar o número de parâmetros do modelo, melhorar a qualidade do conjunto de dados de treinamento do modelo pode aumentar a precisão e a eficiência do modelo. Portanto, eles usaram dados de alta qualidade para treinar o modelo phi-1 . No teste, a pontuação do phi-1 atingiu 50,6%, o que é melhor do que o GPT-3,5 (47%) com 175 bilhões de parâmetros. A Microsoft também afirmou que o phi-1 será de código aberto no HuggingFace a seguir, e esta não é a primeira vez que a Microsoft desenvolve um pequeno LLM. Antes disso, eles criaram um Orca de 13 bilhões de parâmetros, que foi treinado usando dados sintéticos GPT-4. O desempenho também é melhor que o ChatGPT.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
A IT House divulgou um artigo hoje afirmando que o volume de heap cego do modelo AI não é necessariamente melhor. Depende mais da qualidade dos dados de treinamento. A Microsoft lançou recentemente um modelo de linguagem phi-1 com 1,3 bilhão de parâmetros , usando treinamento de conjunto de dados de alta qualidade "nível de livro didático", diz-se que "o efeito real é melhor do que GPT 3.5 com 100 bilhões de parâmetros". O modelo é baseado na arquitetura Transformer, e a equipe da Microsoft usou dados "de nível de livro didático" da web e "conteúdo logicamente rigoroso" processado com GPT-3.5, bem como oito GPUs Nvidia A100, para concluir o treinamento em apenas 4 dias . A equipe da Microsoft disse que, em vez de aumentar o número de parâmetros do modelo, melhorar a qualidade do conjunto de dados de treinamento do modelo pode aumentar a precisão e a eficiência do modelo. Portanto, eles usaram dados de alta qualidade para treinar o modelo phi-1 . No teste, a pontuação do phi-1 atingiu 50,6%, o que é melhor do que o GPT-3,5 (47%) com 175 bilhões de parâmetros. A Microsoft também afirmou que o phi-1 será de código aberto no HuggingFace a seguir, e esta não é a primeira vez que a Microsoft desenvolve um pequeno LLM. Antes disso, eles criaram um Orca de 13 bilhões de parâmetros, que foi treinado usando dados sintéticos GPT-4. O desempenho também é melhor que o ChatGPT.