IT House a publié aujourd'hui un article indiquant que le volume de tas aveugle du modèle AI n'est en fait pas nécessairement meilleur. Cela dépend davantage de la qualité des données de formation. Microsoft a récemment publié un modèle de langage phi-1 avec 1,3 milliard de paramètres , en utilisant une formation d'ensemble de données de haute qualité "niveau manuel", il est dit que "l'effet réel est meilleur que GPT 3.5 avec 100 milliards de paramètres". Le modèle est basé sur l'architecture Transformer, et l'équipe Microsoft a utilisé des données "de qualité manuel" du Web et un "contenu logiquement rigoureux" traité avec GPT-3.5, ainsi que huit GPU Nvidia A100, pour terminer la formation en seulement 4 jours. L'équipe Microsoft a déclaré qu'au lieu d'augmenter le nombre de paramètres du modèle, l'amélioration de la qualité de l'ensemble de données de formation du modèle peut améliorer la précision et l'efficacité du modèle.Par conséquent, ils ont utilisé des données de haute qualité pour former le modèle phi-1. . Dans le test, le score de phi-1 a atteint 50,6 %, ce qui est mieux que GPT-3,5 (47 %) avec 175 milliards de paramètres. Microsoft a également déclaré que phi-1 sera ensuite open source dans HuggingFace, et ce n'est pas la première fois que Microsoft développe un petit LLM. Auparavant, ils ont créé un Orca de 13 milliards de paramètres, qui a été formé à l'aide de données synthétiques GPT-4. les performances sont également meilleures que ChatGPT.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
IT House a publié aujourd'hui un article indiquant que le volume de tas aveugle du modèle AI n'est en fait pas nécessairement meilleur. Cela dépend davantage de la qualité des données de formation. Microsoft a récemment publié un modèle de langage phi-1 avec 1,3 milliard de paramètres , en utilisant une formation d'ensemble de données de haute qualité "niveau manuel", il est dit que "l'effet réel est meilleur que GPT 3.5 avec 100 milliards de paramètres". Le modèle est basé sur l'architecture Transformer, et l'équipe Microsoft a utilisé des données "de qualité manuel" du Web et un "contenu logiquement rigoureux" traité avec GPT-3.5, ainsi que huit GPU Nvidia A100, pour terminer la formation en seulement 4 jours. L'équipe Microsoft a déclaré qu'au lieu d'augmenter le nombre de paramètres du modèle, l'amélioration de la qualité de l'ensemble de données de formation du modèle peut améliorer la précision et l'efficacité du modèle.Par conséquent, ils ont utilisé des données de haute qualité pour former le modèle phi-1. . Dans le test, le score de phi-1 a atteint 50,6 %, ce qui est mieux que GPT-3,5 (47 %) avec 175 milliards de paramètres. Microsoft a également déclaré que phi-1 sera ensuite open source dans HuggingFace, et ce n'est pas la première fois que Microsoft développe un petit LLM. Auparavant, ils ont créé un Orca de 13 milliards de paramètres, qui a été formé à l'aide de données synthétiques GPT-4. les performances sont également meilleures que ChatGPT.