IT House выпустил сегодня статью, в которой говорится, что объем слепой кучи модели ИИ на самом деле не обязательно лучше.Это больше зависит от качества обучающих данных.Недавно Microsoft выпустила языковую модель phi-1 с 1,3 миллиардами параметров , используя высококачественное обучение набору данных «Уровень учебника», говорят, что «фактический эффект лучше, чем GPT 3.5 со 100 миллиардами параметров». Модель основана на архитектуре Transformer, и команда Microsoft использовала данные «учебного уровня» из Интернета и «логически строгий контент», обработанный с помощью GPT-3.5, а также восемь графических процессоров Nvidia A100, чтобы завершить обучение всего за 4 часа. дни . Команда Microsoft заявила, что вместо увеличения количества параметров модели улучшение качества набора данных для обучения модели может повысить точность и эффективность модели, поэтому они использовали высококачественные данные для обучения модели phi-1. . В тесте показатель phi-1 достиг 50,6%, что лучше, чем GPT-3,5 (47%) со 175 миллиардами параметров. Microsoft также заявила, что в следующий раз в HuggingFace будет открыт исходный код phi-1, и это не первый раз, когда Microsoft разрабатывает небольшой LLM.Ранее они создали Orca с 13 миллиардами параметров, которая была обучена с использованием синтетических данных GPT-4. производительность также выше, чем у ChatGPT.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
IT House выпустил сегодня статью, в которой говорится, что объем слепой кучи модели ИИ на самом деле не обязательно лучше.Это больше зависит от качества обучающих данных.Недавно Microsoft выпустила языковую модель phi-1 с 1,3 миллиардами параметров , используя высококачественное обучение набору данных «Уровень учебника», говорят, что «фактический эффект лучше, чем GPT 3.5 со 100 миллиардами параметров». Модель основана на архитектуре Transformer, и команда Microsoft использовала данные «учебного уровня» из Интернета и «логически строгий контент», обработанный с помощью GPT-3.5, а также восемь графических процессоров Nvidia A100, чтобы завершить обучение всего за 4 часа. дни . Команда Microsoft заявила, что вместо увеличения количества параметров модели улучшение качества набора данных для обучения модели может повысить точность и эффективность модели, поэтому они использовали высококачественные данные для обучения модели phi-1. . В тесте показатель phi-1 достиг 50,6%, что лучше, чем GPT-3,5 (47%) со 175 миллиардами параметров. Microsoft также заявила, что в следующий раз в HuggingFace будет открыт исходный код phi-1, и это не первый раз, когда Microsoft разрабатывает небольшой LLM.Ранее они создали Orca с 13 миллиардами параметров, которая была обучена с использованием синтетических данных GPT-4. производительность также выше, чем у ChatGPT.