Golden Finance сообщила, что OpenAI выпустила последнее исследование, используя мониторинг CoT (цепочка мыслей), она может предотвратить вредоносное поведение, такое как большие модели, говорящие чепуху и скрывающие истинные намерения, а также является одним из эффективных инструментов для надзора за супермоделями. OpenAI использует недавно выпущенную передовую модель o3-mini в качестве объекта мониторинга, а более слабую модель GPT-4o — в качестве монитора. Тестовая среда — это задача кодирования, которая требует от ИИ реализации функциональности в кодовой базе для прохождения модульных тестов. Результаты показали, что монитор CoT показал хорошие результаты в обнаружении систематического поведения «взлома вознаграждения» с коэффициентом запоминаемости до 95%, что намного превышает 60% поведения, которое только отслеживалось.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
OpenAI выпускает CoT Monitoring, чтобы остановить вредоносное поведение больших моделей
Golden Finance сообщила, что OpenAI выпустила последнее исследование, используя мониторинг CoT (цепочка мыслей), она может предотвратить вредоносное поведение, такое как большие модели, говорящие чепуху и скрывающие истинные намерения, а также является одним из эффективных инструментов для надзора за супермоделями. OpenAI использует недавно выпущенную передовую модель o3-mini в качестве объекта мониторинга, а более слабую модель GPT-4o — в качестве монитора. Тестовая среда — это задача кодирования, которая требует от ИИ реализации функциональности в кодовой базе для прохождения модульных тестов. Результаты показали, что монитор CoT показал хорошие результаты в обнаружении систематического поведения «взлома вознаграждения» с коэффициентом запоминаемости до 95%, что намного превышает 60% поведения, которое только отслеживалось.