OpenAI выпускает CoT Monitoring, чтобы остановить вредоносное поведение больших моделей

2025-03-10 22:48:31

Генерация тезисов в процессе

Golden Finance сообщила, что OpenAI выпустила последнее исследование, используя мониторинг CoT (цепочка мыслей), она может предотвратить вредоносное поведение, такое как большие модели, говорящие чепуху и скрывающие истинные намерения, а также является одним из эффективных инструментов для надзора за супермоделями. OpenAI использует недавно выпущенную передовую модель o3-mini в качестве объекта мониторинга, а более слабую модель GPT-4o — в качестве монитора. Тестовая среда — это задача кодирования, которая требует от ИИ реализации функциональности в кодовой базе для прохождения модульных тестов. Результаты показали, что монитор CoT показал хорошие результаты в обнаружении систематического поведения «взлома вознаграждения» с коэффициентом запоминаемости до 95%, что намного превышает 60% поведения, которое только отслеживалось.

GPT-2.33%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
Gate 2025 Q2 Report Released
3k Популярность
Gate Derivatives Volume Hits New High
5k Популярность
CPI Data Incoming
33k Популярность
4Join Gate VIP to Win MacBook
30k Популярность
5MicroStrategy Buys More Bitcoin
496 Популярность
6BTC Hits New High
94k Популярность
7My Gate Moments
27k Популярность
8VIP Exclusive Airdrop Carnival
26k Популярность
9Fed June Meeting Minutes
7k Популярность
10Gate Alpha Trading Share
14k Популярность

Закрепить

Карта сайта