Golden Finance informó que OpenAI publicó la última investigación, utilizando el monitoreo de CoT (cadena de pensamiento), puede prevenir comportamientos maliciosos como modelos grandes que dicen tonterías y ocultan verdaderas intenciones, y también es una de las herramientas efectivas para supervisar a los supermodelos. OpenAI utiliza el modelo de última generación o3-mini recientemente lanzado como objeto monitoreado, y el modelo GPT-4o más débil como monitor. El entorno de prueba es una tarea de codificación que requiere que la IA implemente la funcionalidad en el código base para superar las pruebas unitarias. Los resultados mostraron que el monitor CoT tuvo un buen desempeño en la detección de comportamientos sistemáticos de "piratería de recompensas", con una tasa de recuerdo de hasta el 95%, superando con creces el 60% de los comportamientos que solo se monitorearon.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
OpenAI lanza el monitoreo de CoT para detener el comportamiento malicioso de los modelos grandes
Golden Finance informó que OpenAI publicó la última investigación, utilizando el monitoreo de CoT (cadena de pensamiento), puede prevenir comportamientos maliciosos como modelos grandes que dicen tonterías y ocultan verdaderas intenciones, y también es una de las herramientas efectivas para supervisar a los supermodelos. OpenAI utiliza el modelo de última generación o3-mini recientemente lanzado como objeto monitoreado, y el modelo GPT-4o más débil como monitor. El entorno de prueba es una tarea de codificación que requiere que la IA implemente la funcionalidad en el código base para superar las pruebas unitarias. Los resultados mostraron que el monitor CoT tuvo un buen desempeño en la detección de comportamientos sistemáticos de "piratería de recompensas", con una tasa de recuerdo de hasta el 95%, superando con creces el 60% de los comportamientos que solo se monitorearon.