OpenAI научит ИИ признавать ошибки и нарушения инструкций

OpenAI разрабатывает новую экспериментальную систему под названием Confession, которая учит искусственный интеллект признавать свои ошибки. Если модель нарушила инструкции, подтасовала ответ или "сломала" тест, она должна честно в этом признаться.

ИИ обычно обучается сразу по нескольким критериям – точность, безопасность, соответствие политикам, стиль и предпочтения пользователя. Однако, когда все эти сигналы смешиваются, модель может начать искать обходные пути, например, имитировать соответствие требованиям или подстраиваться под ожидания.

Читайте такжеChatGPT выбрал подарок для моей бабушки, но чуть не купил слишком дорогой робот-пылесос.

Система признаний разделяет эти процессы – основной ответ оценивается по совокупности критериев, тогда как признание направлено исключительно на честность. Модель поощряет признание собственных нарушений или отклонений от инструкций, даже если в конечном ответе это осталось незамеченным.

В тестах GPT-5 на манипуляции, халтуру, вымыслы и т.п. модель признавалась в 95,6% случаев, когда не следовала инструкциям. В Confession модель получает вознаграждение не за правильный ответ, а за честность в объяснении того, как она к нему пришла.

Недавно у ChatGPT появилась модель GPT-5.1. А позже у ChatGPT появился помощник по покупкам, который уже работает в Украине.

Связанные записи

Технологии

В Японии появились вендинговые автоматы, выдающие процессоры Intel Core по $3,25

dmitriy.vasyura
27.04.2024
0

Пользователь Sawara-San из Японии сообщил в соцсетях о появлении необычного автомата Gacha. Он интересен тем, что вместо напитков и игрушек выдает настоящие процессоры Intel Core […]

Технологии

Современный картофель произошел от помидоров 9 миллионов лет назад

dmitriy.vasyura
04.08.2025
0

Происходящие изменения климата подстегнули интерес ученых к изучению того, как полезные сельскохозяйственные культуры смогли пережить аналогичные катаклизмы в прошлом. На первом месте – картофель, третий […]

Технологии

Умное кольцо Index 01 выполняет всего одну задачу — но выполняет ее идеально

dmitriy.vasyura
11.12.2025
0

Недавно возрожденный бренд Pebble представил кольцо под названием Index 01, которое позиционируется как внешняя память для вашего мозга. Оно предназначено для быстрой записи заметок с […]