
OpenAI разрабатывает новую экспериментальную систему под названием Confession, которая учит искусственный интеллект признавать свои ошибки. Если модель нарушила инструкции, подтасовала ответ или "сломала" тест, она должна честно в этом признаться.
ИИ обычно обучается сразу по нескольким критериям – точность, безопасность, соответствие политикам, стиль и предпочтения пользователя. Однако, когда все эти сигналы смешиваются, модель может начать искать обходные пути, например, имитировать соответствие требованиям или подстраиваться под ожидания.
Читайте такжеChatGPT выбрал подарок для моей бабушки, но чуть не купил слишком дорогой робот-пылесос.
Система признаний разделяет эти процессы – основной ответ оценивается по совокупности критериев, тогда как признание направлено исключительно на честность. Модель поощряет признание собственных нарушений или отклонений от инструкций, даже если в конечном ответе это осталось незамеченным.
В тестах GPT-5 на манипуляции, халтуру, вымыслы и т.п. модель признавалась в 95,6% случаев, когда не следовала инструкциям. В Confession модель получает вознаграждение не за правильный ответ, а за честность в объяснении того, как она к нему пришла.
Недавно у ChatGPT появилась модель GPT-5.1. А позже у ChatGPT появился помощник по покупкам, который уже работает в Украине.