OpenAI научила ChatGPT признавать собственное нездоровое поведение посредством исповеди

OpenAI представила новую систему обучения искусственного интеллекта, которая учит модели честно рассказывать о собственных ошибках и нежелательных действиях пользователя и самой системы. Подход получил название "исповедь" (confession).

Модель создает второй вывод, отдельный от основного ответа, где честно сообщает о допущенных отклонениях в своем поведении, чтобы угодить пользователю. Главный ответ оценивается по множеству параметров, тогда как исповедь тренируется только на честности. Исследователи обучили версию GPT-5 Thinking создавать такие отчеты и тестировали на датасетах, провоцирующих нежелательное поведение вроде обмана или нарушения правил.

Проблема заключается в том, что большие языковые модели часто обучаются выдавать ответы, которые кажутся желательными для пользователя. Это приводит к угодничеству или уверенному изложению галлюцинаций – выдуманной информации, которую ИИ представляет как факт. Особенно сильно это стало проявляться в версии 4о и последовавшией за ней GPT5.

OpenAI объявила "код красный" из-за усиления конкуренции ChatGPT с моделями Google

OpenAI нужно привлечь 207 миллиардов долларов к 2030 году, чтобы и дальше работать в убыток

Новая система обучения побуждает модель давать дополнительный ответ о том, как она пришла к основному результату. При этом "исповеди" оцениваются исключительно по честности, тогда как основные ответы проверяются по множеству параметров – полезности, точности и соответствию инструкциям.

OpenAI отмечает, что большинство ошибок происходит из-за искренней путаницы модели в неоднозначных инструкциях, а не из-за намеренного обмана. Компания планирует масштабировать исследование для проверки стабильности метода.

OpenAI объявила "код красный" из-за усиления конкуренции ChatGPT с моделями Google

OpenAI нужно привлечь 207 миллиардов долларов к 2030 году, чтобы и дальше работать в убыток

Связанные записи

Жуткие лесные твари и оборона поселений в трейлере сурвайвал-стратегии Night Is Coming от российской студии

В сеть слили прототип флеш-картриджа для Nintendo Switch с несколькими играми

Астронавты Boeing Starliner задержатся на МКС еще на месяц