OpenAI научила ChatGPT признавать собственное нездоровое поведение посредством исповеди

Поделиться

OpenAI научила ChatGPT признавать собственное нездоровое поведение посредством исповеди

OpenAI представила новую систему обучения искусственного интеллекта, которая учит модели честно рассказывать о собственных ошибках и нежелательных действиях пользователя и самой системы. Подход получил название "исповедь" (confession).

Модель создает второй вывод, отдельный от основного ответа, где честно сообщает о допущенных отклонениях в своем поведении, чтобы угодить пользователю. Главный ответ оценивается по множеству параметров, тогда как исповедь тренируется только на честности. Исследователи обучили версию GPT-5 Thinking создавать такие отчеты и тестировали на датасетах, провоцирующих нежелательное поведение вроде обмана или нарушения правил.

Проблема заключается в том, что большие языковые модели часто обучаются выдавать ответы, которые кажутся желательными для пользователя. Это приводит к угодничеству или уверенному изложению галлюцинаций – выдуманной информации, которую ИИ представляет как факт. Особенно сильно это стало проявляться в версии 4о и последовавшией за ней GPT5.

OpenAI объявила "код красный" из-за усиления конкуренции ChatGPT с моделями Google

OpenAI объявила "код красный" из-за усиления конкуренции ChatGPT с моделями Google

OpenAI нужно привлечь 207 миллиардов долларов к 2030 году, чтобы и дальше работать в убыток

OpenAI нужно привлечь 207 миллиардов долларов к 2030 году, чтобы и дальше работать в убыток

Новая система обучения побуждает модель давать дополнительный ответ о том, как она пришла к основному результату. При этом "исповеди" оцениваются исключительно по честности, тогда как основные ответы проверяются по множеству параметров – полезности, точности и соответствию инструкциям.

OpenAI отмечает, что большинство ошибок происходит из-за искренней путаницы модели в неоднозначных инструкциях, а не из-за намеренного обмана. Компания планирует масштабировать исследование для проверки стабильности метода.

Это интересно

Похожие новости

Тонші рамки і камера від “прошки”: з’явилися нові деталі про майбутній iPhone 17e

У мережі з’явилися нові подробиці про дисплей майбутнього iPhone...

Новий Android-смартфон вразив користувачів майже стовідсотковою підтримкою: чим він підкорив ринок

Листопадовий звіт AnTuTu показав абсолютного фаворита серед Android-смартфонів за...

Аналитики зафиксировали снижение волатильности первой криптовалюты

3 декабря цена первой криптовалюты поднялась до ~$93 800,...

В Перми разработали материал для ремонта дорог в течение всего года

В Пермском национальном исследовательском политехе, также известном...