Согласно последним тестам OpenAI, новейшие языковые модели компании демонстрируют значительно более высокую склонность к галлюцинациям (выдача ложной информации) по сравнению с предыдущими версиями. Это открытие вызывает серьезную обеспокоенность, особенно учитывая, что причины такого ухудшения остаются неясными.
Исследование, о котором сообщает The New York Times, показало шокирующие результаты: модель GPT o3, считающаяся самой мощной системой OpenAI, галлюцинирует в 33% случаев при проведении теста PersonQA, который включает ответы на вопросы о публичных фигурах. Это более чем вдвое превышает частоту галлюцинаций предыдущей системы GPT o1. Еще хуже дела обстоят с новой GPT o4-mini, которая показала уровень галлюцинаций в 48%.
При проведении другого теста, SimpleQA, который задает более общие вопросы, показатели оказались еще более тревожными: уровень галлюцинаций составил 51% для GPT o3 и ошеломляющие 79% для GPT o4-mini. Для сравнения, предыдущая система GPT o1 галлюцинировала в 44% случаев при этом же тесте.
OpenAI заявляет, что необходимы дополнительные исследования для понимания причин увеличения ошибок в новейших моделях. Однако некоторые отраслевые эксперты указывают на так называемые "reasoning models" (модели с рассуждением) как на возможный источник проблемы.
Представитель OpenAI Габи Райла, однако, не согласна с утверждением, что модели с рассуждением страдают от повышенной частоты галлюцинаций:
Галлюцинации не обязательно более распространены в моделях рассуждения, хотя мы активно работаем над снижением более высоких показателей галлюцинаций, которые мы наблюдали в o3 и o4-mini.
Модели рассуждения, такие как o1, выпущенная в прошлом году, были разработаны для выполнения сложных задач, разбивая вопросы на отдельные шаги, подобно человеческому процессу мышления.
Независимо от причин, одно можно сказать с уверенностью – модели искусственного интеллекта должны в значительной степени исключить бессмыслицу и ложь, если они хотят быть настолько полезными, как предполагают их создатели. Сейчас результаты работы любой крупной языковой модели требуют внимательной проверки, что, фактически, нивелирует преимущества использования ИИ для экономии времени и труда – по крайней мере в сферах, где точность важна.