ИИ-агенты провалили тесты на выполнение реальной фриланс-работы

Компании активно заменяют сотрудников на ИИ-агентов в надежде сократить расходы, но новое исследование показывает катастрофическую неэффективность такого подхода. Искусственный интеллект оказался не способен справиться даже с базовыми задачами фрилансеров.

Исследователи из некоммерческой организации Center for AI Safety и компании Scale AI, чья армия фрилансеров выполняет значительную часть рутинной работы для индустрии ИИ, протестировали шесть ведущих ИИ-агентов на симулированных фриланс-задачах. Результаты оказались разгромными – ни один агент не смог выполнить больше 3% работы, заработав всего $1810 из возможных $143 991.

Директор CAIS Дэн Хендрикс заявил изданию Wired:

Надеюсь, это даст более точное представление о реальных возможностях ИИ.

Для тестов разработчики создали собственный бенчмарк Remote Labor Index, использующий широкий спектр реальных удаленных проектов для оценки способности ботов выполнять экономически ценную работу в индустриях от геймдева до анализа данных.

Лучшим исполнителем стал ИИ-агент китайского стартапа Manus с показателем автоматизации всего 2,5%. Модель смогла завершить лишь 2,5% назначенных проектов на уровне, приемлемом для реальной фриланс-работы.

Второе место разделили Grok 4 Илона Маска и Claude Sonnet 4.5 от Anthropic с результатом 2,1%. Anthropic позиционирует свою модель как "лучшую в мире для программирования" и "самую мощную для создания сложных агентов".

Новейшая модель GPT-5 от OpenAI с заявленным "интеллектом уровня PhD" показала 1,7%. При этом глава компании Сэм Альтман утверждает, что GPT-5 – это значительный шаг на пути к AGI, то есть искусственному общему интеллекту, который должен превосходить человеческие когнитивные способности практически во всех аспектах. OpenAI определяет AGI как "высокоавтономные системы, превосходящие людей в большинстве экономически ценных работ" – то, чего GPT-5 явно не достигла.

Собственный ИИ-агент OpenAI под названием ChatGPT Agent оказался вторым с конца, едва достигнув 1,3%. Абсолютным аутсайдером стал Gemini 2.5 Pro от Google с удручающими 0,8%.

Продажа ИИ-агентов работодателям стала навязчивой идеей индустрии, так как лидеры вроде OpenAI пытаются монетизировать популярность своих чат-ботов, многие из которых бесплатны. Несмотря на энтузиазм руководителей, сокращающих персонал ради ИИ, остается вопросом, способна ли автоматизация реально повысить продуктивность или хотя бы компенсировать нехватку человеческих талантов.

Директор по исследованиям Scale AI Бинг Ли сказал изданию Wired:

Мы годами обсуждали ИИ и рабочие места, но большая часть дискуссий была гипотетической или теоретической.

Множество руководителей, заменивших сотрудников на ИИ, были вынуждены нанять людей обратно после обнаружения неэффективности инструментов. Исследование MIT показало, что 95% компаний, запустивших пилотные ИИ-инициативы, не зафиксировали значимого роста выручки. Другое исследование продемонстрировало, что внедрение ИИ-инструментов в рабочие процессы привело к потоку низкокачественного контента, который не только замедлил всё из-за необходимости масштабных правок, но и создал напряжение между коллегами, вынужденными исправлять такую "халтуру".

Хендрикс указал на недостатки, которые продолжают преследовать ИИ-агентов несмотря на стремительное развитие области.

У них нет долгосрочной памяти, они не могут непрерывно обучаться на опыте. Они не способны осваивать навыки в процессе работы, как люди.

Однако эти очевидные недостатки пока не замедлили волну увольнений, связанных с ИИ. Даже наоборот, тенденция только набирает обороты.

Связанные записи

Atari выкупила права на первые пять игр серии Wizardry и планирует возродить 45-летнюю франшизу

Японские разработчики требуют более производительные консоли для лучшей оптимизации игр

Новая игра от ветерана Mass Effect не будет конкурировать со Starfield