Создателей ИИ-кодера обвинили во лжи

Месяц назад Cognition представила Devin, "первого ИИ-инженера программного обеспечения", который, как утверждалось, может не только решать инженерные задачи, но и успешно выполнять задания на сайтах для фрилансеров. Создатели продемонстрировали способности ИИ на реальном кейсе Upwork, поразив аудиторию и заставив настоящих программистов опасаться за свои рабочие места.

Однако, похоже, они могут свободно вздохнуть — по крайней мере пока, так как Cognition недавно обвинили во лжи о производительности Devin в своих рекламных видео, включая это конкретное задание.

Канал на YouTube под названием Internet of Bugs недавно опубликовал видео с лаконичным названием "Разоблачение Devin: ложь "первого ИИ-инженера программного обеспечения" на Upwork раскрыта". В нем ведущий разбирает этот пример выполнения ИИ работы на Upwork.

Позже создатель этой задачи, Фелипе также рассказал, что ИИ сделал неправильно, и есть некоторые важные детали, которые стоит рассмотреть.

Во-первых, Devin не справился с самой важной частью задания — пониманием проблемы. В оригинальном посте говорилось:

Я хочу сделать инференцию с моделями в этом репозитории. Ваш результат будет подробной инструкцией, как сделать это в EC2 инстансе в AWS. Пожалуйста, предоставьте вашу оценку для выполнения этой работы.

Фелипе не смог сам выполнить задачу и согласовать различные версии ПО, поэтому ИИ должен был сделать это за него. Однако Cognition скормила Devin только первое предложение и сказала ему "разобраться". Учитывая, что запрос был во второй части, это значительная ошибка со стороны компании, поэтому ИИ, естественно, не смог дать ожидаемый результат.

Более того, как отметил инженер по машинному обучению и исследователь ИИ Деванш, сама работа, по-видимому, была "тщательно отобрана, чтобы показать Devin в лучшем свете". Что, вполне ожидаемо — компании постоянно отбирают лучшие результаты для рекламных материалов.

Еще одна способность ИИ-разработчика — это поиск ошибок, которые пропускают люди. И он действительно обнаружил ошибку в одном из файлов. Проблема в том, что этого файла не было в репозитории, и его создал сам ИИ, поэтому он исправил свою собственную ошибку — достойно восхищения, но не совсем революционно.

Так что Devin действительно решает какую-то задачу, просто не ту, которую должен был. Деванш также заметил, что на все решение у ИИ ушло много часов. Для сравнения, Internet of Bugs удалось ответить на реальный вопрос примерно за 30 минут. Так что людей-программистов еще будет работа, хотя можно не сомневаться, что способности ИИ только продолжат развиваться.

Для более глубокого разбора стоит посмотреть видео Internet of Bugs и почитать статью Деванша.

Связанные записи

Зрелищная перестрелка и немного юмора в трейлере красотки Линн для Duet Night Abyss

В бета-версии Frostpunk 2 скрыт ужасный сценарий, в котором все фракции воюют друг с другом

За год Embracer Group рассталась с 4500 сотрудниками и отменила 80 игр