Google DeepMind анонсировала две новые модели на базе Gemini, которые компания называет "фундаментом для нового поколения полезных роботов". Лаборатория искусственного интеллекта расширяет применение технологии Gemini 2.0, вышедшей в конце прошлого года, в сферу робототехники.
Первая модель, Gemini Robotics, разработана специально для прямого управления роботами. По словам DeepMind, системы ИИ для роботов должны обладать тремя ключевыми качествами — универсальностью, интерактивностью и ловкостью.
Универсальность подразумевает способность робота адаптироваться к новым ситуациям, включая те, которые не были предусмотрены в обучении. Интерактивность означает умение реагировать на людей и окружающую среду. Ловкость — наиболее очевидный навык, так как многие задачи, которые люди выполняют не задумываясь, требуют от роботов тонкой моторики, которую сложно воспроизвести.
Хотя наши предыдущие разработки демонстрировали прогресс в этих областях, Gemini Robotics представляет существенный скачок в производительности по всем трем направлениям, приближая нас к действительно универсальным роботам.
На практических демонстрациях робот ALOHA 2 под управлением Gemini Robotics складывает оригами и закрывает зип-пакеты. Двурукий робот понимает все инструкции, данные на естественном, повседневном языке. Видео от Google также показывает, что робот может выполнять задания даже при возникновении препятствий, например, когда исследователь перемещает контейнер, в который робот должен положить фрукты.
Google также объявила о партнерстве с компанией Apptronik, создателем двуногого робота Apollo, для разработки следующего поколения человекоподобных роботов.
Одновременно DeepMind выпускает вторую модель — Gemini Robotics-ER (Embodied Reasoning), которая позволит специалистам по робототехнике запускать собственные программы с использованием продвинутых возможностей рассуждения Gemini. DeepMind предоставляет доступ к системе "доверенным тестировщикам", включая бывшую дочернюю компанию Google — Boston Dynamics.