OpenAI вновь удивляет — ИИ Sora превращает текстовые запросы в фотореалистичные видео

OpenAI анонсировала новую модель генерации видео под названием Sora. Компания заявляет, что Sora "способна создавать фотореалистичные сцены на основе текстовых запросов" и демонстрационные видео выглядят лучше чем все прошлые модели, предназначенные для данных целей. Сейчас модель text-to-video позволяет пользователям создавать видео длительностью до минуты, основываясь только на введённых ими подсказках.

По словам OpenAI, Sora способна создавать "сложные сцены с несколькими персонажами, определёнными типами движения и точными деталями объекта и фона". Компания также отмечает, что модель может понимать физику объектов в реальном мире, а также "точно интерпретировать реквизит и создавать убедительных персонажей с яркими эмоциями".

Sora by openAI looks incredible
byu/bot_exe inStableDiffusion

Модель умеет генерировать видео на основе одного кадра, а также заполнять пропущенные кадры или продлевать существующее видео. Среди примеров в блоге OpenAI — сцена золотой лихорадки в Калифорнии, вид из окна поезда в Токио и другие. Во многих присутствуют характерные артефакты ИИ, например подозрительно движущийся пол в музее. При этом в целом результаты впечатляют.

https://twitter.com/Radio_poodle/status/1758192957386342435

https://twitter.com/Radio_poodle/status/1758192964222988506

https://twitter.com/Radio_poodle/status/1758193609927721350

Совсем недавно лидерами в области генерации изображений по тексту были модели вроде Midjourney, но в последнее время качество видео стремительно улучшается: компании типа Runway и Pika продемонстрировали впечатляющие модели текст-в-видео, а Lumiere от Google обещает стать одним из главных конкурентов Sora. Подобно Sora, Lumiere предоставляет инструменты генерации видео по тексту и может создавать ролики на основе одного кадра.

Пока доступ к Sora имеют только избранные, оценивающие модель на предмет потенциального вреда, а также некоторые художники и кинематографисты. OpenAI отмечает, что текущая модель может некорректно симулировать физику сложных сцен и неправильно интерпретировать причинно-следственные связи.

Почитать полностью о Sora можно в блоге компании.

Связанные записи

Бывшие разработчики Half-Life: Alyx трудятся над Architect of Ruin – симулятором культа с рисованной графикой

Создатели «Клана Сопрано» снимут хоррор

Илон Маск: Я не видел никаких доказательств присутствия инопланетян