Нейросеть Sora: детальный обзор возможностей

Обзоры

Всем привет! Нейросеть Sora от OpenAI вызывает в равной степени восхищение и беспокойство. Я постараюсь разобрать, чем же является Sora и к чему может привести дальнейшее её развитие. Но прежде чем переходить к деталям, мы должны признать, что некоторые демо-версии поражают воображение.

Примеры видео созданные с помощью Sora

Например, эта — акулы летящие в водухе на фоне небоскребов города или бабочка летящая под водой. Однако это не значит, что мы должны полностью поддаться маркетингу OpenAI, нужно смотреть как это будет работать в реальности. Я даже не думаю, что авторы Sora подписались бы под этим утверждением.

По моему мнению, главное преимущество Sora в том, что она не просто «склеивает» отдельные картинки в видео, а действительно понимает и моделирует физику реального мира.

Как использовать нейросеть Sora из России

Хотя Sora была недавно публично анонсирована, по заверениям OpenAI, она все еще находится в стадии разработки. Официальная страница нейросети находится по адресу: https://openai.com/sora. Чтобы первым узнать о запуске нейросети Sora, подписывайтесь на мой телеграм канал, посвещенному нейросетям.

Как работает Sora (+ примеры)

В OpenAI утверждают, что они обучают текстово-условные диффузионные модели на видео и изображениях с различной продолжительностью, разрешением и соотношением сторон. Они используют архитектуру трансформаторов, которая оперирует пространственно-временными патчами латентных кодов видео и изображений. Самая крупная модель, Sora, способна генерировать минуту видео с высокой точностью.

Базовый расчет
4-кратное вычисление
32-кратное вычисление

Мы видим, что при увеличении вычислительных мощностей (массивов графических процессоров для обучения) в 4 и 32 раз, результаты значительно улучшаются. Хотя, как мы видели на примере GPT-4, масштабирование не решает проблему с рассуждениями — по-прежнему будут возникать нарушения законов физики.

Гибкость сэмплирования

Sora может сэмплировать широкоформатное видео 1920x1080p, вертикальное видео 1080×1920 и все, что между ними. Это позволяет Sora создавать контент для различных устройств непосредственно с их родным соотношением сторон. Это также позволяет нам быстро создавать прототипы контента в более низких размерах перед генерацией в полном разрешении — и все это с помощью одной и той же модели.

Еще примеры видео сгенерированные Sora

Сравнение образцов видео с фиксированными семплами и входными данными по мере обучения. Качество образцов заметно улучшается по мере увеличения количества обучающих вычислений.

Sora вобрала в себя миллиарды и триллионы графических вариаций. Отсюда и аномалии, подобные тем, которые можно увидеть на видео предоставленными OpenAI.

Чтобы прояснить: я также поражен Sora, как и все остальные. Я просто хочу немного контекстуализировать. Итак, перейдем к большему количеству подробностей.

Ограничения

Sora может генерировать видео длительностью до одной минуты с разрешением до 1080p. Что касается более высокого разрешения, эта демо-версия была одной из самых шокирующих — посмотрите, как последовательно отображаются отражения.

Все эти демо-версии поистине поразительны. Но давайте теперь перейдем к примерам, где Sora явно не понимает окружающий мир. Как и понимание чат-ботов, понимание Sora тоже может быть поверхностным. Она не понимает физику стакана, льда или проливания.

В заметках к релизу OpenAI говорит следующее: «В текущей модели есть недостатки. Она может испытывать трудности с точным моделированием физики сложной сцены. Она не совсем понимает причинно-следственные связи. Она также путает левую и правую стороны, а объекты появляются спонтанно и исчезают без видимых причин«. Это немного напоминает GPT-4 в том плане, что оно ошеломляет и выглядит интеллектуально, но если слишком пристально вглядываться, картина начинает распадаться.

Вывод

Sora — не идеальная, посмотрите на последнее видео, но, честно говоря, замечательная. Действительно, я бы назвал Sora выдающимся достижением человечества!

Благодарю вас за прочтение этого поста до самого конца. И, несмотря на то, что многие думают, оно не сгенерировано ИИ. Желаю вам прекрасного дня!

Фанат ИИ, а также исследователь и практикующий специалист в области нейронных сетей. Владелец сообщества в телеграмме и вконтакте, посвещенный нейросетям.

Оцените автора
Лабаратория нейросетей
Добавить комментарий