Nvidia представила нейросеть, которая генерирует ролики из текста Новости

Можно получить короткое, но качественное видео.

Nvidia продемонстрировала свою новую разработку — нейросеть VideoLDM, которая создает короткие видео на основе текстового описания. В работе нейросеть учитывает около 4,1 миллиарда параметров, 2,7 из которых она выявила, обучаясь на других видео.

VideoLDM может создавать ролики в разрешении 2048х1280 и с частотой кадров 24 к/с, при этом их длительность слегка не дотягивает до 5 секунд (4,7 с). В качестве команд нейросеть может воспринимать как простые описания вроде «плывущая собака», так и комплексные запросы типа «медведь играет на пианино в лесу, пригласив других зверей попеть».

В данный момент нейросети от Nvidia нет в открытом доступе, а пользователи могут лишь посмотреть большой примеров ее работ на официальном сайте.

Источник: Nvidia

Вам также понравятся