Китайская компания ByteDance анонсировала Goku — семейство нейросетей, предназначенных для создания видео. Разработка велась совместно с исследователями Гонконгского университета.
Goku поддерживает генерацию видео в горизонтальном и вертикальном форматах и работает в нескольких режимах: Text to Video, Image to Video и Text to Image. В основе архитектуры нейросети лежит технология Rectified flow transformers, которая корректирует поток данных между токенами, обеспечивая более реалистичное и детализированное изображение.
В тестах VBench модель Goku показала результат 84,85 балла, обойдя решения Pika-1.0, OpenSora V1.2, Kling и Mira в рейтинге Text to Video. В других тестах — GenEval и DPG-Bench — нейросеть набрала 0,76 и 83,65 балла соответственно.
В дополнение к базовой версии представлена Goku+ — модель, ориентированная на создание рекламных видеороликов длиной до 20 секунд. Она способна генерировать реалистичных людей, которые жестикулируют и взаимодействуют с предметами в кадре, включая рекламируемую продукцию.