Xitoyning ByteDance kompaniyasi e'lon qildi Goku - video yaratish uchun mo'ljallangan neyron tarmoqlar oilasi. Rivojlanish Gonkong universiteti tadqiqotchilari bilan birgalikda olib borildi.
Goku gorizontal va vertikal formatlarda video ishlab chiqarishni qo'llab-quvvatlaydi va bir nechta rejimlarda ishlaydi: Text to Video, Image to Video va Text to Image. Neyron tarmoq arxitekturasining markazida Rectified flow transformers texnologiyasi joylashgan bo'lib, u tokenlar orasidagi ma'lumotlar oqimini to'g'rilaydi va yanada Real va batafsil tasvirni ta'minlaydi.
Vbench testlarida Goku modeli Text to Video reytingida Pika-1.0, OpenSora V1.2, Kling va Mira yechimlarini ortda qoldirib, 84,85 ball to'pladi. Boshqa testlarda — GenEval va DPG-Bench — neyron tarmoq mos ravishda 0,76 va 83,65 ball to'pladi.
Asosiy versiyaga qo'shimcha ravishda Goku+ 20 soniyagacha bo'lgan reklama videolarini yaratishga qaratilgan model taqdim etiladi. U imo-ishora qiladigan va ramkadagi narsalar, shu jumladan reklama qilingan mahsulotlar bilan o'zaro aloqada bo'lgan realistik odamlarni yaratishga qodir.