В России представлен один из наиболее масштабных открытых наборов данных в сфере цифрового контента. Компания VK предоставила исследователям доступ к массиву информации о взаимодействии пользователей с короткими видео. Датасет VK-LSVD (Large Short-Video Dataset) включает более 40 миллиардов обезличенных взаимодействий, охватывающих поведение 10 миллионов человек и данные о 20 миллионах роликов за шестимесячный период.
Набор содержит детализированные сведения о том, как аудитория реагирует на короткие видеоролики: учитываются лайки, дизлайки, репосты, время просмотра и контекст воспроизведения. Кроме того, разработчики получили доступ к информации о социально-демографических характеристиках пользователей, что позволяет значительно повысить точность анализа и разработки алгоритмов персонализированных рекомендаций.
Короткие видео имеют особенность — они не воспринимаются в фоновом режиме, каждая единица контента получает ту или иную реакцию аудитории. Это делает подобные массивы особенно ценными для специалистов в области искусственного интеллекта, так как данные позволяют моделировать не только предпочтения пользователей, но и закономерности потребления контента.
Публикация таких наборов открытых данных является важным событием для научного и технологического сообщества. Она предоставляет возможность совершенствовать рекомендательные системы, разрабатывать новые подходы в сфере машинного обучения и тестировать инновационные модели анализа поведенческих данных.