Дата публикации: 12.06.2025 12:00
Яндекс выпустил Yambda: крупнейший в мире открытый датасет для развития AI-рекомендаций
Российский технологический гигант Яндекс совершил значительный шаг в развитии искусственного интеллекта, представив миру беспрецедентный набор данных для совершенствования рекомендательных систем. Датасет под названием Yambda (Yandex Music Billion-Interactions Dataset) содержит почти 5 миллиардов обезличенных взаимодействий пользователей со стриминговым сервисом Яндекс Музыка и теперь доступен мировому сообществу разработчиков.
Почему это важно для развития искусственного интеллекта
Несмотря на стремительное развитие больших языковых моделей, прогресс в области рекомендательных систем значительно замедлен из-за отсутствия доступа к масштабным массивам данных. Существующие наборы данных, такие как Million Playlists от Spotify или Netflix Prize, имеют серьезные ограничения по объему и структуре, что не позволяет создавать по-настоящему эффективные алгоритмы, работающие в реальных условиях.
“Для создания эффективных рекомендательных моделей требуются терабайты поведенческих данных, которыми коммерческие платформы редко делятся с исследовательским сообществом”, — отмечается в сообщении Яндекса. Именно этот разрыв призван устранить Yambda.
Что содержит крупнейший в мире датасет для рекомендаций
Датасет Yambda представляет собой настоящую сокровищницу для исследователей и разработчиков:
- 4,79 миллиарда обезличенных пользовательских взаимодействий, собранных за 10 месяцев
- Данные от 1 миллиона пользователей, взаимодействующих с 9,39 миллионами треков
- Два типа обратной связи: неявная (прослушивания) и явная (лайки, дизлайки)
- Векторные представления треков (эмбеддинги), созданные с помощью свёрточных нейронных сетей
- Уникальный флаг is_organic, позволяющий различать действия, инициированные пользователем, и действия, предложенные рекомендательной системой
- Точные временные метки всех событий для анализа поведенческой динамики
Особенно ценным является наличие флага is_organic, который позволяет разделять действия пользователей на органические (когда пользователь сам находит контент) и те, что были вызваны работой рекомендательной системы. Эта особенность открывает новые возможности для исследования эффективности алгоритмов рекомендаций.
Универсальный инструмент для разных областей
Хотя датасет основан на данных музыкального сервиса, его значение выходит далеко за рамки музыкальной индустрии. Согласно заявлению Яндекса, Yambda может стать “универсальным стандартом для тестирования новых подходов и алгоритмов во всех сегментах, где используются рекомендательные системы, в том числе в электронной коммерции, социальных сетях, сервисах коротких видео”.
Датасет доступен в трёх вариантах — полном (около 5 миллиардов событий), среднем (500 миллионов) и малом (50 миллионов), что делает его пригодным для использования на различных вычислительных мощностях и для разных исследовательских задач.
Инновационный подход к оценке алгоритмов
Помимо самих данных, Яндекс предлагает методологию Global Temporal Split (GTS) для оценки качества алгоритмов. В отличие от традиционного подхода Leave-One-Out, GTS предполагает разбивку данных по времени, что позволяет сохранить естественную последовательность событий и обеспечивает более реалистичное тестирование моделей.
Для сравнения новых подходов Яндекс предоставил бейзлайны, полученные при тестировании популярных алгоритмов рекомендаций: MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA и SASRec. Оценка производилась по стандартным метрикам, включая качество ранжирования (NDCG@k), способность генерировать релевантные рекомендации (Recall@k) и разнообразие контента (Coverage@k).
Кому выгоден выпуск Yambda
Датасет представляет ценность для различных категорий пользователей:
- Исследователи смогут разрабатывать и тестировать новые алгоритмы рекомендаций в условиях, максимально приближенных к реальным
- Стартапы с ограниченными собственными данными получат возможность масштабировать свои системы и протестировать их на большом объеме реальных взаимодействий
- Компании смогут совершенствовать собственные рекомендательные системы, ориентируясь на высокие стандарты эффективности
Выпуск датасета Yambda знаменует новый этап в развитии технологий рекомендаций и демонстрирует лидерство Яндекса в области открытых исследований искусственного интеллекта. Датасет уже доступен на платформе Hugging Face, что делает его доступным для мирового сообщества исследователей и разработчиков.
По мере того как всё больше сервисов и платформ внедряют персонализированные рекомендации, значение таких открытых инициатив будет только возрастать, способствуя появлению более точных, разнообразных и этичных алгоритмов рекомендаций.