Технологии

Дата публикации: 12.06.2025 12:00

Яндекс выпустил Yambda: крупнейший в мире открытый датасет для развития AI-рекомендаций

Российский технологический гигант Яндекс совершил значительный шаг в развитии искусственного интеллекта, представив миру беспрецедентный набор данных для совершенствования рекомендательных систем. Датасет под названием Yambda (Yandex Music Billion-Interactions Dataset) содержит почти 5 миллиардов обезличенных взаимодействий пользователей со стриминговым сервисом Яндекс Музыка и теперь доступен мировому сообществу разработчиков.

Почему это важно для развития искусственного интеллекта

Несмотря на стремительное развитие больших языковых моделей, прогресс в области рекомендательных систем значительно замедлен из-за отсутствия доступа к масштабным массивам данных. Существующие наборы данных, такие как Million Playlists от Spotify или Netflix Prize, имеют серьезные ограничения по объему и структуре, что не позволяет создавать по-настоящему эффективные алгоритмы, работающие в реальных условиях.

“Для создания эффективных рекомендательных моделей требуются терабайты поведенческих данных, которыми коммерческие платформы редко делятся с исследовательским сообществом”, — отмечается в сообщении Яндекса. Именно этот разрыв призван устранить Yambda.

Что содержит крупнейший в мире датасет для рекомендаций

Датасет Yambda представляет собой настоящую сокровищницу для исследователей и разработчиков:

  • 4,79 миллиарда обезличенных пользовательских взаимодействий, собранных за 10 месяцев
  • Данные от 1 миллиона пользователей, взаимодействующих с 9,39 миллионами треков
  • Два типа обратной связи: неявная (прослушивания) и явная (лайки, дизлайки)
  • Векторные представления треков (эмбеддинги), созданные с помощью свёрточных нейронных сетей
  • Уникальный флаг is_organic, позволяющий различать действия, инициированные пользователем, и действия, предложенные рекомендательной системой
  • Точные временные метки всех событий для анализа поведенческой динамики

Особенно ценным является наличие флага is_organic, который позволяет разделять действия пользователей на органические (когда пользователь сам находит контент) и те, что были вызваны работой рекомендательной системы. Эта особенность открывает новые возможности для исследования эффективности алгоритмов рекомендаций.

Универсальный инструмент для разных областей

Хотя датасет основан на данных музыкального сервиса, его значение выходит далеко за рамки музыкальной индустрии. Согласно заявлению Яндекса, Yambda может стать “универсальным стандартом для тестирования новых подходов и алгоритмов во всех сегментах, где используются рекомендательные системы, в том числе в электронной коммерции, социальных сетях, сервисах коротких видео”.

Датасет доступен в трёх вариантах — полном (около 5 миллиардов событий), среднем (500 миллионов) и малом (50 миллионов), что делает его пригодным для использования на различных вычислительных мощностях и для разных исследовательских задач.

Инновационный подход к оценке алгоритмов

Помимо самих данных, Яндекс предлагает методологию Global Temporal Split (GTS) для оценки качества алгоритмов. В отличие от традиционного подхода Leave-One-Out, GTS предполагает разбивку данных по времени, что позволяет сохранить естественную последовательность событий и обеспечивает более реалистичное тестирование моделей.

Для сравнения новых подходов Яндекс предоставил бейзлайны, полученные при тестировании популярных алгоритмов рекомендаций: MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA и SASRec. Оценка производилась по стандартным метрикам, включая качество ранжирования (NDCG@k), способность генерировать релевантные рекомендации (Recall@k) и разнообразие контента (Coverage@k).

Кому выгоден выпуск Yambda

Датасет представляет ценность для различных категорий пользователей:

  • Исследователи смогут разрабатывать и тестировать новые алгоритмы рекомендаций в условиях, максимально приближенных к реальным
  • Стартапы с ограниченными собственными данными получат возможность масштабировать свои системы и протестировать их на большом объеме реальных взаимодействий
  • Компании смогут совершенствовать собственные рекомендательные системы, ориентируясь на высокие стандарты эффективности

Выпуск датасета Yambda знаменует новый этап в развитии технологий рекомендаций и демонстрирует лидерство Яндекса в области открытых исследований искусственного интеллекта. Датасет уже доступен на платформе Hugging Face, что делает его доступным для мирового сообщества исследователей и разработчиков.

По мере того как всё больше сервисов и платформ внедряют персонализированные рекомендации, значение таких открытых инициатив будет только возрастать, способствуя появлению более точных, разнообразных и этичных алгоритмов рекомендаций.

Писали по этой теме

Яндекс выпустил Yambda: крупнейший в мире открытый датасет для развития AI-рекомендаций

Российский технологический гигант Яндекс совершил значительный шаг в развитии искусственного интеллекта, представив миру беспрецедентный набор данных для совершенствования рекомендательных си

12.06.2025 12:00

Binance Казахстан поддерживает инициативы Нацбанка по развитию криптоиндустрии

Открытый диалог между регуляторами и участниками криптоиндустрии становится ключевым фактором формирования зрелого цифрового финансового рынка в Казахстане. Генеральный менеджер Binance Kazak

11.06.2025 11:00

Цифровая революция в сфере охраны труда: как стартапы Astana Hub спасают жизни и миллионы тенге

Инновационные решения казахстанских IT-компаний сокращают производственный травматизм на 20% и трансформируют подход к безопасности на рабочих местах. Искусственный интеллект, беспилотники и

10.06.2025 09:00

Цифровой прорыв: 239 млрд тенге инвестируют в интернетизацию более 3000 сёл Казахстана

Казахстан запускает масштабный проект по преодолению цифрового неравенства между городом и селом. К 2027 году высокоскоростной интернет появится более чем в 3000 сельских населенных пунктах,

9.06.2025 13:00

Nvidia запускает амбициозный 50-летний проект: глобальная сеть из 100 AI-фабрик изменит технологическое будущее

Компания Nvidia, мировой лидер в области графических и вычислительных технологий, приступила к реализации беспрецедентного по масштабам стратегического проекта, который может определить будущ

9.06.2025 03:00

Финансовая революция: Пять казахстанских банков внедряют криптокарты при поддержке Нацбанка

Казахстан делает значительный шаг в сторону интеграции криптовалют в традиционную финансовую систему. Как сообщил председатель Национального банка Тимур Сулейменов, пять банков страны уже под

5.06.2025 15:00

Цифровая трансформация в действии: система Tizilim для недропользования запускается с 1 июля

С 1 июля 2023 года Казахстан делает важный шаг в цифровизации процессов недропользования. Министерство промышленности и строительства объявило о запуске модернизированной государственной инфо

5.06.2025 08:00

366 млн упаковок под защитой: Как работает система маркировки лекарств в Казахстане

За десять месяцев с момента внедрения обязательной цифровой маркировки в Казахстане было промаркировано 366 миллионов упаковок лекарственных препаратов. Эта впечатляющая цифра была озвучена п

4.06.2025 05:00

Яндекс Go интегрирует сервис аренды пауэрбанков «Бери заряд» — забудьте о разряженном смартфоне

Популярный сервис Яндекс Go представил новую функцию, которая избавит пользователей от тревоги о разряженном смартфоне. Теперь непосредственно в приложении доступна услуга аренды портативных

3.06.2025 11:00

Казахстан на пути к цифровому лидерству: Токаев обсудил стратегическое партнерство с Google

На полях Международного форума в Астане состоялась стратегическая встреча президента Казахстана Касым-Жомарта Токаева с вице-президентом Google по Центральной и Восточной Европе Патриком Ворн

29.05.2025 13:00

Яндекс и КФФ объединяют силы: Историческое партнерство нацелено на выход сборной Казахстана на Чемпионат мира

Казахстанская федерация футбола (КФФ) и компания Yandex Qazaqstan подписали меморандум о сотрудничестве, который продлится до июля 2030 года. Церемония подписания состоялась 27 мая 2025 года

29.05.2025 10:00

Казахстан создаст CryptoCity и внедряет суперкомпьютер: курс на технологическое лидерство

Президент Казахстана Касым-Жомарт Токаев объявил о планах создания пилотной зоны CryptoCity в рамках стратегии по превращению страны в ведущий инновационный хаб Центральной Азии. Заявление пр

29.05.2025 07:00