Технологии

Дата публикации: 12.06.2025 12:00

Яндекс выпустил Yambda: крупнейший в мире открытый датасет для развития AI-рекомендаций

Российский технологический гигант Яндекс совершил значительный шаг в развитии искусственного интеллекта, представив миру беспрецедентный набор данных для совершенствования рекомендательных систем. Датасет под названием Yambda (Yandex Music Billion-Interactions Dataset) содержит почти 5 миллиардов обезличенных взаимодействий пользователей со стриминговым сервисом Яндекс Музыка и теперь доступен мировому сообществу разработчиков.

Почему это важно для развития искусственного интеллекта

Несмотря на стремительное развитие больших языковых моделей, прогресс в области рекомендательных систем значительно замедлен из-за отсутствия доступа к масштабным массивам данных. Существующие наборы данных, такие как Million Playlists от Spotify или Netflix Prize, имеют серьезные ограничения по объему и структуре, что не позволяет создавать по-настоящему эффективные алгоритмы, работающие в реальных условиях.

“Для создания эффективных рекомендательных моделей требуются терабайты поведенческих данных, которыми коммерческие платформы редко делятся с исследовательским сообществом”, — отмечается в сообщении Яндекса. Именно этот разрыв призван устранить Yambda.

Что содержит крупнейший в мире датасет для рекомендаций

Датасет Yambda представляет собой настоящую сокровищницу для исследователей и разработчиков:

  • 4,79 миллиарда обезличенных пользовательских взаимодействий, собранных за 10 месяцев
  • Данные от 1 миллиона пользователей, взаимодействующих с 9,39 миллионами треков
  • Два типа обратной связи: неявная (прослушивания) и явная (лайки, дизлайки)
  • Векторные представления треков (эмбеддинги), созданные с помощью свёрточных нейронных сетей
  • Уникальный флаг is_organic, позволяющий различать действия, инициированные пользователем, и действия, предложенные рекомендательной системой
  • Точные временные метки всех событий для анализа поведенческой динамики

Особенно ценным является наличие флага is_organic, который позволяет разделять действия пользователей на органические (когда пользователь сам находит контент) и те, что были вызваны работой рекомендательной системы. Эта особенность открывает новые возможности для исследования эффективности алгоритмов рекомендаций.

Универсальный инструмент для разных областей

Хотя датасет основан на данных музыкального сервиса, его значение выходит далеко за рамки музыкальной индустрии. Согласно заявлению Яндекса, Yambda может стать “универсальным стандартом для тестирования новых подходов и алгоритмов во всех сегментах, где используются рекомендательные системы, в том числе в электронной коммерции, социальных сетях, сервисах коротких видео”.

Датасет доступен в трёх вариантах — полном (около 5 миллиардов событий), среднем (500 миллионов) и малом (50 миллионов), что делает его пригодным для использования на различных вычислительных мощностях и для разных исследовательских задач.

Инновационный подход к оценке алгоритмов

Помимо самих данных, Яндекс предлагает методологию Global Temporal Split (GTS) для оценки качества алгоритмов. В отличие от традиционного подхода Leave-One-Out, GTS предполагает разбивку данных по времени, что позволяет сохранить естественную последовательность событий и обеспечивает более реалистичное тестирование моделей.

Для сравнения новых подходов Яндекс предоставил бейзлайны, полученные при тестировании популярных алгоритмов рекомендаций: MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA и SASRec. Оценка производилась по стандартным метрикам, включая качество ранжирования (NDCG@k), способность генерировать релевантные рекомендации (Recall@k) и разнообразие контента (Coverage@k).

Кому выгоден выпуск Yambda

Датасет представляет ценность для различных категорий пользователей:

  • Исследователи смогут разрабатывать и тестировать новые алгоритмы рекомендаций в условиях, максимально приближенных к реальным
  • Стартапы с ограниченными собственными данными получат возможность масштабировать свои системы и протестировать их на большом объеме реальных взаимодействий
  • Компании смогут совершенствовать собственные рекомендательные системы, ориентируясь на высокие стандарты эффективности

Выпуск датасета Yambda знаменует новый этап в развитии технологий рекомендаций и демонстрирует лидерство Яндекса в области открытых исследований искусственного интеллекта. Датасет уже доступен на платформе Hugging Face, что делает его доступным для мирового сообщества исследователей и разработчиков.

По мере того как всё больше сервисов и платформ внедряют персонализированные рекомендации, значение таких открытых инициатив будет только возрастать, способствуя появлению более точных, разнообразных и этичных алгоритмов рекомендаций.

Писали по этой теме

Oracle предложила Казахстану партнерство в развитии искусственного интеллекта

Американская технологическая корпорация Oracle выразила готовность стать стратегическим партнером Казахстана в реализации национальной стратегии развития искусственного интеллекта. Компания п

7.11.2025 11:00

Казахстанские педагоги получат доступ к ChatGPT Edu: революция в образовании начнется с 2025 года

Министерство просвещения Республики Казахстан заключило знаковое соглашение с американской компанией OpenAI, которое откроет новую эру в отечественном образовании. Начиная с 2025 года, казахс

7.11.2025 07:00

Токаев встретился с основателями казахстанских IT-стартапов в США: новый импульс для цифровизации

Во время официального визита в Соединенные Штаты Америки Президент Казахстана Касым-Жомарт Токаев провел важную встречу с основателями казахстанских IT-стартапов. Это событие стало знаковым д

6.11.2025 18:00

Halyk Bank запустил революционный сервис облачной ЭЦП для казахстанского бизнеса

Казахстанский бизнес получил новый мощный инструмент для цифрового документооборота. Компания Halyk Bank Kazakhstan официально представила инновационный сервис облачной электронной цифровой п

6.11.2025 09:00

Революция в госуслугах: казахстанцы теперь могут отслеживать свои заявки в режиме реального времени

Ожидание результатов по государственным услугам больше не будет источником стресса для жителей Казахстана. Власти запустили инновационный цифровой сервис, который позволяет гражданам в любое

6.11.2025 09:00

Биткоин обвалился ниже $95 000: рекордные распродажи потрясли криптовалютный рынок

Криптовалютный рынок переживает один из самых драматичных периодов в своей истории. Биткоин, флагман цифровых активов, продолжает стремительное падение, опустившись ниже психологически важной

6.11.2025 04:00

Китайский робот Iron за $16 тысяч может поднять 20 кг: революция от Unitree Robotics

Китайская компания Unitree Robotics произвела фурор на рынке робототехники, представив своего нового человекоподобного робота Iron по цене всего $16 000. Эта разработка может стать переломным

5.11.2025 17:00

Казахстан достиг цифровой зрелости: программа Digital Bridge 2025 демонстрирует революционные результаты

Казахстан официально вступил в фазу цифровой зрелости, став одним из лидеров цифровой трансформации в регионе. Согласно последним данным программы Digital Bridge 2025, республика продемонстри

3.11.2025 05:00

FlyArystan революционизирует казахстанскую авиацию цифровыми технологиями

Казахстанский лоукостер FlyArystan активно трансформирует пассажирский опыт, внедряя передовые цифровые решения. Авиакомпания представила обновленное мобильное приложение и комплекс IT-сервис

3.11.2025 05:00

Казахстанские школьники завоевали четыре золотые медали на чемпионате мира по робототехнике

Юные инженеры из Казахстана продемонстрировали выдающиеся результаты на международной арене, завоевав четыре золотые медали на престижных Всемирных играх по робототехнике. Этот триумф подтвер

3.11.2025 03:00

Прорыв в блокчейне: казахстанский Алатау объединился с криптогородом Лугано

Алматинский технопарк «Алатау» заключил стратегическое партнерство со швейцарским городом Лугано, который стал пионером в области принятия криптовалют на государственном уровне. Это сотруднич

31.10.2025 10:00

Биткоин достигает нового ценового минимума: что происходит с криптовалютным рынком

Главная криптовалюта мира продолжает демонстрировать нисходящую динамику, формируя новые ценовые минимумы и вызывая обеспокоенность у инвесторов. Текущая ситуация на криптовалютном рынке треб

30.10.2025 04:00