Технологии

Дата публикации: 12.06.2025 12:00

Яндекс выпустил Yambda: крупнейший в мире открытый датасет для развития AI-рекомендаций

Российский технологический гигант Яндекс совершил значительный шаг в развитии искусственного интеллекта, представив миру беспрецедентный набор данных для совершенствования рекомендательных систем. Датасет под названием Yambda (Yandex Music Billion-Interactions Dataset) содержит почти 5 миллиардов обезличенных взаимодействий пользователей со стриминговым сервисом Яндекс Музыка и теперь доступен мировому сообществу разработчиков.

Почему это важно для развития искусственного интеллекта

Несмотря на стремительное развитие больших языковых моделей, прогресс в области рекомендательных систем значительно замедлен из-за отсутствия доступа к масштабным массивам данных. Существующие наборы данных, такие как Million Playlists от Spotify или Netflix Prize, имеют серьезные ограничения по объему и структуре, что не позволяет создавать по-настоящему эффективные алгоритмы, работающие в реальных условиях.

“Для создания эффективных рекомендательных моделей требуются терабайты поведенческих данных, которыми коммерческие платформы редко делятся с исследовательским сообществом”, — отмечается в сообщении Яндекса. Именно этот разрыв призван устранить Yambda.

Что содержит крупнейший в мире датасет для рекомендаций

Датасет Yambda представляет собой настоящую сокровищницу для исследователей и разработчиков:

  • 4,79 миллиарда обезличенных пользовательских взаимодействий, собранных за 10 месяцев
  • Данные от 1 миллиона пользователей, взаимодействующих с 9,39 миллионами треков
  • Два типа обратной связи: неявная (прослушивания) и явная (лайки, дизлайки)
  • Векторные представления треков (эмбеддинги), созданные с помощью свёрточных нейронных сетей
  • Уникальный флаг is_organic, позволяющий различать действия, инициированные пользователем, и действия, предложенные рекомендательной системой
  • Точные временные метки всех событий для анализа поведенческой динамики

Особенно ценным является наличие флага is_organic, который позволяет разделять действия пользователей на органические (когда пользователь сам находит контент) и те, что были вызваны работой рекомендательной системы. Эта особенность открывает новые возможности для исследования эффективности алгоритмов рекомендаций.

Универсальный инструмент для разных областей

Хотя датасет основан на данных музыкального сервиса, его значение выходит далеко за рамки музыкальной индустрии. Согласно заявлению Яндекса, Yambda может стать “универсальным стандартом для тестирования новых подходов и алгоритмов во всех сегментах, где используются рекомендательные системы, в том числе в электронной коммерции, социальных сетях, сервисах коротких видео”.

Датасет доступен в трёх вариантах — полном (около 5 миллиардов событий), среднем (500 миллионов) и малом (50 миллионов), что делает его пригодным для использования на различных вычислительных мощностях и для разных исследовательских задач.

Инновационный подход к оценке алгоритмов

Помимо самих данных, Яндекс предлагает методологию Global Temporal Split (GTS) для оценки качества алгоритмов. В отличие от традиционного подхода Leave-One-Out, GTS предполагает разбивку данных по времени, что позволяет сохранить естественную последовательность событий и обеспечивает более реалистичное тестирование моделей.

Для сравнения новых подходов Яндекс предоставил бейзлайны, полученные при тестировании популярных алгоритмов рекомендаций: MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA и SASRec. Оценка производилась по стандартным метрикам, включая качество ранжирования (NDCG@k), способность генерировать релевантные рекомендации (Recall@k) и разнообразие контента (Coverage@k).

Кому выгоден выпуск Yambda

Датасет представляет ценность для различных категорий пользователей:

  • Исследователи смогут разрабатывать и тестировать новые алгоритмы рекомендаций в условиях, максимально приближенных к реальным
  • Стартапы с ограниченными собственными данными получат возможность масштабировать свои системы и протестировать их на большом объеме реальных взаимодействий
  • Компании смогут совершенствовать собственные рекомендательные системы, ориентируясь на высокие стандарты эффективности

Выпуск датасета Yambda знаменует новый этап в развитии технологий рекомендаций и демонстрирует лидерство Яндекса в области открытых исследований искусственного интеллекта. Датасет уже доступен на платформе Hugging Face, что делает его доступным для мирового сообщества исследователей и разработчиков.

По мере того как всё больше сервисов и платформ внедряют персонализированные рекомендации, значение таких открытых инициатив будет только возрастать, способствуя появлению более точных, разнообразных и этичных алгоритмов рекомендаций.

Писали по этой теме

Samsung представляет инновационные ультраширокие дисплеи для корпоративного сектора

Компания Samsung Electronics объявила о выпуске нового поколения ультраширокий дисплеев, специально разработанных для решения задач современного бизнеса. Новинки обещают революционизировать р

23.09.2025 10:00

Blackstone с активами в $1 трлн предложил Казахстану совместные проекты дата-центров

Американский инвестиционный гигант Blackstone, управляющий активами на сумму свыше одного триллиона долларов, проявил серьезный интерес к развитию дата-центров в Казахстане. Предложение о стр

22.09.2025 18:00

Cerberus предлагает Казахстану стратегическое партнерство в развитии блокчейн-технологий

Международная технологическая компания Cerberus выступила с инициативой о сотрудничестве с Казахстаном в сфере цифровых технологий. Предложение касается развития блокчейн-инфраструктуры и вне

22.09.2025 16:00

Amazon Kuiper строит спутниковую инфраструктуру в трех городах Казахстана

Американский технологический гигант Amazon объявил о планах создания наземной инфраструктуры для своего амбициозного спутникового проекта Kuiper в Казахстане. Компания выбрала три крупнейших

22.09.2025 16:00

Цифровая гигиена в 2024 году: почему 80% пользователей рискуют своими данными

В эпоху тотальной цифровизации наша онлайн-безопасность становится не менее важной, чем физическое здоровье. Однако статистика показывает тревожную картину: более 80% пользователей интернета

22.09.2025 10:00

Цифровая гигиена в 2024 году: Почему защита данных стала жизненной необходимостью

В эпоху тотальной цифровизации каждый клик, каждый лайк и каждая покупка в интернете оставляют невидимые следы. Эти цифровые отпечатки могут как облегчить нашу жизнь, так и стать источником с

22.09.2025 09:00

IT-индустрия Казахстана призывает к кардинальной реформе законодательства

Казахстанские технологические компании выступили с масштабными предложениями по модернизации законодательной базы, которые могут кардинально изменить облик цифровой экономики страны. Представ

19.09.2025 17:00

Революционный ИИ-переводчик из Китая поддерживает 144 языка и работает без интернета

Языковые барьеры скоро могут стать пережитком прошлого благодаря новому компактному устройству китайских разработчиков. Представленный недавно ИИ-переводчик обещает изменить подход к междунар

19.09.2025 12:00

Глава Binance Казахстан: “Цифровые активы — это настоящее, а не будущее страны”

Казахстан стоит на пороге цифровой революции, и криптовалюты уже перестали быть экзотикой для местных инвесторов. Об этом заявил руководитель Binance Казахстан в эксклюзивном интервью, подчер

19.09.2025 05:00

Искусственный интеллект поможет казахстанским врачам назначать аспирин для профилактики инфарктов

Казахстан делает революционный шаг в цифровизации здравоохранения. Отечественные медики получат мощный инструмент на базе искусственного интеллекта для проактивного назначения ацетилсалицилов

18.09.2025 06:00

Как решения ФРС США могут кардинально изменить судьбу криптовалютного рынка

Федеральная резервная система США вновь оказалась в центре внимания инвесторов, и на этот раз ставки особенно высоки для держателей криптовалют. Решения американского Центробанка по процентны

18.09.2025 06:00

Токаев предложил создать межрелигиозную комиссию по этике искусственного интеллекта

Президент Казахстана Касым-Жомарт Токаев выдвинул инновационную инициативу по созданию межрелигиозной комиссии, которая будет заниматься вопросами этики развития искусственного интеллекта. Эт

17.09.2025 10:00