Комментировать

Российская разработка помогла европейским ученым ускорить обучение ИИ в 60 раз

Созданный в России крупнейший набор данных для обучения рекомендательных систем помог исследователям из Европы разработать подход, который позволяет в десятки раз ускорить обучение ИИ без потери качества.

«Работа голландских ученых с российским датасетом наглядно демонстрирует практическую ценность открытых данных для ускорения разработки ИИ-рекомендаций. Долгое время доступ исследовательского сообщества к крупномасштабным промышленным данным был ограничен. «Яндекс», открыв Yambda, одним из первых устранил этот разрыв, предоставив уникальный инструмент для глобального прорыва в этой области», — говорится в сообщении.

Как отмечается в сообщении, в начале лета 2025 года исследователи из «Яндекса» разработали и опубликовали в открытом доступе один из крупнейших в мире наборов данных для развития рекомендательных систем, полная версия которых включает в себя пять миллиардов элементов. Он был построен на базе обезличенных данных «Яндекс. Музыки» и включал в себя агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики музыкальных записей.

Набор обучающих данных был недавно использован учеными из Амстердамского университета для разработки нового подхода к обучению рекомендательных систем, основанных на базе созданного китайскими учеными алгоритма SEATER. Он позволяет организовать все товары или треки в умный иерархический каталог, похожий на дерево папок на компьютере.

В теории, каталог позволяет системе быстрее и точнее выдавать рекомендации, однако при этом его подготовка занимает очень много времени в процессе обучения. В реальных продуктах это мешало часто обновлять рекомендации и быстро реагировать на изменения пользовательских предпочтений. Нидерландские исследователи подготовили два альтернативных подхода, позволяющих ускорять подготовку каталога, и проверили их на данных «Яндекса».

Эти проверки показали, что один из новых алгоритмов сократил время подготовки данных с 82 минут до 83 секунд — почти в 60 раз, при этом он почти не повлиял на качество рекомендаций, благодаря чему созданный китайскими специалистами алгоритм по-прежнему превосходит уже популярные и применяющиеся на рынке системы. Как отметили в «Яндексе», весь код улучшенной модели SEATER был выложен в открытый доступ, что наглядно демонстрирует пользу от публикации и использования больших наборов данных для разработки и обучения ИИ.

Источник: ТАСС

#обучение #искусственный интеллект #ИИ
Комментировать

Комментарии

Комментировать

Вам может быть интересно

85
#цифровизация

«Мозги» российской нейросети и триллионы рублей от ИИ. О чем говорил Мишустин в Алма-Ате

Председатель правительства РФ рассказал об экономическом эффекте от внедрения технологий ИИ в России, отличии российской нейросети от западной ChatGPT и российских предложениях для зарубежных партнеров
28
#образование

«Антиплагиат» добавил в свою платформу возможность выявлять сгенерированный текст и ИИ-ассистента

Компания «Антиплагиат» выпустила «Антиплагиат 2.0» — обновление своей платформы для обнаружения текстовых заимствований
50
#Китай

«ИИ в коробке»: в Китае набирают популярность системы для локального запуска моделей

Китайские компании, обеспокоенные сохранностью своих данных, отдают предпочтение «ИИ в коробке». Такие системы позволяют запускать генеративные модели в локальном или частном облаке, на которые приходится около половины рынка облачных сервисов в стране