Комментировать

Российские разработчики выпустили открытую библиотеку для обучения NLP-моделей без глубокого погружения в ML

Исследователи из MWS AI (подразделение МТС Web Services), питерского ИТМО и Университета искусственного интеллекта имени Мохаммеда бин Зайеда выпустили OpenAutoNLU — открытую библиотеку для автоматического обучения моделей понимания текста.

Идея простая: разработчик загружает датасет, вводит минимум команд — и получает готовую модель. Библиотека сама выбирает режим обучения в зависимости от объёма и структуры данных. Это значит, что она работает даже при дефиците размеченных примеров.

Библиотека закрывает два основных класса задач: классификацию текстов и распознавание именованных сущностей (NER) — когда из текста нужно вытащить телефон, адрес или название компании.

Отдельно реализовано распознавание «чужих» запросов — когда пользователь пишет что-то, выходящее за рамки обученных категорий. Для чат-ботов это критично: лучше сказать «не знаю», чем уверенно ответить невпопад.

Встроенные инструменты диагностики помогают находить ошибочно размеченные примеры ещё до начала обучения. Плюс есть генерация синтетических данных через LLM — полезно, когда примеров на класс буквально несколько штук.

На тестах OpenAutoNLU вошла в число лучших на трёх из четырёх датасетов по качеству классификации, в задаче OOD-детекции также обогнала ряд популярных открытых инструментов.

Разработка заняла около полутора лет. По словам Григория Аршинова, технического лидера NLP-команды MWS AI, главной сложностью стало не написать код, а провести массив экспериментов, чтобы понять, какие режимы обучения работают лучше на разных типах данных.

Библиотека доступна как модуль платформы MWS AI Agents Platform для создания и управления ИИ-агентами.

Источник: MLTimes

#обучение #искусственный интеллект #ИИ
Комментировать

Комментарии

Комментировать

Вам может быть интересно

92
#цифровизация

«Мозги» российской нейросети и триллионы рублей от ИИ. О чем говорил Мишустин в Алма-Ате

Председатель правительства РФ рассказал об экономическом эффекте от внедрения технологий ИИ в России, отличии российской нейросети от западной ChatGPT и российских предложениях для зарубежных партнеров
10
#росатом

«Росатом» создал тестовые образцы новых материалов с помощью ИИ

Специалисты госкорпорации "Росатом" в 2025 году создали тестовые образцы новых материалов, используя искусственный интеллект для их быстрого автоматизированного синтеза, следует из годового отчета АО "Атомэнергопром" (входит в "Росатом", консолидирует гражданские активы российской атомной отрасли) за 2025 год
71
#образование

«Антиплагиат» добавил в свою платформу возможность выявлять сгенерированный текст и ИИ-ассистента

Компания «Антиплагиат» выпустила «Антиплагиат 2.0» — обновление своей платформы для обнаружения текстовых заимствований