Комментировать

Разработан подход, который поможет сделать ИИ менее склонным к соглашательству

Исследователи из России разработали подход, который позволяет максимально объективно оценивать склонность разрабатываемых больших языковых моделей соглашаться с запросами и требованиями пользователя. Это поможет улучшить работу ИИ при решении задач на логику и рассуждения, сообщила пресс-служба «Т-Технологий».

«Результаты исследования важны для всей индустрии, потому что затрагивают вопрос надежности больших языковых моделей, в том числе самых популярных. Подобные модели все чаще используются в задачах, где недостаточно дать убедительный ответ: нужно рассуждать строго и в какой-то момент даже не согласиться с пользователем. Наша работа предлагает практический способ этот эффект снижать», — заявил руководитель Центра исследований и разработок «Т-Технологий» Станислав Моисеев, чьи слова приводит пресс-служба компании.

Как отмечается в сообщении, большие языковые модели все чаще используются в сценариях, где необходима логическая корректность ответов, в том числе при решении математических задач, проверке программного кода и при анализе данных. В таких ситуациях очень важно, чтобы система ИИ была уверена в подготавливаемых ей ответах, видела логические противоречия в условиях задач и не была склонна соглашаться с изначально неверной позицией пользователя.

Российские ученые сделали большой шаг к решению этих проблем, разработав подход на базе двух тестов, которые позволяют максимально объективно оценивать склонность больших языковых моделей к соглашательству при решении этого класса задач. В рамках первого из них оценивается то, насколько меняется проверка готового решения в зависимости от того, задан ли пользователем заранее нейтральный или негативный контекст.

Второй тест позволяет определять то, насколько хорошо системы ИИ способны выявлять логические нестыковку при решении задач, в условиях которых есть противоречия. В таких ситуациях нейросеть должна не дать решение для изначально некорректной задачи, а найти эту проблему с логикой и указать на ее наличие. Оба этих подхода ученые использовали для оценки склонности к соглашательству у большого числа открытых и закрытых больших языковых моделей из семейств Qwen, GPT, DeepSeek, Claude Sonnet и Gemini.

Эти тесты показали, что изученные системы ИИ были склонны к соглашательству при решении логических задач в 23-50% случаев, причем допобучение на предпочтениях пользователей во многих ситуациях не улучшало качество их работы, а заставляло модель чаще соглашаться с неверной оценкой решения или ошибочной постановкой задачи. При этом тесты также указали на возможный путь коррекции этой проблемы при помощи особых модификаций в структуре моделей, что в перспективе позволит повысить их надежность, подытожили ученые. 

Источник: ТАСС

#технологии #искусственный интеллект #ИИ
Комментировать

Комментарии

Комментировать

Вам может быть интересно

92
#цифровизация

«Мозги» российской нейросети и триллионы рублей от ИИ. О чем говорил Мишустин в Алма-Ате

Председатель правительства РФ рассказал об экономическом эффекте от внедрения технологий ИИ в России, отличии российской нейросети от западной ChatGPT и российских предложениях для зарубежных партнеров
10
#росатом

«Росатом» создал тестовые образцы новых материалов с помощью ИИ

Специалисты госкорпорации "Росатом" в 2025 году создали тестовые образцы новых материалов, используя искусственный интеллект для их быстрого автоматизированного синтеза, следует из годового отчета АО "Атомэнергопром" (входит в "Росатом", консолидирует гражданские активы российской атомной отрасли) за 2025 год
58
#цифровизация

«Ростелеком» представил технологии для «умного» кампуса в НГУ

"Ростелеком" представил инновационное комплексное решение по проектированию и строительству "умных" кампусов. Презентация состоялась в рамках рабочего визита министра экономического развития РФ Максима Решетникова в Новосибирский государственный университет (НГУ)