Разработка технологии машинопонимания нормативных документов: переход к работе с требованиями
Тихомиров С.Г.,
председатель ПТК 711 «Умные (SMART) стандарты»,
генеральный директор АО «Кодекс»
Переход от работы с нормативными документами к работе с отдельными требованиями приобретает особое значение в условиях цифровой трансформации для многих сфер. Например, в строительной отрасли именно требования становятся доказательной базой при прохождении экспертизы проектной документации и результатов инженерных изысканий,
а следовательно — и основой для цифровых сервисов проектирования и автоматизированного контроля. Рассмотрим, как разрабатываются технологии машинопонимания нормативных требований и какую роль здесь играет искусственный интеллект.
Тема искусственного интеллекта (ИИ) сегодня звучит повсеместно. Нередко этим термином обозначают любые современные компьютерные технологии. Однако подходить к ним следует
с осторожным оптимизмом и всегда ориентироваться на практическую пользу, которую они приносят сейчас и будут приносить в будущем.
Например, сложно переоценить роль ИИ для обеспечения машинопонимания нормативных документов. Мы в компании «Кодекс» активно используем его и для выделения требований
из текстов документов, и для обогащения этих требований дополнительными данными, и для составления семантических классификаторов (моделей нормативного языка). Последовательно разберёмся, как эти процессы связаны с машинопониманием документов и зачем вообще нужно, чтобы машины их понимали.
Запрос рынка на новые форматы документов
АО «Кодекс» цифровизирует работу с нормативными документами без малого 35 лет. Все эти годы ожидания пользователей от сервисов по работе с документами растут — а мы, в свою очередь, структурируем содержимое нормативных документов в наших системах, чтобы закрыть нарастающие потребности рынка. Так мы — одновременно со Стратегической консультативной группой ИСО по машиночитаемым стандартам (ISO SAG MRS) — в конце 2010-х пришли к пониманию, что для дальнейшей цифровизации экономики формат нормативных документов нужно менять. Документы нужно структурировать таким образом, чтобы их одинаково хорошо понимали и человек-специалист, и машина — без этого не получится вывести автоматизацию бизнес-процессов на новый уровень. Здесь появляется концепция умных (SMART) стандартов.
Что такое умный (SMART) стандарт? Это такое цифровое представление документов по стандартизации, в котором стандартизирована логическая структура и смысловое содержание стандарта. Если обычный документ предстает перед пользователем в виде единого текста, то «умный» документ уже структурирован и состоит из различных смысловых сущностей. Необходимо научиться выделять эти сущности, а потом научиться их обрабатывать для разных целей. К этим сущностям могут относиться фрагменты текста, но это могут быть и термины, таблицы, формулы, 2D- и 3D-объекты, даже программный код. Самой важной сущностью нормативного документа является требование (нормативное положение).

Рис. 1. Информационные элементы SMART-стандарта
В России на национальном уровне развитием нового формата занимается проектный технический комитет ПТК 711 «Умные (SMART) стандарты», который АО «Кодекс» возглавляет вместе с ФГБУ «Институт стандартизации». Задача ПТК 711 — определить, как нужно структурировать нормативные документы, какие сущности необходимо выявлять, какой архитектуры технически придерживаться, преобразовывая текстовый документ в «умный» формат. Выработанный консенсус фиксируется в стандартах на SMART-стандарты — то есть создаётся нормативная база для разработки и применения такого представления документов.

Рис. 2. Цели и задачи ПТК 711 «Умные (SMART) стандартов»
АО «Кодекс» — организация, которая разработала уже два предварительных национальных стандарта серии «Умные (SMART) стандарты» — «Основные положения» и «Архитектура и форматы данных» и активно апробирует их в ряде своих проектов. В ближайших планах — разработка ещё нескольких стандартов, в том числе связанных с обменом данными требований.
Переход от документов к требованиям
Как мы ранее отметили, требование (нормативное положение) — это самая главная сущность
в SMART-стандарте и во всей технологии SMART. Почему?
Дело в том, что профессионалу, работающему с документами, редко необходимо содержимое всего документа от первой до последней буквы. По статистике одного из крупных клиентов АО «Кодекс», из тысяч документов, которые читает специалист, для своих задач он использует 3-5 % информации. Необходимо обеспечить специалистов этой информацией точно и адресно —
и требование как дискретная единица информации подходит для таких целей лучше всего.
У термина «требование» есть много определений, но одно из самых ёмких дано в ГОСТ IEC 60050-901-2016 «Международный электротехнический словарь»:
Требование — это положение нормативного документа, содержащее критерии, которые должны быть соблюдены.
Данное определение ещё раз подчёркивает, что все специалисты, работающие с нормативными документами — правовыми или техническими — так или иначе работают с отдельными требованиями, даже если не осмысляют это в таких терминах. Представители строительной отрасли имеют о требованиях наиболее полное представление, поскольку с 1 сентября 2024 года именно требования из Реестра на портале «Стройкомплекс.РФ» должны быть доказательной базой всей проектной деятельности, проходящей через госэкспертизу.
В свою очередь компания «Кодекс» как ИТ-разработчик создаёт «умные» сервисы для работы
с нормативными требованиями, которые берут на себя всю механическую работу и оставляют специалисту только аналитику. В частности, на платформе «Техэксперт» создано решение «Техэксперт Реестр требований: Строительство», который совмещает, с одной стороны, базу требований, а с другой — сервисы по работе с ними.
Для снижения риска ошибок и сокращения времени работы с документами необходимо, чтобы система позволяла:
- поддерживать связь требования с документом-источником и быстро узнавать обо всех изменениях;
- гибко искать требования по разным атрибутам, в том числе по кодам классификаторов;
- создавать чек-листы и последовательно контролировать выполнение каждого требования
с фиксацией результатов проверки; - выгружать требования в необходимых форматах для работы вне системы;
- а главное — организовывать работу с требованиями, отталкиваясь от собственных задач, процессов и проектов.
Мы продолжаем развивать функционал систем, а главное — обмениваться опытом с ФАУ «ФЦС», оператором Реестра требований в области инженерных изысканий, проектирования, строительства и сноса на портале «Стройкомплекс.РФ». В ноябре 2024 года АО «Кодекс» и
ФАУ «ФЦС» заключили соглашение о сотрудничестве, чтобы консолидировать усилия и организовать совместную работу — как на методологическом, так и на практическом уровне.
Машинопонимание требований
В действующих Реестрах требований — и государственных, и разработанных частными компаниями — каждое требование, хотя и снабжено дополнительными данными, изложено на естественном языке. Можно реализовать много сервисов для работы с ними, но интерпретация, понимание и выполнение этого требования остаются на человеке. Для того чтобы доверить выполнение требования машине — то есть информационной или киберфизической системе — необходимо сделать его машинопонимаемым, то есть обеспечить возможность обработки текста документа вплоть до каждого значащего слова.

Рис. 3. Пример упрощённого требования с разбивкой на компоненты
Комментарии