Разработка технологии машинопонимания нормативных требований:
от SMART-стандартов к онтологиям

АО «Кодекс»

Переход от работы с нормативными документами к работе с отдельными требованиями приобретает особое значение в условиях цифровой трансформации для многих сфер. Например, именно требования становятся основой для цифровых сервисов проектирования и автоматизированного контроля. Рассмотрим, как разрабатываются технологии машинопонимания нормативных требований и какую роль здесь играет искусственный интеллект.
Тема искусственного интеллекта (ИИ) сегодня звучит повсеместно. Нередко этим термином обозначают любые современные компьютерные технологии. Однако подходить к ним следует с осторожным оптимизмом и всегда ориентироваться на практическую пользу, которую они приносят сейчас и будут приносить в будущем.
Одна из сфер, где сложно переоценить роль ИИ, — обеспечение машинопонимания нормативных документов. Специалисты компании «Кодекс», в частности, активно используют его и для выделения требований из текстов документов, и для обогащения этих требований дополнительными данными, и для составления семантических классификаторов (моделей нормативного языка). Последовательно разберёмся, как эти процессы связаны с машинопониманием документов и зачем вообще нужно, чтобы машины их понимали.

Запрос рынка на новые форматы документов

АО «Кодекс» цифровизирует работу с нормативными документами без малого 35 лет.
Все эти годы ожидания пользователей от сервисов по работе с документами растут — а компания-разработчик, в свою очередь, по необходимости ищет способы структурировать содержимое нормативных документов в своих системах, чтобы закрыть нарастающие потребности рынка. Так эксперты АО «Кодекс» — одновременно со Стратегической консультативной группой ИСО по машиночитаемым стандартам (ISO SAG MRS) — в конце 2010-х пришли к пониманию, что для дальнейшей цифровизации экономики формат нормативных документов нужно менять. Документы нужно структурировать таким образом, чтобы их одинаково хорошо понимали и человек-специалист, и машина — без этого не получится вывести автоматизацию бизнес-процессов на новый уровень. Здесь появляется концепция умных (SMART) стандартов.
Что такое умный (SMART) стандарт? Это такое цифровое представление документов по стандартизации, в котором стандартизирована логическая структура и смысловое содержание стандарта. Если обычный документ предстает перед пользователем в виде единого текста, то «умный» документ уже структурирован и состоит из различных смысловых сущностей. Необходимо научиться выделять эти сущности, а потом — обрабатывать их для разных целей. К этим сущностям могут относиться фрагменты текста, но это могут быть и термины, таблицы, формулы, 2D- и 3D-объекты, даже программный код. Самой важной сущностью нормативного документа является требование (нормативное положение).
В России на национальном уровне развитием нового формата занимается проектный технический комитет ПТК 711 «Умные (SMART) стандарты», который АО «Кодекс» возглавляет вместе с ФГБУ «Институт стандартизации». Задача ПТК 711 — определить, как нужно структурировать нормативные документы, какие сущности необходимо выявлять, какой архитектуры технически придерживаться, преобразовывая текстовый документ в «умный» формат. Выработанный консенсус фиксируется в стандартах на SMART-стандарты — то есть создаётся нормативная база для разработки и применения такого представления документов.
АО «Кодекс» — организация, которая разработала уже два предварительных национальных стандарта серии «Умные (SMART) стандарты» — «Основные положения» и
«Архитектура и форматы данных» — и активно апробирует их в ряде своих проектов. В ближайших планах — разработка ещё нескольких стандартов, в том числе связанных с обменом данными требований.

Переход от документов к требованиям

Как мы ранее отметили, требование (нормативное положение) — это самая главная сущность в SMART-стандарте и во всей технологии SMART. Почему?
Дело в том, что профессионалу, работающему с документами, редко необходимо содержимое всего документа от первой до последней буквы. По статистике одного из крупных клиентов АО «Кодекс», из тысяч документов, которые читает специалист, для своих задач он использует 3-5 % информации. Необходимо обеспечить специалистов этой информацией точно и адресно — и требование как дискретная единица информации подходит для таких целей лучше всего.
У термина «требование» есть много определений, но одно из самых ёмких дано в ГОСТ IEC 60050-901-2016 «Международный электротехнический словарь»:
Требование — это положение нормативного документа, содержащее критерии, которые должны быть соблюдены.
Данное определение ещё раз подчёркивает, что все специалисты, работающие с нормативными документами — правовыми или техническими — так или иначе работают с отдельными требованиями, даже если не осмысляют это в таких терминах.
Специалистам нефтегазохимической отрасли работа с требованиями тоже хорошо знакома. Так, с 1 сентября 2024 года именно требования из Реестра на портале «Стройкомплекс.РФ» должны быть доказательной базой всей проектной деятельности, проходящей через госэкспертизу. Хотя нововведение напрямую не касается нефтегазохимической отрасли, оно в полной мере относится к возведению промышленных объектов капитального строительства, необходимых на всех этапах добычи и переработки нефти или газа.
В свою очередь компания «Кодекс» как ИТ-разработчик создаёт «умные» сервисы для работы с нормативными требованиями, которые берут на себя всю механическую работу и оставляют специалисту только аналитику. В частности, на платформе «Техэксперт» создано более десятка профильных Реестров требований, который совмещают, с одной стороны, базу требований, а с другой — сервисы по работе с ними.
Для снижения риска ошибок и сокращения времени работы с документами необходимо, чтобы система позволяла:
• поддерживать связь требования с документом-источником и быстро узнавать обо всех изменениях;
• гибко искать требования по разным атрибутам, в том числе по кодам классификаторов;
• создавать чек-листы и последовательно контролировать выполнение каждого требования с фиксацией результатов проверки;
• выгружать требования в необходимых форматах для работы вне системы;
• а главное — организовывать работу с требованиями, отталкиваясь от собственных задач, процессов и проектов.

Машинопонимание требований

В действующих Реестрах требований — и государственных, и разработанных частными компаниями — каждое требование, хотя и снабжено дополнительными данными, изложено на естественном языке. Можно реализовать много сервисов для работы с ними, но интерпретация, понимание и выполнение этого требования остаются на человеке. Для того чтобы доверить выполнение требования машине — то есть информационной или киберфизической системе — необходимо сделать его машинопонимаемым, то есть обеспечить возможность программной обработки текста документа вплоть до каждого значащего слова.
На рисунке 1 приведён пример упрощённого требования из Приказа Ростехнадзора
от 15.12.2020 № 536. Человек, даже не профессионал, понимает и интерпретирует все слова
в этом требовании без особенного труда. Для того чтобы освободить человека от рутинных операций, в том числе высококвалифицированных, необходимо сделать так, чтобы информационная система понимала каждое из этих слов так же, как их понимает человек.
Что нам даст машинопонимание? Например, позволит:
• автоматизированно выделять смысловые связи и противоречия между требованиями;
• сравнивать их между собой;
• проверять проектную документацию и модели на соответствие нормативной базе;
• эффективно организовывать процессы сертификации и контроля качества.
Как обеспечить уровень машинопонимания, который позволит делегировать эти и другие обязанности информационным и киберфизическим системам? Необходимо присвоить каждому из приведённых на рис. 1 слов свой уникальный цифровой код. Но откуда взять эти коды? Здесь в дело вступают семантические классификаторы (модели нормативного языка).
Рис. 1. Пример упрощённого требования с разбивкой на компоненты

Онтологически-семантический подход

к машинопониманию

Поскольку речь идёт в первую очередь об обеспечении машинопонимания нормативных документов, а не любых текстов, логично отталкиваться от содержания этих документов. Именно так и делают специалисты АО «Кодекс»: выяв­ляют все термины и понятия, используемые в нормативных документах, фиксируют смыс­ловые связи между ними и присваивают ка­ждому элементу уникальный идентификатор.
В результате получается приведённая на рис. 2 сеть, которую можно назвать онтологически-семантической сетью, но более корректное название — модель нормативного языка. Для наглядности её можно представлять в графическом виде, для валидации экспертами — в табличном иерархическом. Но главная цель создания модели нормативного языка для АО «Кодекс» как разработчика — превратить с её помощью документы в машинопонимаемые.
Пилотную группу документов планируется перевести в машинопонимаемый формат
до конца 2025 года — их можно будет использовать при создании различных информационных систем с новыми сервисами. Эксперты АО «Кодекс» уже представили первые успешные
результаты этого проекта. Промежуточные итоги и первые выводы о проделанной работе специалисты озвучили в мае 2025 года на конференции «Продукция в цифровом мире» в Минске,
а также в конце августа в рамках Татарстанского нефтегазохимического форума.

Роль искусственного интеллекта

У перехода от документов к требованиям и ещё более мелким сущностям внутри SMART-стандарта есть и ещё одно следствие: формировать, а главное, поддерживать в актуальном состоянии такие объёмы данных без поддержки искусственного интеллекта невозможно. С помощью ИИ специалисты АО «Кодекс», например, выделяют требования, которые входят в реестры на платформе «Техэксперт», и связывают их со значениями классификаторов. На обогащённом дополнительными данными фонде документов разработчики обучают языковые модели для разных отраслей. Они уже работают в поисковых сервисах платформы — а скоро пользователи смогут увидеть работу ИИ более наглядно в чат-боте «Кодекс Нейро», который запланирован к выпуску до конца 2025 года.

Дальнейшие планы

Для полноценного обеспечения машинопонимания нормативных документов предстоит сделать ещё много. Необходимо разрабатывать новые стандарты на SMART-стандарты и стандартизировать SMART-сервисы — для людей и для машин, —наполнять документы в уже существующих системах данными, которые понятны машинам, — и делать это на базе семантического и онтологического анализа документов, с привлечением искусственного интеллекта, но обязательно при экспертной поддержке.
Предстоит создать ещё много сервисов, которые смогут эти данные использовать, — а главное, интегрировать их с прикладным программным обеспечением: офисными приложениями, системами автоматизированного проектирования и автоматизации производства, управления жизненным циклом продукта и нормативно-справочной информацией. Делать это нужно, безусловно, отталкиваясь от потребностей специалистов на местах, при широкой поддержке профессионального сообщества и в тесном сотрудничестве, к которому мы всех и призываем.
Рекомендуемые статьи
© Экспозиция Нефть Газ. Научно-технический журнал. Входит в перечень ВАК
+7 (855) 222-12-84