Разработка технологии машинопонимания нормативных требований: от SMART-стандартов к онтологиям
АО «Кодекс»
Переход от работы с нормативными документами к работе с отдельными требованиями приобретает особое значение в условиях цифровой трансформации для многих сфер. Например, именно требования становятся основой для цифровых сервисов проектирования и автоматизированного контроля. Рассмотрим, как разрабатываются технологии машинопонимания нормативных требований и какую роль здесь играет искусственный интеллект.
Тема искусственного интеллекта (ИИ) сегодня звучит повсеместно. Нередко этим термином обозначают любые современные компьютерные технологии. Однако подходить к ним следует с осторожным оптимизмом и всегда ориентироваться на практическую пользу, которую они приносят сейчас и будут приносить в будущем. Одна из сфер, где сложно переоценить роль ИИ, — обеспечение машинопонимания нормативных документов. Специалисты компании «Кодекс», в частности, активно используют его и для выделения требований из текстов документов, и для обогащения этих требований дополнительными данными, и для составления семантических классификаторов (моделей нормативного языка). Последовательно разберёмся, как эти процессы связаны с машинопониманием документов и зачем вообще нужно, чтобы машины их понимали.
Запрос рынка на новые форматы документов
АО «Кодекс» цифровизирует работу с нормативными документами без малого 35 лет. Все эти годы ожидания пользователей от сервисов по работе с документами растут — а компания-разработчик, в свою очередь, по необходимости ищет способы структурировать содержимое нормативных документов в своих системах, чтобы закрыть нарастающие потребности рынка. Так эксперты АО «Кодекс» — одновременно со Стратегической консультативной группой ИСО по машиночитаемым стандартам (ISO SAG MRS) — в конце 2010-х пришли к пониманию, что для дальнейшей цифровизации экономики формат нормативных документов нужно менять. Документы нужно структурировать таким образом, чтобы их одинаково хорошо понимали и человек-специалист, и машина — без этого не получится вывести автоматизацию бизнес-процессов на новый уровень. Здесь появляется концепция умных (SMART) стандартов.
Что такое умный (SMART) стандарт? Это такое цифровое представление документов по стандартизации, в котором стандартизирована логическая структура и смысловое содержание стандарта. Если обычный документ предстает перед пользователем в виде единого текста, то «умный» документ уже структурирован и состоит из различных смысловых сущностей. Необходимо научиться выделять эти сущности, а потом — обрабатывать их для разных целей. К этим сущностям могут относиться фрагменты текста, но это могут быть и термины, таблицы, формулы, 2D- и 3D-объекты, даже программный код. Самой важной сущностью нормативного документа является требование (нормативное положение).
В России на национальном уровне развитием нового формата занимается проектный технический комитет ПТК 711 «Умные (SMART) стандарты», который АО «Кодекс» возглавляет вместе с ФГБУ «Институт стандартизации». Задача ПТК 711 — определить, как нужно структурировать нормативные документы, какие сущности необходимо выявлять, какой архитектуры технически придерживаться, преобразовывая текстовый документ в «умный» формат. Выработанный консенсус фиксируется в стандартах на SMART-стандарты — то есть создаётся нормативная база для разработки и применения такого представления документов. АО «Кодекс» — организация, которая разработала уже два предварительных национальных стандарта серии «Умные (SMART) стандарты» — «Основные положения» и «Архитектура и форматы данных» — и активно апробирует их в ряде своих проектов. В ближайших планах — разработка ещё нескольких стандартов, в том числе связанных с обменом данными требований.
Переход от документов к требованиям
Как мы ранее отметили, требование (нормативное положение) — это самая главная сущность в SMART-стандарте и во всей технологии SMART. Почему? Дело в том, что профессионалу, работающему с документами, редко необходимо содержимое всего документа от первой до последней буквы. По статистике одного из крупных клиентов АО «Кодекс», из тысяч документов, которые читает специалист, для своих задач он использует 3-5 % информации. Необходимо обеспечить специалистов этой информацией точно и адресно — и требование как дискретная единица информации подходит для таких целей лучше всего.
У термина «требование» есть много определений, но одно из самых ёмких дано в ГОСТ IEC 60050-901-2016 «Международный электротехнический словарь»: Требование — это положение нормативного документа, содержащее критерии, которые должны быть соблюдены. Данное определение ещё раз подчёркивает, что все специалисты, работающие с нормативными документами — правовыми или техническими — так или иначе работают с отдельными требованиями, даже если не осмысляют это в таких терминах. Специалистам нефтегазохимической отрасли работа с требованиями тоже хорошо знакома. Так, с 1 сентября 2024 года именно требования из Реестра на портале «Стройкомплекс.РФ» должны быть доказательной базой всей проектной деятельности, проходящей через госэкспертизу. Хотя нововведение напрямую не касается нефтегазохимической отрасли, оно в полной мере относится к возведению промышленных объектов капитального строительства, необходимых на всех этапах добычи и переработки нефти или газа.
В свою очередь компания «Кодекс» как ИТ-разработчик создаёт «умные» сервисы для работы с нормативными требованиями, которые берут на себя всю механическую работу и оставляют специалисту только аналитику. В частности, на платформе «Техэксперт» создано более десятка профильных Реестров требований, который совмещают, с одной стороны, базу требований, а с другой — сервисы по работе с ними. Для снижения риска ошибок и сокращения времени работы с документами необходимо, чтобы система позволяла: • поддерживать связь требования с документом-источником и быстро узнавать обо всех изменениях; • гибко искать требования по разным атрибутам, в том числе по кодам классификаторов; • создавать чек-листы и последовательно контролировать выполнение каждого требования с фиксацией результатов проверки; • выгружать требования в необходимых форматах для работы вне системы; • а главное — организовывать работу с требованиями, отталкиваясь от собственных задач, процессов и проектов.
Машинопонимание требований
В действующих Реестрах требований — и государственных, и разработанных частными компаниями — каждое требование, хотя и снабжено дополнительными данными, изложено на естественном языке. Можно реализовать много сервисов для работы с ними, но интерпретация, понимание и выполнение этого требования остаются на человеке. Для того чтобы доверить выполнение требования машине — то есть информационной или киберфизической системе — необходимо сделать его машинопонимаемым, то есть обеспечить возможность программной обработки текста документа вплоть до каждого значащего слова. На рисунке 1 приведён пример упрощённого требования из Приказа Ростехнадзора от 15.12.2020 № 536. Человек, даже не профессионал, понимает и интерпретирует все слова в этом требовании без особенного труда. Для того чтобы освободить человека от рутинных операций, в том числе высококвалифицированных, необходимо сделать так, чтобы информационная система понимала каждое из этих слов так же, как их понимает человек.
Что нам даст машинопонимание? Например, позволит: • автоматизированно выделять смысловые связи и противоречия между требованиями; • сравнивать их между собой; • проверять проектную документацию и модели на соответствие нормативной базе; • эффективно организовывать процессы сертификации и контроля качества.
Как обеспечить уровень машинопонимания, который позволит делегировать эти и другие обязанности информационным и киберфизическим системам? Необходимо присвоить каждому из приведённых на рис. 1 слов свой уникальный цифровой код. Но откуда взять эти коды? Здесь в дело вступают семантические классификаторы (модели нормативного языка).
Рис. 1. Пример упрощённого требования с разбивкой на компоненты
Онтологически-семантический подход
к машинопониманию
Поскольку речь идёт в первую очередь об обеспечении машинопонимания нормативных документов, а не любых текстов, логично отталкиваться от содержания этих документов. Именно так и делают специалисты АО «Кодекс»: выявляют все термины и понятия, используемые в нормативных документах, фиксируют смысловые связи между ними и присваивают каждому элементу уникальный идентификатор. В результате получается приведённая на рис. 2 сеть, которую можно назвать онтологически-семантической сетью, но более корректное название — модель нормативного языка. Для наглядности её можно представлять в графическом виде, для валидации экспертами — в табличном иерархическом. Но главная цель создания модели нормативного языка для АО «Кодекс» как разработчика — превратить с её помощью документы в машинопонимаемые.
Пилотную группу документов планируется перевести в машинопонимаемый формат до конца 2025 года — их можно будет использовать при создании различных информационных систем с новыми сервисами. Эксперты АО «Кодекс» уже представили первые успешные результаты этого проекта. Промежуточные итоги и первые выводы о проделанной работе специалисты озвучили в мае 2025 года на конференции «Продукция в цифровом мире» в Минске, а также в конце августа в рамках Татарстанского нефтегазохимического форума.
Роль искусственного интеллекта
У перехода от документов к требованиям и ещё более мелким сущностям внутри SMART-стандарта есть и ещё одно следствие: формировать, а главное, поддерживать в актуальном состоянии такие объёмы данных без поддержки искусственного интеллекта невозможно. С помощью ИИ специалисты АО «Кодекс», например, выделяют требования, которые входят в реестры на платформе «Техэксперт», и связывают их со значениями классификаторов. На обогащённом дополнительными данными фонде документов разработчики обучают языковые модели для разных отраслей. Они уже работают в поисковых сервисах платформы — а скоро пользователи смогут увидеть работу ИИ более наглядно в чат-боте «Кодекс Нейро», который запланирован к выпуску до конца 2025 года.
Дальнейшие планы
Для полноценного обеспечения машинопонимания нормативных документов предстоит сделать ещё много. Необходимо разрабатывать новые стандарты на SMART-стандарты и стандартизировать SMART-сервисы — для людей и для машин, —наполнять документы в уже существующих системах данными, которые понятны машинам, — и делать это на базе семантического и онтологического анализа документов, с привлечением искусственного интеллекта, но обязательно при экспертной поддержке.
Предстоит создать ещё много сервисов, которые смогут эти данные использовать, — а главное, интегрировать их с прикладным программным обеспечением: офисными приложениями, системами автоматизированного проектирования и автоматизации производства, управления жизненным циклом продукта и нормативно-справочной информацией. Делать это нужно, безусловно, отталкиваясь от потребностей специалистов на местах, при широкой поддержке профессионального сообщества и в тесном сотрудничестве, к которому мы всех и призываем.