Методология автоматизированной подготовки данных
Еремин Н.А., Черников А.Д.


Институт проблем нефти и газа РАН, РГГУ имени Серго Орджоникидзе

В статье описана методология автоматизированной обработки промысловой информации и подготовки данных для обучения нейросетевых моделей в интеллектуальных системах выявления и прогнозирования прихватов бурильных колонн, применяемых для повышения безопасности и сокращения непроизводительного времени при строительстве нефтяных и газовых скважин. Предлагаемая методика позволяет проводить автоматизированный анализ больших объемов архивной информации (Big Geo Data), выделять характерные ситуации, связанные с осложнениями, и осуществлять разметку информационных массивов данных для машинного обучения унифицированных интеллектуальных модулей обработки данных от станций геолого-технологических измерений с целью заблаговременного предупреждения операторов бурового оборудования о технологических рисках возникновения нештатных ситуаций. Описаны методологические подходы к разметке данных для одноклассовых и многоклассовых нейросетевых моделей прогнозирования возникновения осложнений при строительстве нефтяных и газовых скважин на суше и на море.
Российская нефтегазовая экономика ищет новые точки роста на пути цифровой модернизации производства и экономики больших высокочастотных геоданных. Нефтегазовые компании с эффективной моделью управления, высоким уровнем цифровизации и высококвалифицированным персоналом могут обеспечить рост объемов собственного производства примерно в 2–3 раза [1].
Технологии искусственного интеллекта используются при оптимизации производственных процессов и автоматизации бурения. Особое значение имеет использование интеллектуальных систем для прогнозирования и предотвращения осложнений и аварийных ситуаций при строительстве скважин [1]. Основным методом машинного обучения систем ИИ, применяемых в нефтегазовой отрасли, является «обучение с учителем» [2]. В качестве «учителей» выступают эксперты-буровики, осуществляющие селекцию, анализ и разметку «сырых» данных со станций геолого-технологических исследований (ГТИ). Выбор способа разметки «сырых» данных для машинного обучения в интеллектуальных системах прогнозирования осложнений и аварийных ситуаций зависит от состава и качества данных ГТИ, периодичности их обновления и характера зависимости от геолого-геофизических характеристик породы и технологических процессов и др.
Большие высокочастотные геоданные — это наборы данных жизненного цикла мультисенсорного нефтегазового дела (со станций ГТИ — данные геолого-технологических исследований, данные ГИС — геофизических исследований скважин, ЭЦН — электроцентробежных насосов и других). Виды геоданных представлены на рисунке 1. Пример высокочастотных геоданных — это геоданные, которые записываются с частотой до 50 Гц на станциях геолого-технологических исследований при строительстве скважин. Сверхвысокочастотные геоданные с частотой дискретизации 100–1000 Гц генерируются в системах кибербезопасности и электропитания, используемых в нефтегазовом производстве.
Рис. 1. Виды геоданных: большие, высокочастотные и сверхвысокочастотные

Одна буровая установка генерирует от 10 до 150 Тб геоданных при работе на суше и на море соответственно [13]. С помощью технологий машинного обучения полученные большие геоданные можно использовать в интеллектуальных системах автоматизации и разработки нефтегазовых месторождений в целях повышения безопасности и снижения непроизводительного времени нефтегазового производства. На сегодняшний день основными высокочастотными данными, характеризующими скважинные процессы в реальном масштабе времени, являются данные от станций геолого-технологических исследований, которые представляют собой временные ряды измеряемых параметров. Хотя большой интерес для повышения достоверности прогнозирования представляет использование геолого-геофизических характеристик, полученных при проведении поисковых изысканий и бурении разведочных скважин, а также использование измерений параметров бурового раствора при условии их проведения в масштабе времени близком к реальному.
Для машинного обучения в интеллектуальных комплексах прогнозирования осложнений используются архивные данные, полученные при строительстве нефтегазовых скважин в сходных геологических условиях. Первым подготовительным этапом является оценка состава и качества измерительных данных и их подготовка для формирования датасетов, используемых для машинного обучения. Формирование датасетов включает в себя проверку целостности данных, масштабирование, устранение аномальных выбросов и пропусков значений параметров и при необходимости их нормализацию [5]. Осложнения при бурении скважин могут отличаться по своей физической природе и характеристикам, в том числе в зависимости от проводимой в скважине операции. Для корректной работы модели прогнозирования осложнений целесообразно дополнительно реализовать возможность автоматического определения типов технологических операций по результатам обработки данных ГТИ [7].
Алгоритм определения основных технологических операций, выполняемых при строительстве скважин, реализован в виде скрипта на языке Python и выполняет анализ и обработку архивных данных ГТИ, представленных в виде файлов в формате .las. Скрипт реализует несколько функций: очистка данных, удаление выбросов и определение типа технологических операций на основе обработки текущих параметров ГТИ.
Для работы алгоритма необходима установка утилит и библиотек:
  • pandas: используется для манипуляции данными и анализа;
  • lasio: позволяет читать и записывать файлы параметров ГТИ в формате .las, используемом для регистрации и хранения геофизических данных;
  • datetime, timedelta: утилиты для управления датами и временем.
Скрипт осуществляет загрузку и преобразование .las файла (рис. 2):
Рис. 2. Скрипт загрузки и преобразования .las файла
  • las.df преобразует данные .las файла в DataFrame pandas.
  • pd.to_datetime: преобразует индекс DataFrame в формат даты и времени, где временные метки находятся в миллисекундах.
Скрипт определения межквартильного размаха (iqr) и удаления выбросов из DataFrame (рис. 3):
Рис. 3. Скрипт определения межквартильного размаха и удаления выбросов
  • quantile: рассчитывает первый и третий квартили;
  • iqr: межквартильный размах, используемый для определения границ, что считается выбросом;
  • dataframe_cleaned: DataFrame после удаления выбросов.
Специально разработанный алгоритм определяет тип технологических операций, производимых в скважине. Алгоритм реализует анализ и интерпретацию различных параметров ГТИ (положение талевого блока, обороты ротора и нагрузка на крюке). Блок- схема представлена на рисунке 4.
Рис. 4. Блок-схема алгоритма определения типа технологических операций
Пример работы алгоритма определения типа технологических операций представлен
на рисунках 5, 6.
Рис. 5. Скрипт запуска алгоритма определения типа технологических операций
Рис. 6. Пример вывода результата работы алгоритма определения типа операции

  • timeOfSticking: конкретная временная метка, отмечающая конец временного окна для анализа.
  • operationType: выполняет алгоритм для определения типа операции и выводит результат.
Зависимость возникновения осложнений от конструктивных особенностей скважины и используемого бурового оборудования можно учитывать включением в состав входных параметров моделей категориальных характеристик, влияющих на скважинные процессы [4]. Конкретный вариант разметки данных для прогнозирования осложнений и аварийных ситуаций при строительстве нефтяных и газовых скважин определяется структурой моделей нейросетей и методов машинного обучения, используемых в интеллектуальных системах. Ниже описаны варианты разметки данных ГТИ, применяемые для двух основных классов нейросетевых моделей.
Наиболее простой вариант разметки данных ГТИ используется для машинного обучения одноклассовых нейросетевых моделей, реализующих бинарный прогноз развития ситуации: существует ли риск возникновения осложнения на определенном временном интервале или нет. При этом ключевое значение для корректной разметки архивных данных имеет правильное определение момента возникновения осложнения и временного интервала, включающего сценарий его развития.
Данные ГТИ представляют собой большие информационные массивы многомерных временных рядов значений разнородных параметров, зависящих от множества причин, в том числе от параметров управления — так называемый человеческий фактор, и не могут быть вручную проанализированы без априорной информации о проводимых операциях и режимах работы оборудования [6].
Для первоначальной локализации осложнений используются буровые журналы, отчеты об оптимизации бурения, акты расследования происшествий и др. документы, в которых приводится хронология технологических процессов, осуществляемых при строительстве скважины. При формализованном представлении информации в документации, например в формате WITSML, возможна программная реализация поиска, классификации и предварительной локализации осложнений, имевших место при строительстве скважин, что является актуальной задачей, учитывая большие объемы анализируемых архивных данных [10].
В буровых журналах часто встречаются ошибки в описаниях и приводимых характеристиках осложнений, а также неточности в определении хронологии их возникновения. Обязательным этапом является документальное подтверждение экспертами самого факта наступления осложнения, а также уточнение времени его возникновения и отклонений основных характеризующих параметров от их нормальных значений, которые должны проводиться по результатам анализа графического представления информативных параметров ГТИ.
Как показывает практика применения одноклассовых нейросетевых моделей прогнозирования осложнений и аварийных ситуаций при строительстве нефтяных и газовых скважин по результатам обработки реальновременных данных ГТИ, временной интервал прогноза при оптимальном соотношении вероятности правильного предсказания и ложных тревог составляет порядка 10 минут [3]. При этом временной интервал разметки, включающий сценарий развития осложнения, можно ограничить значениями: за 30–60 минут до момента возникновения осложнения и 30 минут после, если предпринимались результативные действия по его ликвидации.
В таблице 1 приведен пример формы разметки данных для одноклассовых нейросетевых моделей для осложнений типа прихват, как самого распространенного и в то же время наиболее сложного для прогнозирования типа осложнений при строительстве скважин.
Таблица 1. Пример формы разметки данных для одноклассовых моделей прогнозирования осложнений при строительстве нефтяных и газовых скважин

Вид диаграммы ГТИ, представляющей графическое представление параметров при осложнении типа прихват, приведен на рисунке 7.
Рис. 7. Диаграммы параметров ГТИ при осложнении типа прихват

Временной интервал прогноза возникновения осложнений при строительстве нефтяных и газовых скважин может быть увеличен при разработке и применении более сложных многоклассовых нейросетевых моделей [7]. Для синтеза их структуры необходимо выделение дополнительных классов событий, которые представляют собой различные отклонения от нормального режима бурения скважины и могут в конечном итоге привести к реальному возникновению осложнений. К таким событиям в случае прихватов можно, например, отнести: затяжки, посадки, запаковки ствола скважины и др. аномальные отклонения, характеризующиеся определенными параметрическими описаниями. Многоклассовые нейросетевые модели должны уметь идентифицировать и интерпретировать подобные события и их тренды развития во времени. Подобный подход лежит в основе машинного обучения робототехнических комплексов, обеспечивающих автоматическое бурение нефтегазовых скважин.
Однако не всякие возникающие отклонения от нормального режима при своевременном прогнозировании их возникновения следует рассматривать как несущие непосредственные риски возникновения осложнений, т. к. они могут быть обусловлены известными геолого-геофизическими факторами и особенностями технологического процесса бурения и могут быть нивелированы своевременными штатными действиями оператора буровой установки [11]. Для многоклассовых прогнозных моделей важным является выделение таких аномальных отклонений от нормы, которые несут в себе существенные риски развития и возникновения осложнений. Данные аномалии могут задаваться пороговыми значениями параметров, а также временными трендами развития этих отклонений.
Для машинного обучения многоклассовых нейросетевых моделей прогнозирования возникновения осложнений при строительстве нефтяных и газовых скважин необходимы разметки заданных классов отклонений от нормального режима бурения и степеней риска возникновения осложнений, с формированием предупреждающих сообщений оператору буровой установки и рекомендаций по принятию специальных мер для их устранения.
Пример разметки данных ГТИ для многоклассовой нейросетевой модели прогнозирования возникновения осложнений при строительстве нефтяных и газовых скважин представлен в таблице 2.
В начальных столбцах формы разметки необходимо приводить категориальные параметры, которые задаются проектными решениями и не подлежат изменению оператором буровой установки, но в то же время могут оказывать влияние на возникновение осложнений. К таким параметрам могут относиться углы наклона скважины, диаметры секций, характеристики бурового оборудования и т. д. Для повышения достоверности прогнозов целесообразным является использование геолого-геофизических параметров, полученных по результатам предварительных исследований или разведочного бурения.
При разметке данных для многоклассовых нейросетевых моделей экспертами должны быть выделены временные интервалы, включающие участки с нормальным функционированием и отдельные сценарии возникновения осложнений, в которых должны быть детально размечены и описаны все отклонения от нормального режима работы в соответствии с введенной классификацией и тенденции их развития. Важным этапом является подтверждение и уточнение времени наступления событий, которые осуществляются по результатам анализа графиков параметров ГТИ. В форме разметки данных должны быть отражены количественные характеристики отклонений основных параметров, характеризующих выделенную ситуацию. Эксперты оценивают степень риска возникновения осложнения по результатам сравнения отклонений параметров с заданными пороговыми значениями, а также выявления и анализа трендов их развития во времени [12].
Заключение
Сложность при выполнении разметки данных и формировании датасетов для машинного обучения представляет то обстоятельство, что в процессе строительства нефтегазовых скважин и возникновения предпосылок к возникновению осложнений оператором буровой установки производятся активные действия по предупреждению развития негативных сценариев развития ситуаций. В форму разметки данных целесообразно включать описания действий бурильщика в конкретных ситуациях: это могут быть комментарии супервайзеров или оценки различных экспертов, в том числе проводящих разметку для машинного обучения. Практическое применение многоклассовых нейросетевых моделей для прогнозирования осложнений и аварийных ситуаций при строительстве нефтяных и газовых скважин по результатам обработки реальновременных данных ГТИ показывает, что временной интервал прогноза может составлять до 60 минут и более в зависимости от выявленных сценариев развития осложнений [7]. Таким образом, использование детальной разметки промысловых данных и многоклассовых нейросетевых моделей в интеллектуальных системах прогнозирования возникновения осложнений и аварийных ситуаций позволяет сделать значительный шаг не только в повышении безопасности и экономической эффективности производства, но и закладывает основу для автоматизации процессов строительства скважин и перехода к безлюдным роботизированным технологиям в нефтегазовой отрасли.
Еремин Н.А., Черников А.Д.

Институт проблем нефти и газа РАН, Москва, Россия

ermn@mail.ru, cha60@mail.ru
В статье использованы результаты исследований и опытной эксплуатации экспериментального образца автоматизированной системы предупреждения осложнений и аварийных ситуаций при строительстве скважин (АС ПОАС), разработанного в ИПНГ РАН в рамках поисковой научной работы по заказу Министерства образования Российской Федерации. Применялись методы автоматизации подготовки и детальной разметки данных для построения и применения многоклассовых нейросетевых моделей прогнозирования возникновения осложнений при строительстве нефтяных и газовых скважин.
одноклассовая нейросетевая модель прогнозирования, многоклассовая нейросетевая модель прогнозирования, осложнения и аварийные ситуации при строительстве скважин, прихваты бурильной колонны, данные геолого-технологических измерений, автоматизированная обработка промысловой информации, машинное обучение, нейросетевые модели, универсальные интеллектуальные модули и комплексы
Еремин Н.А., Черников А.Д. Методология автоматизированной подготовки данных для машинного обучения нейросетевых моделей в интеллектуальных системах выявления и прогнозирования осложнений и аварийных ситуаций в процессе строительства нефтяных и газовых скважин // Экспозиция Нефть Газ. 2024. № 5. С. 24–30. DOI: 10.24412/2076-6785-2024-5-24-30
16.08.2024
УДК 622.276.66
DOI: 10.24412/2076-6785-2024-5-24-30

Рекомендуемые статьи
© Экспозиция Нефть Газ. Научно-технический журнал. Входит в перечень ВАК
+7 (495) 414-34-88