Опыт применения алгоритмов машинного обучения

Галеев А.А., Синицына Т.И.


Тюменский нефтяной

научный центр

В условиях постоянно растущих объемов данных по месторождениям актуальным становится вопрос автоматизации процесса обработки и структуризации знаний об изучаемом объекте разработки с последующим выделением основных характеристик, позволяющих выбирать и обосновывать методы повышения нефтеотдачи на месторождениях. Одним из таких методов является проведение геолого-технических мероприятий (ГТМ), в частности, гидравлический разрыв пласта (ГРП).
В данной работе поставлена цель поиска оптимального решения задачи выбора и обоснования скважин-кандидатов для ГРП на примере месторождения имени Малыка. На данном месторождении насчитывается более тысячи скважин по трем эксплуатационным объектам (более двух тысяч пластопересечений). Ежегодно проводится, в среднем, около 50 операций ГРП и поиск оптимальных скважин — это важная задача для инженеров-разработчиков.
Для выбора оптимального метода поиска скважин-кандидатов на ГРП в текущем исследовании выполнен сравнительный анализ существующих подходов к оценке продуктивности скважин. Полученные результаты позволили сделать вывод о применимости гибридной модели, показавшей более высокую точность прогноза в сравнении с другими подходами. В основе такой модели лежит концепция физически-информированного машинного обучения.
Основные этапы работы включали в себя разработку автоматизированной системы сбора и подготовки геолого-промысловой информации, тестирование различных моделей машинного обучения и сравнение с результатами физико-математического моделирования.
В результате выполненной задачи подобран оптимальный алгоритм прогнозирования продуктивности скважин после ГРП, который применим для оперативных расчетов по большому количеству скважин. Разработанный алгоритм включен в систему поиска скважин-кандидатов на ГРП, реализованную на базе языков программирования VBA и Python. На текущий момент выполняется опытно-промышленная апробация результатов работы.
Введение
Автоматизация процесса поиска геолого-технических мероприятий (ГТМ) является популярным направлением среди специалистов по разработке нефтяных и газовых месторождений. Данное направление развивается параллельно с ростом вычислительных мощностей компьютеров и накоплением значительных массивов информации, которые требуют принципиально другого уровня обработки. Как следствие, возникает необходимость в развитии систем оперативного принятия решений в условиях постоянно растущих объемов данных.
Существующий подход к поиску и обоснованию скважин-кандидатов для ГРП в большинстве случаев сводится к экспертному анализу. Большой объем геолого-промысловой информации обрабатывается в ручном режиме, скважины рассматриваются точечно, а качество оценки геологических рисков напрямую зависит от опыта специалиста. Очевидными недостатками такого подхода являются высокие трудозатраты и необъективность получаемых результатов. Сложность оценки продуктивности скважины после ГРП приводит к необходимости использования гидродинамических симуляторов, которые дают наиболее точный и физически обоснованный результат. Однако высокие трудозатраты на создание и актуализацию гидродинамической модели, а также длительность расчетов не позволяют в полной мере автоматизировать данный процесс и применить его в оперативной работе.
Альтернативным подходом является машинное обучение (ML). В отличие от физического моделирования, ML-модель прогнозирует значение целевой переменной на основе фактических данных, находя сложные закономерности без предоставления их явной формы. Такой подход значительно упрощает построение модели и имеет высокую скорость расчета. Однако основными недостатками ML-моделей являются их низкая интерпретируемость и отсутствие учета физической составляющей процесса. Для более широкого применения алгоритмов машинного обучения в инженерных расчетах необходимо не только создание интерпретируемых решений, но и интеграция с существующими физико-математическими моделями.
Основная часть
Разработанная система автоматизирует весь цикл сбора и анализа геолого-промысловой информации, а также производит расчет основных показателей разработки в разрезе каждого пласта (рис. 1). Учитываются исторические данные скважины: добыча и закачка, проведенные ГТМ, исследования и т.д. В результате была создана наиболее полная, автоматически обновляемая база данных по всему фонду скважин.
Рис. 1. Общая схема системы поиска скважин-кандидатов на ГРП

Из полученного массива данных система проводит первичный отбор пар скважина-пласт на основе экспертных ограничений. Критерии отбора могут быть индивидуальны для каждого месторождения в зависимости от геологических параметров продуктивных пластов, конструктивных особенностей скважин, номенклатуры применяемого насосного оборудования, результатов ранее проведенных ГТМ и т.д. Основная задача, решаемая на данном этапе, — это автоматизация принятия типовых решений при отборе скважин-кандидатов.
Для месторождения имени Малыка в качестве критериев отбора задаются минимальные значения остаточных извлекаемых запасов, расстояния до фронта нагнетания и компенсации отборов. Исключаются пластопересечения, по которым ранее проводились неэффективные ГРП (как по целевой скважине, так и по скважинам окружения).
На заключительном этапе производится расчет ожидаемых параметров работы скважин после ГРП: обводненность, коэффициент продуктивности, глубина спуска насосного оборудования, потенциальное забойное давление и дебит жидкости. В результате пользователь получает перечень скважин и пластов с наибольшей потенциальной эффективностью проведения ГРП.
Для прогноза обводненности используется классическая модель машинного обучения на основе градиентного бустинга. Обучающая выборка формируется непосредственно из загруженной базы данных, что позволяет в автоматическом режиме переобучать модель с учетом актуального состояния разработки.
Подбор глубины спуска насоса осуществляется по данным инклинометрии и конструкции скважины, затем рассчитывается целевое забойное давление с учетом максимального содержания свободного газа на приеме насоса.
Для прогноза дебита жидкости после ГРП проведено сравнение различных методов, которые можно разделить на три группы:
1. Физико-математическое моделирование.
2. Модели, основанные на данных (Data Driven-подход).
3. Гибридные модели.
Физико-математическое моделирование — это стандартный подход, основанный на физике рассматриваемого процесса, где точность и скорость расчета напрямую зависят от сложности модели. Для задач автоматизации в данной работе используется упрощенная математическая модель притока к скважине [7], которая обеспечивает удовлетворительную скорость вычислений на больших массивах данных.
Модели, основанные на Data Driven-подходе, характеризуются высокой скоростью расчета и гибкостью настройки на фактические данные, но в некоторых случаях могут давать нефизические результаты. Процесс обучения таких моделей заключается в сборе и подготовке данных, получаемых непосредственно с погружных датчиков, приборов учета, результатов лабораторных исследований и т.д.
На основе собранных данных формируется обучающая выборка, которая в дальнейшем подается на вход модели машинного обучения.
Гибридные методы сочетают в себе преимущества предыдущих подходов и имеют различные варианты реализации. Совокупность таких методов получила название физически информированного машинного обучения, или PIML (Physics-informed Machine Learning). Гибридные модели можно условно классифицировать по способу внедрения физических знаний:
1. Обучение физике на основе данных, напрямую воплощающих собой закономерности, присущие реальной системе.
2. Внедрение физики в архитектуру модели.
3. Добавление знаний о физике в функцию потерь модели (Physics-informed Neural Network).
В данной работе рассмотрены два варианта построения гибридных моделей для прогноза дебита жидкости скважин после ГРП, относящиеся к первой группе. Оба варианта принимают за основу решения базовой физико-математической модели, а задачей машинного обучения является снижение ошибки расчета базовой модели.
В первом варианте используется ансамблевая модель на основе метода стекинга (рис. 2).
Рис. 2. Ансамблевая модель на основе стекинга

Основная идея данного метода состоит в том, чтобы объединить несколько разнородных моделей в одну линейную метамодель и получить взвешенный прогноз всего ансамбля. Веса настраиваются с помощью алгоритма линейной регрессии. В нашем случае в ансамбль включены три модели машинного обучения (градиентный бустинг, случайный лес, метод опорных векторов), а также базовая модель притока к скважине. Ансамблирование на основе стекинга обеспечивает более высокую точность прогноза в сравнении с отдельными моделями машинного обучения, а также частично решает проблему аномальных прогнозов: если одна из ML-моделей в ансамбле дает аномальный результат, остальные частично корректируют его, при этом общий прогноз ансамбля остается на удовлетворительном уровне.
Из основных недостатков такого подхода стоит отметить сложность интерпретации и внедрения в бизнес-процессы. Кроме того, базовая физико-математическая модель в ансамбле должна иметь удовлетворительную точность расчета, в противном случае включение такой модели в ансамбль нецелесообразно.
Ввиду указанных ограничений имеет смысл рассмотреть альтернативный вариант построения гибридной модели (рис. 3). В данном варианте за основу принята одна модель машинного обучения, в которой в качестве дополнительных признаков генерируются результаты расчета базовой физико-математической модели. Такой подход значительно сокращает время обучения, имеет хорошую интерпретируемость, а также более прост в реализации и дальнейшей поддержке. При этом оба алгоритма имеют примерно одинаковую точность прогноза.
Рис. 3. Модель с генерацией дополнительных признаков с помощью физико-математической модели

Генерация дополнительных признаков
для гибридной модели
Ввиду того, что основная задача машинного обучения в таком алгоритме — это снижение ошибки расчета базовой модели, то для формирования обучающей выборки необходимо предварительно сгенерировать решения базовой физико-математической модели по действующему добывающему фонду скважин. Из обучающей выборки исключаются скважины с двумя и более работающими пластами для того, чтобы избежать неточности в оценке текущей обводненности и продуктивности по каждому пласту отдельно. В качестве исходных данных для расчета принимаются фактические параметры работающей скважины (объемная обводненность fw, давление на приеме насоса Pin или динамический уровень Hliq, пластовое давление Pr, общий скин-фактор S, свойства пласта и флюида, конструкция скважины и т.д.). Таким образом, задача сводится к моделированию текущего режима работы по некоторому количеству скважин (в зависимости от месторождения) с последующим обучением модели машинного обучения на полученных данных, где целевой переменной будет фактический коэффициент продуктивности. Общий порядок расчета приведен ниже.
Рассчитывается эффективная вязкость жидкости в пластовых условиях μliq, учитывающая различие в проводимости нефти и воды:
Общая сжимаемость системы ct задается выражением:
Эффективный объемный коэффициент жидкости Bliq определяется следующим образом:
где μw — вязкость воды в пластовых условиях, мПа∙с; μo — вязкость нефти в пластовых условиях, мПа∙с; kro — ОФП по нефти, д.ед.; krw — ОФП по воде, д.ед.; Sw — текущая водонасыщенность, д.ед.; Co — сжимаемость нефти в пластовых условиях, 1/атм; Cw — сжимаемость воды в пластовых условиях, 1/атм; Cr — сжимаемость породы, 1/атм; Bo — объемный коэффициент расширения
нефти, м33; Bw — объемный коэффициент расширения воды, м3/м33; fw — текущая объемная обводненность продукции, д.ед.
Далее производится расчет коэффициента продуктивности J с использованием математической модели притока к скважине [7]. Для учета текущего состояния призабойной зоны пласта используется скин-фактор, полученный по результатам гидродинамических исследований.
Для расчета текущего забойного давления механизированной скважины Pwf требуется проведение гидравлического расчета [2–4],
который в итоге сводится к построению профиля давления в скважине:
жины, атм; ΔPo — давление столба газа в затрубном пространстве, атм; ΔP1 — давление газированного столба нефти в затрубном пространстве над приемом насоса, атм; ΔP2 — потери давления при движении газожидкостной смеси под насосом, атм.
Дебит жидкости Qliq определяется исходя из рассчитанных значений коэффициента продуктивности J и забойного давления Pwf в соответствии с [6]:
дебит в точке насыщения:
максимальный дебит при 100 % нефти:
давление для комбинированного уравнения притока при дебите Qomax:
если fw = 1 и Pwf > Pb, то:
если fw < 1 и Pwf > Pwfg, то:
Если B = 0, то:
Если B ≠ 0, то:
Если fw < 1 и Pwf ≤ Pwfg, то:
где: Pb — давление насыщения нефти в пластовых условиях, атм; fo — текущая доля нефти в продукции, д.ед.

Расчеты выполняются по всем скважинам, входящим в обучающую выборку, затем производится обучение ML-модели для прогноза коэффициента продуктивности. В качестве независимых параметров модели используются как данные, загружаемые из корпоративной базы данных, так и рассчитанные параметры (μliq, Pwf, J, Qliq). Зависимая переменная — это коэффициент продуктивности, рассчитанный от фактических параметров работы скважины.
Для построения гибридной модели в данной работе используется алгоритм градиентного бустинга над решающими деревьями, который обычно показывает наилучшую точность на выборках с неоднородными
табличными данными. Данный алгоритм представляет собой ансамблевую модель, в основе которой лежит итеративное обучение деревьев решений с целью минимизировать функцию потерь.
Прогноз параметров работы скважины после ГРП
Для получения прогнозных параметров работы скважины после проведения ГРП производятся аналогичные расчеты μliq, ct, Bliq в пересчете на ожидаемую обводненность по выражениям (1, 2, 3), а также коэффициента продуктивности J с учетом новых значений эффективной мощности пласта и скин-фактора после ГРП.
Далее по данным инклинометрии и конструкции скважины подбирается оптимальная глубина спуска насоса, рассчитывается целевое забойное давление Pwf и дебит жидкости Qliq с учетом допустимого содержания свободного газа на приеме насоса. Рассчитанные параметры подаются на вход обученной модели машинного обучения, в результате чего будет получено новое значение коэффициента продуктивности J. Для согласования всех параметров системы расчеты целевого забойного давления Pwf, дебита жидкости Qliq и коэффициента продуктивности по ML-модели проводятся итеративно до достижения заданной точности.
Поскольку обучение модели производится на действующих скважинах, по которым также впоследствии необходимо получить прогноз дебита жидкости после ГРП, то для исключения «утечки данных» используется последовательное разделение выборки на заданное количество частей по методу k-Fold кросс-валидации (рис. 4):
  • пользователь задает целое число k, меньшее числа строк в обучающей выборке;
  • обучающая выборка разбивается на k одинаковых частей (фолдов);
  • производится k итераций, во время каждой из которых по одному фолду рассчитывается прогнозный дебит жидкости после ГРП по описанному выше алгоритму, а оставшаяся часть данных выступает в качестве обучающей выборки для k-ой модели.
Рис. 4. Разделение выборки по методу k-Fold кросс-валидации

Количество фолдов выбирается пользователем, исходя из требований к скорости и точности расчета, а также размера обучающей выборки. Более высокая точность прогноза достигается при максимальном значении k (k = размер выборки — 1), но при этом будет произведено k итераций обучения модели, что может значительно увеличить время расчета на больших выборках.
  • Для месторождения имени Малыка общий размер выборки составил 460 строк и 18 признаков. На рисунке 5 приведена оценка важности параметров обученной модели с использованием Python-библиотеки SHAP [10]. Наибольшее влияние на прогноз модели оказывают параметры, сгенерированные с помощью базовой физико-математической модели: «Дебит жидкости (базовая модель)», «Коэф. продуктивности (базовая модель)».
Рис. 5. Важность признаков модели

Описанный алгоритм реализован на базе Microsoft Excel с использованием языков программирования VBA и Python. Загрузка геолого-промысловой информации из корпоративной базы данных осуществляется в автоматическом режиме с помощью SQL-запросов. При разработке моделей машинного обучения применяется стандартный набор Python-библиотек: «Numpy», «Pandas», «Scikit-learn», «CatBoost», «Optuna».
Оценка качества модели
Рис. 6. Результат тестирования различных моделей для прогноза дебита жидкости: а — физико-математическая модель; б — support vector machine; в — random forest; г — gradient boosting machine; д — гибридная модель

Для сравнения качества прогноза проведены тестовые расчеты дебита жидкости с применением рассмотренных методов (рис. 6) на действующих скважинах. Оценка проведена с применением поэлементной перекрестной проверки (k = размер выборки — 1) по следующей метрике:
где N — число наблюдений в выборке, yi — фактическое значение целевого параметра, ŷi — прогнозное значение целевого параметра.
По результатам тестирования гибридная модель показала более высокую точность прогноза в сравнении с другими подходами. Полученные средние значения метрик качества приведены в таблице 1.
Табл. 1. Средние значения метрик по результату поэлементной кросс-валидации

Галеев А.А., Синицына Т.И.

ООО «Тюменский нефтяной научный центр», Тюмень, Россия

aagaleev@tnnc.rosneft.ru
Поставленные задачи решаются с применением физико-математического моделирования и алгоритмов машинного обучения. Для автоматизации сбора и предобработки промысловых данных, обучения ML-моделей и расчета ожидаемых параметров работы скважин используются средства программирования VBA и Python.
геолого-технические мероприятия, автоматизация, гидравлический разрыв пласта, машинное обучение
Галеев А.А., Синицына Т.И. Опыт применения алгоритмов машинного обучения для автоматизации процесса поиска скважин-кандидатов для гидравлического разрыва пласта // Экспозиция Нефть Газ. 2024. № 7. C. 70–75. DOI: 10.24412/2076-6785-2024-7-70-75
13.09.2024
УДК 622.276
DOI: 10.24412/2076-6785-2024-7-70-75

Рекомендуемые статьи
© Экспозиция Нефть Газ. Научно-технический журнал. Входит в перечень ВАК
+7 (495) 414-34-88