Машинное обучение и искусственный интеллект в геологии.
Первоначально статья “Machine Learning and Artificial Intelligence for Mining Geosience” была опубликована в информационном издании подразделения по изучению месторождений полезных ископаемых Геологической ассоциации Канады (англ. Geological Association of Canada). Переведено и напечатано с разрешения автора. Перевод с англ.: С. С. Верхозин, АО «Иргиредмет».
За последние пять лет востребованность машинного (англ. Machine Learning) и глубинного обучения (англ. Deep Learning) существенно возросла (рис. 1), в том числе в разведке и добыче полезных ископаемых, геологических исследованиях. Часто эти направления обозначаются более общим термином «искусственный интеллект».
Автор настоящей статьи пытается пролить свет на искусственный интеллект, машинное и глубинное обучение, рассказать, какое применение эти технологии могут найти в геологических исследованиях в рамках горнодобывающей промышленности.
Искусственный интеллект
Искусственный интеллект (ИИ) —это общий термин, описывающий системы, выполняющие когнитивные, познавательные функции, например решение производственных проблем. Простейшим примером ИИ можно назвать написанную в Excel программу, определяющую категорию сырья — руда или пустая порода — по содержанию в нем золота, с использованием несложной формулы (например, IF(Au>1 g/t) THEN rock = ore; если содержание Au > 1 г/т, то порода считается рудой). Самоуправляемый автомобиль — это тоже пример реализации искусственного интеллекта.
Уровень познания, необходимый для выполнения определенной задачи, определяется ее характером, поэтому рассматриваемый термин можно применять в отношении любого процесса поиска решения или интерпретации данных с использованием компьютера.
Таким образом, понятие «искусственный интеллект» охватывает широкий спектр процессов, используется в контексте программного обеспечения и соответствующих услуг, в том числе связанных с машинным обучением.
Машинное обучение (самообучающиеся алгоритмы)
Машинное обучение — это класс количественных методов (под которыми зачастую понимают алгоритмы), предназначенных для ускорения процесса прогнозирования определенных показателей на основе некоторого прецедента. В отличие от остальных направлений в ИИ, машинное обучение не требует ручного ввода в алгоритм правил принятия решений — они автоматически определяются системой по эмпирическим данным.
Процесс внесения в алгоритм эмпирических данных для дальнейшего прогнозирования на их основе называется обучением. Так, алгоритм можно обучить прогнозировать тип породы в зависимости от ее геохимического состава. Для этого в набор данных обучения необходимо внести информацию или сведения по геохимии пород и их обозначения (то есть названия типов пород).
Алгоритм выявляет закономерности в введенных данных, определяет взаимосвязь между геохимическим составом и типом породы. Затем, отталкиваясь от выделенных связей, система определяет зависимость между геохимическими показателями и типами пород (рис. 2).
Предполагаемая зависимость является лишь приближением некой базовой функции, скрытой в данных, и устанавливается для прогнозирования выходных показателей (типов породы) с максимально возможной точностью. Однако большинство алгоритмов машинного обучения работают по образцам, выявляемым в имеющихся данных, а не отражают первопричины наблюдаемых явлений (то есть являются эмпирическими). Другими словами, прогнозы, сделанные с использованием средств машинного обучения, не избавлены от ошибок, особенно если модель не проверена специалистом в предметной области (см. ниже). Так, например, модель на рис. 2 не прошла обучение по пробам риолита, поэтому каждая из них будет характеризоваться алгоритмом неправильно и приписываться к андезиту.
Исходя из сказанного выше можно прийти к выводу, что многие специалисты, в том числе геологи, так или иначе уже имели дело с обучением машинных алгоритмов — от составления простых линейных регрессий до использования геостатистических методов оценки ресурсов, например кригинга. Во втором случае входными данными являются пространственные координаты, выходными — содержание ценного компонента. Данные для обучения отбираются из базы опробования с привязкой к участку.
Существует широкий спектр алгоритмов машинного обучения, подходящих для выполнения специализированного геологического анализа. Исходный материал для их обучения обычно либо уже имеется, либо может быть получен самостоятельно. Таким образом машинное обучение можно использовать с целью выявления геологоразведочных объектов в условиях избытка данных (например, решения Goldspot Discoveries, SRK Consulting), автоматического выявления геологических зон залегания полезных ископаемых (Maptek), оценки твердости руды на основе результатов анализа (неопубликованные работы), распознавания частиц золота по фотоснимках пробы ледниковых отложений (IOS Services Geoscientifiques).
Глубинное обучение (самообучающийся алгоритм с использованием аналога нейронных сетей)
Глубинное обучение — это одно из направлений машинного обучения, связанное с использованием специального алгоритма — глубинных нейронных сетей (ГНС, англ. Deep Neural Network, DNN). Данный подход появился еще в 1980-х годах, однако популярность приобрел только в начале 2010-х годов с появлением достаточно мощных процессоров, способных обрабатывать сложные вычисления.
Глубинная нейронная сеть состоит из слоев, на которых расположены взаимосвязанные единицы или «нейроны», выполняющие простейшие математические вычисления, например умножающие результаты расчетов, полученные с предыдущих нейронов (рис. 3). Процесс обучения такого алгоритма представляет собой корректировку каждого нейрона с учетом максимального качества итогового прогноза.
ГНС распознает закономерности в данных постепенно, начиная анализ с самых простых отношений между переменными первых нейронных слоев, заканчивая комплексными абстрактными структурами в последних слоях. Типичная ГНС способна находить решение задач на основе организованных количественных данных, например, таблиц, специализированные сети — работать по изображениям и временным последовательностям.
Одной из разновидностей ГНС, предназначенной для обработки изображений и других точечных форматов, являются сверточные нейронные сети. Они применяются в геологоразведке для выявления объектов (например, решения Orefox), обработки и интерпретации сейсмических данных (Geolearn), определения минералов-индикаторов в пробах ледниковых отложений (IOS Services Geoscientifiques), количественного и качественного описания буровых кернов по их фотоснимкам (Geolearn) или гиперспектральным данным (Solve Geosolutions).
Последовательность входных данных анализируется с помощью такой разновидности ГНС, как рекуррентные нейронные сети. Они адаптированы для анализа временных наборов данных, таких как временные последовательности или текстовая информация. Рекуррентные нейронные сети используют в геологоразведке для выявления перспективных участков на основе находящихся в свободном доступе отчетов (например, решения Goldspot Discoveries) или для геологического документирования данных бурения на основании измерений физических свойств пород (CGG).
Преимущества машинного обучения (самообучающихся алгоритмов)
Машинное обучение в целом и глубинное обучение в частности находят все более широкое применение в самых разных областях — от распознавания лиц до самоуправляемых автомобилей и автоматического перевода. Как отмечено выше, рассматриваемые технологии можно адаптировать к быстрому и экономичному решению геологических задач.
Системы машинного обучения имеют ряд характерных преимуществ перед обычными методами:
- Алгоритмы способны обрабатывать большие объемы входных переменных, выявлять закономерности в комплексных многомерных наборах данных, в то время как человеческий мозг одновременно анализирует не больше двух-трех взаимосвязей.
- В случае наличия репрезентативного набора данных обучения, машинный алгоритм способен самостоятельно выявлять закономерности, предоставляя тем самым объективную оценку информации.
- Обученный алгоритм обладает известной точностью, которую можно определить по полученным результатам анализа; оценочная точность модели и колебаний ее параметров — показатели количественные, на них можно ориентироваться в процессе принятия решений.
- После обучения алгоритм способен предоставлять однотипные прогнозы, одним и тем же входным данным всегда соответствуют одни и те же выходные данные.
- Обученный алгоритм способен быстро обрабатывать большие объемы данных, в течение нескольких минут представлять их интерпретацию; для человека такое, как правило, невозможно.
По всем перечисленным причинам можно сделать вывод, что машинное обучение способно существенно облегчить и повысить эффективность решения большого количества сложных, повторяющихся задач, которые ранее отдавались на откуп человеку или менее надежным алгоритмам. Представленные выше примеры охватывают лишь небольшую часть практики применения машинного обучения в промышленности и научно-исследовательской деятельности. К тому же распространение технологии в горнодобывающей отрасли в последние два-три года только набирает обороты, многое еще впереди.
Сложности применения машинного обучения
Машинное обучение не является универсальным средством, и для его успешного применения необходимо преодолеть ряд характерных сложностей. Например, качество результатов применения алгоритмов зависит от обучающего набора данных.
Чтобы построить надежную модель, потребуется большой набор данных. Вместе с тем получить или подготовить высококачественную, обработанную информацию, как правило, не представляется возможным или требует существенных материальных затрат. Также большинство алгоритмов работают только на выверенных данных, надлежащим образом организованных и преобразованных в требуемый цифровой формат.
В настоящее время геологоразведочную информацию, стандартизированную под применение машинного обучения, найти проблематично. Для того чтобы данная технология приобрела общепринятый характер, необходимо значительно улучшить качество сбора, организации и хранения данных. Со стороны геологов это потребует обучения использованию методов искусственного интеллекта в целом и машинного обучения в частности.
Также методы машинного обучения должны быть адаптированы к специфике геологических дисциплин, оперирующих, как правило, сложными пространственными и временными отношениями между параметрами. Поэтому выработать понимание, какие данные необходимы для решения конкретной задачи, как организовать их предварительную обработку и, наконец, интерпретировать прогноз алгоритма машинного обучения сможет лишь высококвалифицированный специалист в предметной области.
Машинное обучение — достаточно сложная область сама по себе. В ней существует множество специализированных алгоритмов решения конкретных задач со своими преимуществами и недостатками. К сожалению, без полного понимания сущности вопроса и характера входных данных очень легко допустить ошибку.
Прогнозы, основанные на неполных или неправильно построенных моделях, могут привести к печальным последствиям. Рассмотрим пример алгоритма распознавания порфировых месторождений в Кордильерах по мультиспектральным спутниковым снимкам. Теоретически он должен распознать закономерности изменения пород. Однако если алгоритм обучен по фотографиям с уже отрабатываемых месторождений, он, по всей вероятности, свяжет с порфиритовыми месторождениями все изображенные на снимках крупные карьеры, выявит объекты, не имеющие экономической значимости. Чтобы избежать этого, необходимы глубокие знания и понимание проблематики.
Машинное обучение — это перспективный инструмент прогнозирования и принятия решений, но, как и в любом другом комплексном направлении, применяться алгоритмы должны специалистами, обладающими достаточным опытом в области информационных технологий и соответствующих решаемым задачам направлениях. Преуспеть в этом может только квалифицированный междисциплинарный коллектив.
Выводы
Методы машинного обучения все чаще используются в горнодобывающей промышленности. Они эффективны в решении повторяющихся задач или задач с большим количеством многомерных данных (качественных и правильно обработанных).
Объективность, продуктивность и адаптивность алгоритмов машинного обучения делают их идеальным решением широкого спектра проблем различного масштаба. Однако подготовка и внедрение таких технологий в разведке и добыче требует немалого опыта. Моделирование — это комплексная работа, которой сопутствуют характерные сложности, и качество входных данных — не самая последняя из них.
Машинное обучение — это инновационное направление, которое уже успело занять важное место в горнодобывающей промышленности за счет возможности снижения затрат и улучшения экономики проектов. Оно может стать неотъемлемым инструментом в различных областях геологии и горного дела. Новое поколение геологов должно уметь пользоваться им, интерпретировать с его помощью прогнозные модели. Чтобы преуспеть, компаниям и исследовательским организациям нельзя отказываться от таких технологий, как машинное обучение.
Нет комментариев