Перейти к:
От визуальной диагностики к глубокому обучению: автоматическое определение минералов на фотографиях аншлифов
https://doi.org/10.17073/2500-0632-2025-05-416
Аннотация
Изучение минерального состава руд является основополагающим этапом при разведке новых месторождений, поскольку именно оно позволяет определить формы нахождения полезных компонентов, процессы рудообразования и потенциальную извлекаемость ценных элементов. Минеральная ассоциация, текстуры и структуры руд не только дают ключевые сведения о геологии месторождения, но и определяют выбор методов обогащения. Несмотря на развитие современной аналитической базы и существующие решения автоматической диагностики минералов, например, на основе СЭМ-EDS метода, оптическая микроскопия является самым доступным средством количественного минералогического анализа. Однако она остаётся трудоемкой и требует высокой квалификации специалиста. А её визуальный характер ограничивает точность и воспроизводимость результатов, что создает необходимость в разработке более эффективных подходов. Одним из перспективных направлений является автоматизация идентификации рудных минералов по фотоизображениям аншлифов. Целью работы являлась разработка и валидация универсальной сегментационной модели на основе глубокого обучения. В процессе исследования также были решены сопутствующие задачи, включая формирование открытого набора данных LumenStone, разработку методов цветовой адаптации, совместного анализа PPL- и XPL-изображений, построения панорам и разработки метода быстрой разметки. В работе были применены свёрточные нейросетевые архитектуры, алгоритмы коррекции цвета и совместной обработки изображений, а также оригинальный метод семплирования, компенсирующий дисбаланс классов. Предложенная модель сегментации продемонстрировала высокую точность (IoU до 0,88, PA до 0,96) по девяти минералам. Полученные результаты подтвердили эффективность интеграции глубокого обучения и современных алгоритмов обработки изображений для задач минералогического анализа и заложили основу для дальнейшего развития цифровых методов в автоматизированной петрографии.
Ключевые слова
Для цитирования:
Коршунов Д.М., Хвостиков А.В., Николаев Г.В., Сорокин Д.В., Индычко О.И., Богуславский М.А., Крылов А.С. От визуальной диагностики к глубокому обучению: автоматическое определение минералов на фотографиях аншлифов. Горные науки и технологии. 2025;10(3):232-244. https://doi.org/10.17073/2500-0632-2025-05-416
For citation:
Korshunov D.M., Khvostikov A.V., Nikolaev G.V., Sorokin D.V., Indychko O.I., Boguslavskii M.A., Krylov A.S. From visual diagnostics to deep learning: automatic mineral identification in polished section images. Mining Science and Technology (Russia). 2025;10(3):232-244. https://doi.org/10.17073/2500-0632-2025-05-416
От визуальной диагностики к глубокому обучению: автоматическое определение минералов на фотографиях аншлифов
Введение
Изучение минерального состава руд является основополагающим этапом при разведке новых месторождений, поскольку именно оно позволяет определить формы нахождения полезных компонентов, процессы рудообразования и потенциальную извлекаемость ценных элементов. Минеральная ассоциация, текстуры и структуры руд не только дают ключевые сведения о геологии месторождения, но и определяют выбор методов обогащения.
Несмотря на развитие современной аналитической базы и существующие решения автоматической диагностики минералов, например, на основе СЭМ-EDS метода [1, 2], оптическая микроскопия является самым доступным средством количественного минералогического анализа. Однако она остаётся трудоемкой и требует высокой квалификации специалиста. А её визуальный характер ограничивает точность и воспроизводимость результатов, что создает необходимость в разработке более эффективных подходов.
Одним из перспективных направлений является автоматизация идентификации рудных минералов по фотоизображениям аншлифов. Такой подход позволяет не только сократить временные затраты, но и минимизировать субъективные ошибки, связанные с визуальной диагностикой, а также внедрить точные статистические методы анализа. Целью настоящей работы является описание нашего опыта разработки сегментационной модели для автоматической детекции минералов на фотографиях аншлифов и ряда смежных задач, возникавших в ходе исследования. В статье последовательно изложены основные проблемы, с которыми столкнулись авторы, и предложенные ими решения.
Современное состояние проблемы
Первые попытки создания инструментов автоматической диагностики рудных минералов под микроскопом были предприняты во второй половине XX в. [3, 4]. Тогда использовали спектрофотометры, с помощью которых измеряли цвет минералов, в частности, по спектрам поглощения света видимого диапазона интерпретировали минеральный вид. Из-за низкой точности этот метод не был широко распространён. Более совершенные методы автоматической идентификации минералов были созданы уже во второй половине 1990-х годов и опирались на анализ фотографий аншлифов под микроскопом [5, 6].
Предпринимались попытки автоматического анализа минеральных ассоциаций методом кластерного анализа с целью поиска закономерностей между различными объектами на фотографиях [7]. Отдельного упоминания стоит попытка авторов [8] составить цифровой атлас всех минералов, а сами минералы определять с помощью дендрограммы, составляемой на основе цифрового опросника.
На сегодняшний день существующие классические решения (без использования аппарата глубокого обучения) автоматической идентификации минералов можно разделить на два основных типа:
- Использование интенсивности отраженного света совместно с цветовыми характеристиками, выраженными в цветовом пространстве RGB или LAB [9];
- Использование статистических принципов разделения цветовой палитры для определения минералов в конкретном образце [10–12].
Оба подхода имеют существенные ограничения. Методы, использующие цвет и отражательную способность, не способны различать минералы с близкими оптическими свойствами. Статистические методы, в свою очередь, требуют повторной калибровки для каждого нового геологического объекта, что делает их применение «ситуативным» и ограниченным. Это хорошо иллюстрируется в работе [12], где показаны особенности применения данного принципа для разделения медной руды по трём минералам и трём литологическим типам одного конкретного месторождения.
Стоит отметить, что существуют и узкоспециализированные решения, выполненные в виде расширений для популярных программных пакетов анализа изображений, таких как Fiji/ImageJ. Например, в работе [13] описывается метод автоматического определения содержания гематита, его размеров и типов срастаний в руде на базе этого ПО. Проблема подобных решений заключается в том, что они решают узкую конкретную задачу и не обладают должным уровнем универсальности.
Наиболее эффективным способом преодоления недостатка использования классических методов и достижения принципиально более качественных результатов в автоматическом анализе подобных изображений является применение обучаемых глубоких моделей (например, свёрточных нейронных сетей), которые способны извлекать сложные иерархические признаки из изображений с учётом не только локальных текстур и форм, но и глобальных взаимосвязей между фрагментами снимка. Вместо ручного подбора цветовых и статистических характеристик такие модели – будь то традиционные свёрточные сети (Convolutional Neural Networks, CNN) [13–15], современные трансформеры с механизмом самовнимания [16] или гибридные архитектуры (например, Mamba [17]) – учатся выделять отличительные морфологические и структурно-текстурные признаки каждого минерала.
Так, аппарат свёрточных нейронных сетей использовался для анализа дефектности поверхности и качества полировки металлических изделий [18, 19], анализа распределения углерода в чугуне по микрофотографиям поверхности заготовок [20]. В работе [21] показан метод разделения гематита и кварца в аншлифах железной руды с выделением класса их размерности для формирования оптимальной подачи вещества на обогатительный комбинат. Также стоит отметить ряд работ, посвящённых оценке и выделению классов размерности отдельных минеральных индивидов [22, 23], а также анализу и типизации морфологии сростков в системе с известной ассоциацией минералов [24, 25]. Предложенная в этих работах модель сегментации достигла 98 % точности при предсказании качества железной руды и возможности восстановления гематита, что подчёркивает потенциал глубоких моделей в решении производственных задач.
В работе [14] была продемонстрирована эффективность глубоких свёрточных сетей для трёхмерной идентификации минералов и анализа свободных зёрен, а в работе [26] авторы показали, что комбинированный анализ оптических микрофотографий с помощью CNN повышает точность оценки содержания минералов в шихте. В работе [15] авторы улучшили методы субдискретизации признаков, более точно классифицировав горные породы по изображениям шлифов.
Стоит отметить, что с помощью современных подходов глубокого обучения можно легко осуществить переход от классификации фрагментов изображения [27] к полноценной семантической сегментации, что позволяет получить точное пиксельное разбиение изображений по минералам [17, 26] и [14, 28]. При этом в работах [14, 29] была показана принципиальная возможность создавать качественные модели сегментации рудных минералов с высокой точностью определения (> 0,8 по метрике IoU).
Основное преимущество использования глубоких обучаемых нейронных сетей при работе с изображениями аншлифов руд заключается в способности учитывать контекст изображения и адаптироваться к вариативности минеральных ассоциаций. А самое главное – позволяет надёжно различать даже минералы с очень близкими признаками (пирит–марказит, ковеллин–халькозин и др.) без постоянной перекалибровки алгоритма под новые образцы в отличие от других методов компьютерного зрения. Однако работ, посвященных непосредственно диагностике минеральных видов с использованием таких подходов, пока ещё довольно мало. Также модели глубокого обучения могут быть использованы совместно с методами доменной адаптации, что позволяет дообучать модель сегментации на «новых» снимках – снятых другим оборудованием или в иных условиях освещения – и таким образом сохранять высокое качество работы даже при значительных вариациях входных данных. Обширные обзоры по доменной адаптации [14] и примеры успешного применения в семантической сегментации геологических и спутниковых изображений [30, 31] подтверждают, что этот подход обеспечивает универсальность и стабильность в самых разных условиях. Принципиальным отличием большинства методов глубокого обучения является необходимость полной разметки изображений для обучения. Зачастую это весьма трудоёмкий процесс, однако применение специализированных методов слабой разметки, выглядящих с точки зрения пользователя как разметка с помощью грубых штрихов (ScribbleSup [32], ScribbleSeg [33]) или точек [34], позволяет во многих случаях значительно ускорить сбор и подготовку обучающих данных.
Для построения надежной системы, основанной на глубоком обучении, требуется решить следующие основополагающие задачи, подробно рассматриваемые в данной работе:
- Разработка нейросетевых методов сегментации минералов.
- Разработка адаптивных методов калибровки и предобработки изображений.
- Разработка методов совместной обработки разнородных изображений.
- Разработка метода создания панорамных изображений.
- Разработка вспомогательных методов обработки и анализа изображений аншлифов.
Материалы и методы
В настоящем исследовании использовалась коллекция аншлифов, предоставленная кафедрой геологии, геохимии и экономики полезных ископаемых геологического факультета МГУ имени М.В. Ломоносова. Для получения изображений аншлифов использовался поляризационный микроскоп Carl Zeiss AxioScope 40 с фотокамерой Canon PowerShot G10. Все фотографии были сняты с увеличением ×50, а их разрешение 3396×2547 пк.
Основным недостатком существующих решений, применяющих глубокие нейросетевые модели в рассматриваемых задачах анализа фотографий аншлифов [23, 35], по мнению авторов, является закрытость используемых наборов изображений и закрытость кодовой базы, что делает невозможным любое сравнение разрабатываемых методов. Поэтому все размеченные наборы изображений, созданные в рамках работы, оформлены в виде единого открытого набора данных LumenStone1, а программная реализация всех разработанных методов опубликована в виде библиотеки petroscope2 с открытым кодом для языка программирования Python 3.
Созданный набор изображений LumenStone содержит несколько поднаборов, ориентированных на решения различных задач анализа изображений аншлифов. Основными поднаборами являются поднаборы S1, S2, S3, направленные на задачу сегментации (автоматического определения) минералов, сформированные с учетом минеральных ассоциаций и свойств минералов:
- LumenStone S1 (84 изображения): полиметаллические руды (галенит, сфалерит, халькопирит, борнит, блёклая руда);
- LumenStone S2 (39 изображений): сульфидные медно-никелевые руды (пирротин, пентландит, халькопирит);
- LumenStone S3 (35 изображений): минералы с сильными анизотропными свойствами (арсенопирит, ковеллин).
Для всех изображений данных наборов с использованием программного обеспечения Supervisely и Adobe Photoshop были созданы пиксельные маски сегментации соответствующих минералов, необходимые для обучения и тестирования моделей глубокого обучения.
Стоит отметить, что из-за естественных причин встречаемости в природе собранный набор изображений имеет достаточно существенный дисбаланс минералов (процентное соотношение приведено в табл. 1). Данный факт является дополнительной сложностью для разработки методов автоматической сегментации минералов и должен учитываться.
Также авторами были собраны дополнительные поднаборы изображений, необходимые для решения смежных задач:
- LumenStone V1: специальный набор изображений одних и тех же 10 препаратов с разными условиями съемки, предназначенный для разработки и тестирования методов цветовой адаптации. Изображения получены как на том же оборудовании с использованием синего и жёлтого светофильтров, так и с помощью микроскопа ЛОМО Микросистемы ПЛМ-215 с фотокамерой Canon EOS 40D.
- LumenStone P1: 875 изображений, полученных для 35 аншлифов. Для каждого аншлифа снималось 25 фотографий с 20–30%-ным перекрытием, предназначенных для создания панорамных микроскопических изображений.
Для решения задач одновременного анализа фотографий анизотропных минералов в PPL и XPL были сделаны «поворотные» фотографии одной области зрения с шагом поворота столика микроскопа 5 и 15° и дополнительно включены в LumenStone S3.
Таблица 1
Распределение минералов на размеченных фотографиях аншлифов
в наборах LumenStone S1, S2, S3 для задачи сегментации.
В квадратных скобках указано распределение при разбиении на обучающую и тестовую выборки
Минерал | Процент в наборе S1 [train, test], % | Процент в наборе S2 [train, test], % | Процент в наборе S3 [train, test], % | Суммарный процент (S1 + S2 + S3), % |
Нерудные минералы | 16,4 [12,6, 3,8] | 9,8 [8,0, 1,8] | 11,4 [8,8, 2,6] | 37,6 |
Халькопирит | 2,0 [1,1, 0,9] | 3,1 [2,7, 0,4] | 0,9 [0,6, 0,3] | 6 |
Галенит | 3,9 [3,2, 0,8] | – | 1,1 [0,9, 0,3] | 5 |
Магнетит | – | 0,4 [0,4, 0,1] | 0,1 [0,1, < 0,1] | 0,5 |
Борнит | 2,0 [1,7, 0,3] | – | 0,5 [0,4, 0,1] | 2,5 |
Пирротин | – | 8,9 [6,2, 2,7] | – | 8,9 |
Пирит | 12,9 [9,5, 3,4] | – | 1,9 [1,5, 0,4] | 14,8 |
Пентландит | – | 2,4 [1,6, 0,8] | – | 2,4 |
Сфалерит | 13,8 [10,9, 2,9] | – | 0,5 [0,3, 0,2] | 14,3 |
Арсенопирит | – | – | 3,9 [3,0, 1,0] | 3,9 |
Теннантит | 2,1 [1,6, 0,5] | – | – | 2,1 |
Ковеллин | – | – | 1,8 [1,4, 0,3] | 1,8 |
Прочие | – | 0,1 | 0,1 | 0,2 |
1 LumenStone Dataset. URL: https://imaging.cs.msu.ru/en/research/geology/lumenstone
2 GitHub. URL: https://github.com/xubiker/petroscope
Проблемы и их решения (обсуждение)
Ниже приведены описания рассматриваемых задач из области обработки и анализа изображений, необходимых для решения комплексной проблемы автоматической идентификации минералов на микроскопических изображениях аншлифов, и подходы, предложенные авторами для решения этих задач.
1. Нейросетевые методы сегментации минералов
В данной работе для решения задач сегментации мы рассматриваем свёрточные нейронные сети. Альтернативы на основе трансформеров, хотя и перспективны, остаются избыточно ресурсоемкими для стандартных лабораторных условий [36]. Несмотря на хорошую обобщающую способность свёрточных нейронных сетей, они являются довольно чувствительными к дисбалансу классов в обучающей выборке [37, 38], которая характерна для собранных данных (табл. 1). Кроме того, нейросетевые методы не могут быть напрямую применены к изображениям высокого разрешения из-за аппаратных ограничений. Для нивелирования этих недостатков в работе [39] нами был предложен специализированный метод семплирования обучающей выборки в процессе обучения, извлекающий небольшие фрагменты из изображений (патчи) и играющий роль балансировщика данных.
Задачей разработанного метода семплирования является выравнивание распределения классов минералов, подающихся в нейронную сеть при обучении. Для каждой пары «изображение обучающей выборки – тип минерала» вычисляется матрица, содержащая в каждой точке извлеченную площадь выбранного минерала в случае выбора патча с центром в этой точке. Получившийся набор матриц используется в качестве вероятностных карт при выборе патчей для обучения. Так, на каждой итерации семплирования для наименее представленного на данный момент минерала 1) выбирается изображение обучающей выборки (пропорционально содержанию этого минерала), 2) в соответствии с вычисленными ранее вероятностными картами выбирается центр патча, 3) извлекается патч и 4) обновляются данные о представленности минералов в использованных данных. Данный метод при умеренных размерах патча (256–384 пк) позволяет существенно уравнять распределение имеющихся минералов в наборах LumenStone S1, S2, S3, что положительно сказывается на скорости обучения моделей сегментации, а также на итоговых метриках качества сегментации.
При разработке нейросетевых моделей сегментации минералов нами были рассмотрены и исследованы ряд свёрточных архитектур, начиная от традиционного UNet [40] и его модификации ResUNet [29] и заканчивая более современными PSPNet [41] и UPerNet [42]. Преимущество последних заключается в возможности анализировать изображения на разных масштабах, корректно определять одновременно и маленькие, и очень большие объекты, и учитывать локальный и глобальный контекст, что позволяет существенно улучшить качество сегментации на имеющихся данных.
Для оценивания качества сегментации в данной работе используется метрика IoU [43]. Это один из наиболее простых и распространенных способов геометрической оценки сегментации при наличии референсной разметки. Метрика принимает значения из диапазона [0, 1], где 1 соответствует полному совпадению предсказанной разметки с референсной (идеальный случай), а 0 соответствует отсутствию пересечений предсказанной и референсной разметок сегментации. Удовлетворительным обычно считается значение IoU > 0,7, хотя и зависит, конечно, от предметной области.
В нашем случае обучение нейронной сети PSPNet с ResNet18 кодировщиком на наборах LumenStone S1 и S2 совместно с использованием метода семплирования с балансировкой классов, описанного выше, позволило произвести сегментацию 9 минералов и обобщённого класса нерудных минералов с очень высоким качеством (среднее значение IoU на тестовой выборке составило 0,88). При обучении используются кросс-энтропийная функция потерь, случайные аугментации (поворот, незначительное изменение масштаба, яркости и цвета), оптимизатор Adam с начальной скоростью обучения 0,001 и уменьшением при достижении плато. Обучение занимает порядка 3 ч на Nvidia A6000 GPU. Пример применения обученной модели сегментации минералов на изображении из тестовой выборки приведен на рис. 1.
Рис. 1. Пример сегментации изображения аншлифа обученной моделью PSPNet:
а – изображение; б – карта ошибок (зеленым выделены правильно распознанные участки, красным – ошибки сегментации); в – маска минералов (экспертная разметка); г – предсказание модели
2. Адаптивные методы калибровки и предобработки изображений
Одной из основных проблем, с которой столкнулись авторы при работе с первичными данными, является высокая чувствительность сегментационных моделей к цветовой палитре изображений. Различия в цветовых характеристиках между обучающими и реальными изображениями приводят к значительному ухудшению качества определения минералов. Цвето-яркостные характеристики изображений определяются многими факторами: параметрами микроскопа, настройками фотокамеры, освещенностью и др.
Один из вариантов решения данной проблемы – использование автоматической коррекции цвета, основанной на разнице цветов между получаемым изображением и известным референсом (например [44]).
Метод исправления цветовых искажений был предложен нами в работе [45]. Основная идея заключается в построении матрицы перехода (Color Correction Matrix, CCM) [46] между цветовыми пространствами искажённого и эталонного изображений (за эталон принимаются изображения из обучающего набора данных).
Процесс включает извлечение усредненных цветов минералов и фона с использованием частичной разметки, линеаризацию цветов через гамма-коррекцию (γ = 2,2) и расчет аффинного преобразования. Задача минимизации решается в LAB-пространстве, в качестве функции потерь используется сумма квадратов цветовых отличий, вычисленных по формуле CIEDE2000 [47]. В работе используется матрица размера 4x3 с инициализацией начального приближения методом «баланса белого» [46]. Последним шагом искаженное изображение преобразуется путем матричного умножения на вычисленную ранее матрицу цветовой коррекции.
Предложенный метод позволяет сохранить цветовые различия, критически важные для идентификации минералов (рис. 2), минимизируя при этом влияние изменений освещения и настроек оборудования. Алгоритм поддерживает два режима работы: индивидуальную коррекцию для каждого изображения и «калибровочный» режим для серийных снимков, где матрица коррекции рассчитывается один раз и применяется ко всей группе. Метод не требует предварительного обучения, обработка одного изображения занимает менее 10 с на Intel Xeon Gold 6226R CPU.
Рис. 2. Пример работы предложенного метода цветовой калибровки:
а – исходное изображение, снятое на альтернативном оборудовании; б – референсное изображение;
в – исходное после работы метода
3. Методы совместной обработки разнородных изображений
Многие минералы идентифицируются не только на основе их цвета и отражательной способности, но также по наличию или отсутствию анизотропных свойств. Анизотропия проявляется в способности минералов «гаснуть» в дважды поляризованном свете (скрещенных николях) при совпадении оптических осей минерала с направлением поляризаторов микроскопа. Это свойство является ключевым для возможности отличить минералы с близкими параметрами отражательной способности и цвета. Например, пирит (изотропный) и марказит (анизотропный) имеют схожие оптические характеристики, но отличаются по наличию анизотропии. Аналогично, пирит и арсенопирит, хотя и обладают несколько различными отражательной способностью и цветом, также могут быть надежно разделены по наличию анизотропии у арсенопирита.
Авторами статьи был разработан нейросетевой метод сегментации, использующий XPL- и PPL-изображения в качестве дополнительных входных данных для сегментирующей нейронной сети для повышения точности сегментации минералов [48]. Ключевым этапом данного метода является совмещение изображений, снятых при разных углах поворота с эталонным PPL-изображением. Для этого применялись алгоритмы SIFT [49] для детекции устойчивых ключевых точек на изображениях и RANSAC [50], с помощью которого по найденным парам ключевых точек вычислялось аффинное преобразование между изображениями. Таким образом, все изображения были приведены к единой системе координат (рис. 3). Далее приведенные к единой системе координат XPL-изображения используются как дополнительные каналы на входе нейронной сети, в основе которой лежит архитектура, предложенная ранее авторами [29]. Используемые гиперпараметры описаны в [29], время обучения модели составляет около 6 ч на видеокарте NVidia A6000 GPU.
Рис. 3. Совмещение XPL-изображений арсенопирита:
верхний ряд – изображения арсенопирита в различных ориентациях, нижний ряд – изображения арсенопирита в различных ориентациях после совмещения. Представлены 4 различные ориентации из 24 для каждого изображения с анизотропными минералами
4. Методы создания панорамных изображений
Площадь среднего аншлифа составляет несколько квадратных сантиметров, при исследовании типично увеличение ×50. В таких условиях на каждой фотографии будет лишь небольшая часть аншлифа, площадью в несколько квадратных миллиметров. Использование фотографий, покрывающих большую площадь образца, позволило бы получить более точную информацию о распределении минералов в образце и об их взаимном расположении и положительно сказалось бы на качестве анализа.
Для получения больших изображений в геологии можно использовать сканирующие электронные микроскопы (SEM), но такое оборудование очень дорогое, структурно-текстурные особенности могут теряться в силу особенностей метода, а определение минеральных фаз требует дополнительных усилий. Поэтому мы, как и другие исследователи [51], делаем выбор в пользу программного сшивания серии изображений, снятых с перекрытием, в единую панораму.
В настоящее время существует множество примеров программного обеспечения для автоматического сшивания разрозненных фотографий в единое панорамное изображение. К ним относятся Adobe Photoshop, Fiji/ImageJ и многие другие. Но использование стороннего ПО обладает рядом недостатков. Мощные средства, такие как Adobe Photoshop, могут излишне преобразовывать панораму (неестественно менять цвета, устранять важные детали, принимая их за артефакты склейки). Интеграция сторонней реализации в собственную систему затруднительна сама по себе, а также приводит к невозможности вносить необходимые изменения в работу алгоритма в соответствии с особенностями решаемой задачи.
Авторами был разработан собственный алгоритм сшивания фотографий в панорамное изображение поверхности аншлифа [52] (рис. 4). Алгоритм состоит из двух основных этапов: совмещение изображений и дальнейшая постобработка для улучшения визуального восприятия. На первом этапе с использованием калибровочных изображений корректируются геометрические искажения изображений с помощью модели Брауна–Конради [53] и фотометрические искажения с помощью компенсации плоского поля [54]. Затем с помощью нейросетевого алгоритма LoFTR [55] находятся общие точки изображений, имеющих области перекрытия. По ним вычисляются перспективные преобразования – гомографии для пар соседних изображений с помощью RANSAC [50], после чего все изображения преобразуются в координаты одного изображения (опорного). Наконец, выполняется глобальная оптимизация панорамы для минимизации ошибок совмещения. Результатом этапа является первичная панорама – коллаж. На втором этапе происходит улучшение первичной панорамы. Компенсируется разница экспозиций на изображениях. Маскируются швы между изображениями с помощью построения наименее заметного шва методом разреза графа [56], с учетом разницы в цвете и градиентах соседних пикселей. Финальным шагом изображения смешиваются вблизи стыков частей панорамы для устранения возможных остаточных артефактов сшивания. Для тестирования алгоритма использовался собранный для задачи построения панорам набор LumenStone P1. Метод не требует предварительного обучения, скорость обработки одной панорамы из 25 изображений на Intel Xeon Gold 6226R CPU составляет порядка 5 мин.
Рис. 4. Иллюстрация разработанного метода построения панорам: слева несколько изображений одного аншлифа, снятых с перекрытием, справа – построенная панорама
5. Вспомогательные методы обработки и анализа изображений аншлифов
Применение методов глубокого обучения для сегментации минералов на изображениях требует точной разметки большого количества изображений, что является трудоёмким процессом. Для упрощения процесса разметки и создания сегментационной модели, способной распознавать основные рудные минералы, авторами разрабатывается метод ускоренной интерактивной разметки с использованием суперпиксельной кластеризации на основе методов SLIC [57] и Felzenswalb [58]. Геолог грубо выделяет минералы штрихами, при этом целые области изображения помечаются меткой того или иного минерала на основе данных о нанесенных штрихах и карты суперпикселей. Пользователь корректирует предсказания метода, пока не получит окончательную разметку. Особенность подхода – многомасштабная кластеризация, позволяющая быстро размечать как большие однородные области, так и мелкие фрагменты, автоматически разбивая большие кластеры на более мелкие по мере необходимости.
Также сократить трудозатраты на разметку данных можно пополнением обучающей выборки частично размеченными данными. Основная идея подхода заключается в выделении на изображениях областей неопределенности (неуверенности) обученной модели сегментации. Авторы предлагают выделять области неопределенности на изображениях [59] с использованием гиперболического радиуса [60], что позволяет снизить объем разметки до 5–10 % от исходного изображения (рис. 5).
Рис. 5. Результат работы метода оценки областей неопределенности:
а – исходное изображение; б – предсказание областей неуверенности модели сегментации; в – области для ручной разметки
Заключительным этапом после распознавания и сегментации всех минералов на изображениях является этап статистического анализа изображения. Он ответственен за проведение количественного анализа, выполняющего оценку площадного соотношения минеральных фаз и их гранулометрического анализа с выделением фракций по классам размерности для каждого минерала. Данный этап пока находится на стадии разработки.
Результаты
Итогом проведенного авторами исследования тематики автоматического анализа микроскопических изображений геологических аншлифов для определения минерального состава стали открытый набор изображений LumenStone и ряд алгоритмов и методов, решающих основные возникшие задачи:
1. Нейросетевые методы сегментации минералов
Разработаны свёрточная нейросетевая модель сегментации минералов и специальный метод семплирования обучающей выборки, позволяющий нивелировать имеющийся дисбаланс классов. Точность сегментации минералов по метрике IoU составила: нерудные – 0,912, борнит – 0,938, халькопирит – 0,899, галенит – 0,905, магнетит – 0,650, пентландит – 0,790, пирротин – 0,928, пирит – 0,964, сфалерит – 0,922, теннантит – 0,882. Общая пиксельная точность сегментации (pixel accuracy, PA) составила 0,96. Имеющаяся дифференциация результатов определения минералов объясняется разностью объемов обучающих выборок LumenStone S1 и LumenStone S2.
2. Адаптивные методы калибровки и предобработки изображений
Разработан алгоритм адаптации изображений аншлифов, полученных в разных условиях съемки с использованием частичной пользовательской разметки. Пиксельная точность сегментации возросла с 0,29 до 0,87 для искаженных изображений до и после адаптации с использованием разметки, составляющей порядка 30–35 % от изображения.
3. Методы совместной обработки разнородных изображений
Разработанный алгоритм сегментации анизотропных минералов с использованием дополнительных повернутых XPL-изображений повысил качество сегментации анизотропных минералов на 3–12 %. Было показано, что наилучшего результата можно достичь использованием 6 дополнительных повернутых изображений.
4. Методы создания панорамных изображений
Разработан метод построения панорамных микроскопических изображений аншлифов. Среднеквадратичная ошибка совмещения частей панорамы из 25 изображений составила 0,5–0,6 пк. Получаемые панорамы имеют разрешение 12000×8000 пк и могут быть использованы для задач автоматической сегментации минералов. Реализованный метод лишен недостатков менее специализированных решений, таких как Adobe Photoshop, Fiji, Panorama Studio.
5. Вспомогательные методы обработки и анализа изображений аншлифов
Разработан прототип метода интерактивной разметки изображений аншлифов, позволяющий существенно ускорить процесс подготовки данных для обучения моделей сегментации. Также разработан метод автоматического поиска областей неопределенности, позволяющий приоритизировать разметку изображений и значительно сократить объем требуемой разметки.
Заключение
В данной работе представлен опыт авторов по разработке набора методов автоматического анализа микрофотографий аншлифов для определения рудных минералов. Разработанный метод сегментации на основе свёрточной нейронной сети способен определять 9 рудных минералов (с корректным отделением их от нерудных фаз) с точностью IoU = 0,88 и PA = 0,96. Показана перспективность использования дополнительной информации из XPL-изображений для увеличения точности определения анизотропных минералов.
Разработанные методы интерактивной разметки и адаптации изображений существенно ускоряют обучение и использование моделей сегментации на новых данных. Отдельно стоит отметить разработанный авторами метод получения панорамных изображений аншлифов, позволяющий получать детализированные изображения всей поверхности препаратов в высоком разрешении без дорогостоящего оборудования, который в отличие от существующих программных решений не искажает итоговую панораму, что положительно сказывается на результатах сегментации. А работа с широкоформатными изображениями открывает новые перспективы в автоматическом анализе микрофотографий аншлифов.
Полученные результаты обосновывают необходимость дальнейшего развития рассматриваемого направления, а также формируют основу для создания интеллектуальной системы количественной оценки, способной не только идентифицировать минералы и рассчитывать их площадные доли, выполнять гранулометрический анализ по классам крупности, но и определять типы минералогических срастаний. Реализация такой методологии откроет новые возможности в цифровой петрографии, обеспечив быстрый, экономичный и воспроизводимый минеральный анализ на оптических микроскопах в отражённом свете. В конечном итоге это позволит сформировать унифицированные критерии анализа структурно-текстурных особенностей минеральных ассоциаций для генетического сравнения разных месторождений.
На данный момент авторы внедряют большинство описанных в данной статье методов и алгоритмов в разработанную ими программную платформу PathScribe [61]. Данная платформа представляет собой облачное клиент-серверное решение с кроссплатформенными клиентами для работы с изображениями сверхвысокого разрешения и ориентирована на универсальное применение как в научных, так и в образовательных целях. Авторы надеются, что возможность работы с панорамными изображениями аншлифов, с удобными средствами их разметки и полного автоматического анализа будет полезной для специалистов-геологов разных профилей.
Список литературы
1. De Castro B., Benzaazoua M., Chopard A., et al. Automated mineralogical characterization using optical microscopy: Review and recommendations. Minerals Engineering. 2022;189:107896. https://doi.org/10.1016/j.mineng.2022.107896
2. Duncan P., Gavyn K. R. Unlocking the applications of automated mineral analysis. Geology Today. 2011;27(6):226–235. https://doi.org/10.1111/j.1365-2451.2011.00818.x
3. Юшко С. А. Методы лабораторных исследований руд. М.: Недра; 1984. 389 с.
4. Craig J. R., Vaughan D. J. Ore microscopy and ore petrography. Manchester: A Wiley-interscience Publication; 1994. 446 p.
5. Bonifazi G. Digital multispectral techniques and automated image analysis procedures for industrial ore modelling. Minerals Engineering. 1995;8(7):779–794. https://doi.org/10.1016/0892-6875(95)00039-S
6. Marschallinger R. Automatic mineral classification in the macroscopic scale. Computers & Geosciences. 1997;23(1):119–126. https://doi.org/10.1016/S0098-3004(96)00074-X
7. Berry R., Walters S.G., McMahon C. Automated mineral identification by optical microscopy. In: Ninth International Congress for Applied Mineralogy. Brisbane, Australia, 8–10 September 2008. Brisbane: QLD; 2008. Pp. 91–94.
8. Shoji T., Keneda H. An interactive system to assist mineral identification in ore microscopy. Mathematical Geology. 1994;26:961–972. https://doi.org/10.1007/BF02083424
9. López-Benito A., Catalina J. C., Alarcón D., et al. Automated ore microscopy based on multispectral measurements of specular reflectance. I–A comparative study of some supervised classification techniques. Minerals Engineering. 2020;146:106136. https://doi.org/10.1016/j.mineng.2019.106136
10. Berrezueta E., Ordóñez-Casado B., Bonilla W., Banda R., Castroviejo R., Carrión P., Puglla S. Ore petrography using optical image analysis: application to Zaruma-Portovelo deposit (Ecuador). Geosciences. 2016;6(2):30. https://doi.org/10.3390/geosciences6020030
11. Köse C., Alp I., İkibaş C. Statistical methods for segmentation and quantification of minerals in ore microscopy. Minerals Engineering. 2012;30:19–32. https://doi.org/10.1016/j.mineng.2012.01.008
12. Krawczykowska A., Trybalski K., Krawczykowski D. The application of modern techniques and measurement devices for identification of copper ore types and their properties. Archives of Mining Sciences. 2013;58(2):433–448. https://doi.org/10.2478/amsc-2013-0029
13. Iglesias J. C. A, Augusto K. S, Gomes O. D. F. M., et al. Automatic characterization of iron ore by digital microscopy and image analysis. Journal of Materials Research and Technology. 2018;7(3):376–380. https://doi.org/10.1016/j.jmrt.2018.06.014
14. Tang K., Chen J., Zhou H., Liu J. Deep convolutional neural network for 3D mineral identification and liberation analysis. Minerals Engineering. 2022;183:107592. https://doi.org/10.1016/j.mineng.2022.107592
15. Zhou Z., Yuan H., Cai X. Rock Thin section image identification based on convolutional neural networks of adaptive and second-order pooling methods. Mathematics. 2023;11(5):1245. https://doi.org/10.3390/math11051245
16. Kirillov A., Mintun E., Ravi N., et al. Segment anything. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023;4015–4026. https://doi.org/10.48550/arXiv.2304.02643
17. Hatamizadeh A., Kautz J. Mambavision: A hybrid mamba-transformer vision backbone. arXiv preprint arXiv: 2407.08083. 2024. https://doi.org/10.48550/arXiv.2407.08083
18. Liu M. W., Lin Y. H., Lo Y. C., et al. Defect Detection of grinded and polished workpieces using faster R-CNN. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2021. Pp. 1290–1296. https://doi.org/10.1109/AIM46487.2021.9517664
19. Zhongliang L. V., Zhenyu Lu., Kewen Xia., et al. LAACNet: Lightweight adaptive activation convolution network-based defect detection on polished metal surfaces. Engineering Applications of Artificial Intelligence. 2024;133(E):108482. https://doi.org/10.1016/j.engappai.2024.108482
20. Sivkova T., Gusev A., Syropyatov A. Technology for cast iron microstructure analysis in SIAMS software using neural networks. In: Proceedings of the 31th International Conference on Computer Graphics and Vision. September 27–30, 2021, Nizhny Novgorod, Russia. 2021;2:772–780.
21. Amaral B., Soares A.K., Iglesias J.C.Á., Caldas T.D.P., Santos R.B.M., Paciornik S. Instance segmentation of quartz in iron ore optical microscopy images by deep learning. Minerals Engineering. 2024;211:108681. https://doi.org/10.1016/j.mineng.2024.108681
22. Maitre J., Bouchard K., Bédard L.P. Mineral grains recognition using computer vision and machine learning. Computers & Geosciences. 2019;130:84–93. https://doi.org/10.1016/j.cageo.2019.05.009
23. Song Y., Huang Z., Shen C., et al. Deep learning-based automated image segmentation for concrete petrographic analysis. Cement and Concrete Research. 2020;135:106118. https://doi.org/10.1016/j.cemconres.2020.106118
24. Donskoi E., Hapugoda S., Manuel J. R., et al. Automated optical image analysis of iron ore sinter. Minerals. 2021;11(6):562. https://doi.org/10.3390/min11060562
25. Donskoi E., Poliakov A. Advances in optical image analysis textural segmentation in ironmaking. Applied Sciences. 2020;10(18):6242. https://doi.org/10.3390/app10186242
26. Santoro L., Lezzerini M., Aquino A., et al. A novel method for evaluation of ore minerals based on optical microscopy and image analysis: preliminary results. Minerals. 2022;12(11):1348. https://doi.org/10.3390/min12111348
27. Su C., Wang Y., Zhu J., Zhang X. C. Rock classification in petrographic thin section images based on concatenated convolutional neural networks. Earth Science Informatics. 2020;13:1477–1484. https://doi.org/10.1007/s12145-020-00505-1
28. Tang H., Wang H., Wang L., et al. An improved mineral image recognition method based on deep learning. JOM. 2023;75:2590–2602. https://doi.org/10.1007/s11837-023-05792-9
29. Khvostikov A. V., Korshunov D. M., Krylov A. S., Boguslavskii M. A. Automatic identification of minerals in images of polished sections. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. 2021;XLIV-2/W1-2021:113–118. https://doi.org/10.5194/isprs-archives-XLIV-2-W1-2021-113-2021
30. Chen H., Zhang H., Yang G. A., Zhang L. Mutual information domain adaptation network for remotely sensed semantic segmentation. In: IEEE Transactions on Geoscience and Remote Sensing. 2022;60:1–16. https://doi.org/10.1109/TGRS.2022.3203910
31. Nasim M. K., Tannistha M., Shrivastava A., Singh T. Seismic facies analysis: a deep domain adaptation approach. In: IEEE Transactions on Geoscience and Remote Sensing. 2020;60:1–16. https://doi.org/10.1109/TGRS.2022.3151883
32. Lin D., Dai J., Jia J., et al. Scribblesup: Scribble-supervised convolutional networks for semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA; 2016. Pp. 3159–3167. https://doi.org/10.1109/CVPR.2016.344
33. Chen X., Cheung Y. S. J., Lim S. N., Zhao H. ScribbleSeg: Scribble-based interactive image segmentation. arXiv preprint arXiv: 2303.11320. 2023. https://doi.org/10.48550/arXiv.2303.11320
34. Cheng B., Parkhi O., Kirillov A. Pointly-supervised instance segmentation. In: IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA; 2022. Pp. 2617–2626. https://doi.org/10.1109/CVPR52688.2022.00264
35. Tang H., He. L., Huang B, et al. Segmentation and labeling of polished section images based on deep learning. Mining, Metallurgy & Exploration. 2025;42:1053–1063. https://doi.org/10.1007/s42461-025-01205-4
36. Tabani H., Balasubramaniam A., Marzbanet S., et al. Improving the efficiency of transformers for resource-constrained devices. In: 24th Euromicro Conference on Digital System Design (DSD). Palermo, Italy; 2021. Pp. 449–456. https://doi.org/10.1109/DSD53832.2021.00074
37. Bressan P. O., Junior J. M. Martins J. A. C., et al. Semantic segmentation with labeling uncertainty and class imbalance. International Journal of Applied Earth Observation and Geoinformation. 2022;108:102690. https://doi.org/10.1016/j.jag.2022.102690
38. Li Z., Kamnitsas K., Glocker B. Analyzing overfitting underclass imbalance in neural networks for image segmentation. In: IEEE Transactions on Medical Imaging. 2021;40(3):1065–1077. https://doi.org/10.1109/TMI.2020.3046692
39. Kochkarev A., Khvosticov A., Korshunov D., Boguslavskii M. Data balancing method for training segmentation neural networks. In: Proceedings of the 30th International Conference on Computer Graphics and Machine Vision (GraphiCon 2020). Saint Petersburg, Russia, 22–25 September. Saint Petersburg: Ceur Workshop Proceedings; 2020.
40. Ronneberger O., Fischer P., Brox T. U-Net: Convolutional networks for biomedical image segmentation. B: Navab N. Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015. Cham: Springer; 2015. Pp. 234–41. https://doi.org/10.1007/978-3-319-24574-4_28
41. Zhao H., Shi J., Qi X., et al. Pyramid scene parsing network. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA; 2017. Pp. 2881–2890. https://doi.org/10.1109/CVPR.2017.660
42. Xiao T., Liu Y., Zhou B., et al. Unified perceptual parsing for scene understanding. In: Ferrari V., Hebert M., Sminchisescu C., Weiss Y. (eds.) Computer Vision – ECCV 2018. ECCV 2018. Lecture Notes in Computer Science. Vol 11209. Springer, Cham; 2018. Pp. 418–434. https://doi.org/10.1007/978-3-030-01228-1_26
43. Rezatofighi H., Tsoi N., Gwak J., et al. Generalized intersection over union: A metric and a loss for bounding box regression. In: Proceedings of the IEEE. 2019. Pp. 658–666. https://doi.org/10.48550/arXiv.1902.09630
44. Reinhard E., Adhikhmin M., Gooch B., Shirley P. Color transfer between images. In: IEEE Computer Graphics and Applications. 2001;21(5):34-41. https://doi.org/10.1109/38.946629
45. Indychko O. I., Khvostikov A. V., Korshunov D. M., Boguslavskii M. A. Color adaptation in images of polished sections of geological specimens. Computational Mathematics and Modeling. 2022;33:487–500. https://doi.org/10.1007/s10598-023-09588-z
46. Wolf S. Color correction matrix for digital still and video imaging systems. Washington, D.C.: National Telecommunications and Information Administration; 2003. 28 p.
47. Sharma G., Wu W., Dalal E. N. The CIEDE2000 color-difference formula: Implementation notes, supplementary test data, and mathematical observations. Color Research & Application. 2005;30(1):21–30. https://doi.org/10.1002/col.20070
48. Razzhivina D. I., Korshunov D. M., Boguslavskiy M. A., et al. Registration and segmentation of PPL and XPL images of geological polished sections containing anisotropic minerals. Computational Mathematics and Modeling. 2024;34:16–26. https://doi.org/10.1007/s10598-024-09592-x
49. Lowe D. G. Distinctive image features from scale invariant keypoints. International Journal of Computer Vision. 2004;60:91–110. https://doi.org/10.1023/B:VISI.0000029664.99615.94
50. Fischler M. A., Bolles R. C. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. Communications of the ACM. 1981;24(6):381–395.
51. Ro S.-H., Kim S.-H. An image stitching algorithm for the mineralogical analysis. Minerals Engineering. 2021:169;106968. https://doi.org/10.1016/j.mineng.2021.106968
52. Nikolaev G., Korshunov D., Khvostikov A. Automatic stitching of panoramas for geological images of polished sections. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences. 2024;X-2/W1-2024:39–46. https://doi.org/10.5194/isprs-annals-X-2-W1-2024-39-2024
53. Brown D. C. Decentering distortion of lenses. Photogrammetric Engineering. 1966:32(3);444–462.
54. Seibert J. A., Boone J. M., Lindfors K. K. Flat-field correction technique for digital detectors. In: Proceedings of SPIE, Medical Imaging 1998: Physics of Medical Imaging. 1998:3336;348–354. https://doi.org/10.1117/12.317034
55. Sun J., Shen Z., Wang Y., et al. LoFTR: Detector-free local feature matching with transformers. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021. Pp. 8922–8931. https://doi.org/10.48550/arXiv.2104.00680
56. Boykov Y., Kolmogorov V. An experimental comparison of min-cut/max-flow algorithms for energy minimization in vision. In: IEEE Transactions on Pattern Analysis and Machine Intelligence. 2004;26(9):1124–1137. https://doi.org/10.1109/TPAMI.2004.60
57. Achanta R., Shaji A., Smith K., et al. SLIC superpixels compared to state-of-the-art superpixel methods. In: IEEE Transactions on Pattern Analysis and Machine Intelligence. 2012;34(11):2274–2282. https://doi.org/10.1109/TPAMI.2012.120
58. Felzenszwalb P. F., Huttenlocher D. P. Efficient graph-based image segmentation. International Journal of Computer Vision. 2004:59;167–181. https://doi.org/10.1023/B:VISI.0000022288.19776.77
59. Indychko O., Korshunov D., Khvostikov A. Using uncertainty to expand training sets for mineral segmentation in geological images. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. 2025. In press.
60. Franco L., Mandica P., Kallidromitis K., et al. Hyperbolic Active Learning for Semantic Segmentation under Domain Shift. In: Proceedings of the 41st International Conference on Machine Learning. 2024. https://doi.org/10.48550/arXiv.2306.11180
61. Khvostikov A., Ippolitov V., Krylov A., et al. PathScribe: new software to work with whole slide histological images for education and research. In: Proceedings of the 2023 8th International Conference on Biomedical Imaging, Signal Processing. Singapore: ACM; 2023. Pp. 63–70. https://doi.org/10.1145/3634875.3634884
Об авторах
Д. М. КоршуновРоссия
Дмитрий Михайлович Коршунов – кандидат геолого-минералогических наук, старший научный сотрудник
г. Москва
А. В. Хвостиков
Россия
Александр Владимирович Хвостиков – кандидат физико-математических наук, научный сотрудник лаборатории математических методов обработки изображений факультета вычислительной математики и кибернетики
г. Москва
Scopus ID 57188856261
Г. В. Николаев
Россия
Глеб Витальевич Николаев – студент магистратуры факультета вычислительной математики и кибернетики
г. Москва
Д. В. Сорокин
Россия
Дмитрий Васильевич Сорокин – кандидат физико-математических наук, старший научный сотрудник лаборатории математических методов обработки изображений факультета вычислительной математики и кибернетики
г. Москва
О. И. Индычко
Россия
Олеся Игоревна Индычко – аспирант факультета вычислительной математики и кибернетики
г. Москва
М. А. Богуславский
Россия
Михаил Александрович Богуславский – кандидат геолого-минералогических наук, доцент кафедры геологии, геохимии и экономики полезных ископаемых геологического факультета
г. Москва
ResearcherID V-4671-2017
А. С. Крылов
Россия
Андрей Серджевич Крылов – доктор физико-математических наук, профессор, заведующий лабораторией математических методов обработки изображений факультета факультета вычислительной математики и кибернетики
г. Москва
Scopus ID 7202280261
ResearcherID B-9651-2014
Дополнительные файлы
Рецензия
Для цитирования:
Коршунов Д.М., Хвостиков А.В., Николаев Г.В., Сорокин Д.В., Индычко О.И., Богуславский М.А., Крылов А.С. От визуальной диагностики к глубокому обучению: автоматическое определение минералов на фотографиях аншлифов. Горные науки и технологии. 2025;10(3):232-244. https://doi.org/10.17073/2500-0632-2025-05-416
For citation:
Korshunov D.M., Khvostikov A.V., Nikolaev G.V., Sorokin D.V., Indychko O.I., Boguslavskii M.A., Krylov A.S. From visual diagnostics to deep learning: automatic mineral identification in polished section images. Mining Science and Technology (Russia). 2025;10(3):232-244. https://doi.org/10.17073/2500-0632-2025-05-416