Scientific journal
Advances in current natural sciences
ISSN 1681-7494
"Перечень" ВАК
ИФ РИНЦ = 0,775

SYSTEM ASPECTS OF THE ANALYSIS OF GEOSPATIAL INFORMATION IN DIGITAL INFRASTRUCTURES OF SPATIAL DATA FOR ASSESSING THE POTENTIAL OF THE MINERAL RESOURCE BASE

Yamashkin A.A. 1 Yamashkin S.A. 1 Yamashkina E.O. 2 Muchkaeva N.S. 1 Lyamzina I.S. 1
1 National Research Mordovia State University
2 Russian Technological University (MIREA)
1336 KB
The article is devoted to solving the scientific problem of determining the reference points of the system analysis of geospatial information in digital infrastructures of spatial data for solving specific scientific and practical problems related to the modernization of the processes of analysis and classification of natural geosystems, dynamic forecasting of the directions of development of emergency situations and assessment of their consequences. A characteristic is given of a new methodology for integrating training data based on the domestic geosystem approach, which is effective to ensure the selection of characteristic spatio-temporal features and, as a result, to obtain more accurate results of the analysis of spatio-temporal systems by means of deep learning. The authors have shown that the results of experiments on training deep predictive neural network models should be summarized into a system of principles for constructing effective convolutional-recurrent neural networks, the practical use of which will make it possible to increase the efficiency of forecasting spatio-temporal processes in comparison with the empirical approach of configuring neural networks. The created methodological and algorithmic support for the analysis of regional geosystems should be tested in solving scientific and practical problems in the field of automated assessment of the mineral resource base of the regions of Russia. In particular, it is advisable to work out ways to solve the problems of assessing the likelihood of natural disasters and emergencies. The article emphasizes that in order to provide effective information support for remote sensing, it is advisable to form a system of test polygons, which should be characterized by the properties of structural diversity, high level of knowledge, standardized documentation. Created new methods and algorithms for deep machine learning, tested on the system of test polygons when solving design problems, are applicable to the analysis of spatial models of various ranks.
digital technologies
sustainable development
spatial data
spatial data infrastructures
mineral resource base
1. McLaughlin J., Nichols S. Developing a national spatial data infrastructure. Journal of Surveying Engineering. 1994. Vol. 120. № 2. P. 62-76.
2. Jabbour C., Rey-Valette H., Maurel P., Salles J.M. Spatial data infrastructure management: A two-sided market approach for strategic reflections. International Journal of Information Management. 2019. Vol. 13. № 21. P. 69-82. DOI: 10.1016/j.ijinfomgt.2018.10.022.
3. Sochava V.B. Introduction to the theory of geosystems. Novosibirsk: Nauka, 1978. 320 p. (in Russian).
4. Lü G., Batty M., Strobl J. Reflections and speculations on the progress in Geographic Information Systems (GIS): a geographic perspective. International journal of geographical information science. 2019. Vol. 33. № 2. P. 346-367.
5. Heaton J., Datta A., Finley A. O. A case study competition among methods for analyzing large spatial data. Journal of Agricultural, Biological and Environmental Statistics. 2019. Vol. 24. № 3. P. 398-425. (In Eng.) DOI: 10.1007/s13253-018-00348-w.
6. Yamashkin S.A., Radovanović M.M., Yamashkin A.A., Barmin A.N., Zanozin V.V., Petrović M.D. Problems of designing geoportal interfaces. GeoJournal of Tourism and Geosites. 2019. Vol. 24. № 1. P. 88-101.
7. Yamashkin S.A. Development of the educational course “Digital Spatial Data Infrastructure // Obrazovatelniye tehnologii i obshestvo. 2019. Vol. 22. № 3. P. 113-120. (in Russian).
8. Yamashkin S.A., Yamashkin A.A., Fedosin S.A. Development of a project-oriented spatial data infrastructure using cloud technologies // Radiopromishlennost. 2019. № 3. P. 79-90. DOI: 10.21778/2413-9599-2019-29-3-79-90 (in Russian).
9. Yermolaev O.P. Geoinformation mapping of soil erosion in the Middle Volga region. Eurasian soil science. 2017. Vol. 50. № 1. P. 118-131. DOI: 10.1134/S1064229317010070.
10. Wong B. K., Monaco J. A. Expert system applications in business: a review and analysis of the literature. Information and Management. 1995. Vol. 29. № 3. P. 141–152. DOI: 10.1016/0378-7206(95)00023-p.

В рамках развития теории и практики экологической гармонизации взаимодействия природных, социальных и производственных систем актуальное место занимает научная проблема повышения эффективности анализа закономерностей пространственно-временной организации сложных динамических геосистем с целью анализа ресурсного потенциала минерально-сырьевой базы регионов и прогнозирования природных и природно-техногенных чрезвычайных ситуаций. К открытым вызовам относятся создание и экспериментальное обоснование новых геоинформационных методов и алгоритмов комплексной интерпретации данных дистанционного зондирования Земли (ДЗЗ), цифровых карт и вспомогательной пространственно-временной информации с использованием глубокого машинного обучения, позволяющих проводить высокоточный автоматизированный мониторинг систем природопользования в системе цифровых инфраструктур пространственных данных (ИПД) [1].

Изучение опыта анализа природно-социально-производственных систем (ПСПС) для целей оптимизации использования минерально-сырьевой ресурсной базы указывает на актуальность применения в обозначенной проблемной области методов и алгоритмов машинного обучения.

Цель исследования заключается в определении опорных моментов системного анализа пространственной информации в цифровых ИПД. Разработка обозначенной научной проблемы позволит решить конкретные научные и практические задачи, связанные с модернизацией процессов анализа и классификации естественных геосистем с целью автоматизированной оценки минерально-сырьевой ресурсной базы регионов России.

Материалы и методы исследования

Процесс разработки системы методов глубокого машинного анализа пространственных данных о территории опирается на использование электронных синтетических карт геосистем в качестве исходных данных для обучения нейросетевых моделей, исследования системных связей и закономерностей функционирования и развития геотехнических систем с целью разработки новых высокоточных алгоритмов автоматизированной оценки минерально-сырьевой ресурсной базы регионов и прогнозирования развития пространственно-временных процессов на основе анализа ретроспективных, текущих и экспертных пространственных данных [2]. Исходные данные для автоматизированного анализа при этом должны быть сформированы на основе нескольких источников: использование данных из проблемно ориентированных геоинформационных систем; импорт доступных данных ДЗЗ, их постобработка, заключающаяся в сенсорной, радиометрической и геометрической коррекции мультиспектральных данных; импорт данных из других открытых ресурсов, в частности данные о погоде и кадастрах; создание научно обоснованной системы тестовых полигонов для дешифрирования данных ДЗЗ с целью оценки потенциала минерально-сырьевой ресурсной базы региона и влияния окружающей среды на техногенные системы и генерация базы размеченных выборок для машинного обучения на их основе.

Географическая оболочка представляет собой иерархически организованную геосистему – «где отдельные компоненты природы находятся в системной связи друг с другом и как определенная целостность взаимодействуют с космической сферой и человеческим обществом» [3]. В расширенной трактовке геосистемы выступают как «тотальные системы», включающие многообразие природных, экологических, социальных, экономических процессов. Развитие геосистемного подхода привело к формированию четырех векторов научных исследований:

1) морфологическое – диагностика элементов иерархической соподчиненности геосистем и структурных отношений между ними: отделов, систем, классов, групп, типов, родов и видов ландшафтов. Систематизация геосистем призвана оптимизировать выработку мероприятий по адаптации хозяйственной деятельности к структуре географической оболочки;

2) процессное – анализ динамически взаимосвязанных между собой процессов круговоротов и метаболизма вещества и энергии, дающий основание для заключения о происхождении и развитии геосистем. Функционирование геосистем представляется в виде совокупности процессов перемещения, обмена и трансформации энергии, вещества и информации между ее элементами и окружающим географическим пространством;

3) парагенетическое – исследование взаимодействия морфологической структуры и процессов метаболизма вещества и энергии, ориентированной на выявление пространственно-временных закономерностей организации геосистем. Развитие парагенетических процессов проявляется в смене состояний геосистем и многообразном проявлении метахронности;

4) исследование тотальных геосистем, включающее анализ взаимодействия природных, социальных и производственных систем. Ключевой задачей является мониторинг эколого-социально-экономических процессов. Особую значимость в данном контексте имеет прогнозирование природных и природно-техногенных чрезвычайных ситуаций.

Прогнозирование геоэкологических процессов в географической оболочке сопряжено с решением задач диагностики связи отдельных элементов с природными факторами, установления закономерностей хозяйственного освоения природно-ресурсного потенциала, оценки антропогенных воздействий и их последствий [4]. Точность автоматизированных методов анализа пространственных данных, в том числе развивающегося в настоящее время машинного обучения, в значительной мере зависит от информации, которая заключена в исходных данных [5]. С целью повышения эффективности геоинформационных методов и алгоритмов комплексной интерпретации геопространственных данных используются не только традиционные источники данных о территории, но и материалы, которые традиционно выступают конечным артефактом процесса изучения территории (в частности, цифровых карт геосистем) [6].

Новизна предлагаемого подхода заключается в применении электронных ландшафтных карт и результатов структурно-генетических ландшафтных исследований наравне с машинным анализом мультиспектральных данных ДЗЗ, традиционно применяемых в России и зарубежных странах. Приведем перечень опорных пунктов для получения предлагаемых результатов.

1. Анализ теории и практики электронного синтетического ландшафтного картографирования, интегрирующего узловые базы данных ГИС о геосистемной организации территории.

2. Обзор и систематизация методов комплексной интерпретации данных ДЗЗ с расчетом параметров иерархической системы таксонов: систем, классов, групп, типов, родов и видов геосистем для прогнозирования природных и природно-техногенных чрезвычайных ситуаций.

3. Обобщение опыта геоэкологического анализа ПСПС для целей оптимизации функционального зонирования геосистем, основанного на использовании электронной синтетической ландшафтной карты как центрального звена региональной ГИС, обеспечивающего синтез геоэкологической информации о регионе для принятия управленческих решений. Разработка и применение электронных синтетических ландшафтных карт и карт Land Cover в качестве исходных данных для обучения сверточных и рекуррентных глубоких нейронных сетей, исследование системных связей и закономерностей функционирования и развития геотехнических систем с целью разработки новых высокоточных алгоритмов прогнозирования развития пространственно-временных процессов на основе анализа ретроспективных, текущих и экспертных данных цифровых инфраструктур пространственных данных [7].

Для решения задачи оценки минерально-сырьевого потенциала региона целесообразно проведение экспериментального исследования системных связей и закономерностей функционирования и развития природно-социально-производственных систем на основе комплексного применения глубоких сверточных и рекуррентных нейронных сетей к анализу данных ДЗЗ и электронных ландшафтных карт [8]. Ключом к формированию процесса обучения прогностических нейронных сетей выступит гипотеза о том, что на любой стадии освоения территории вследствие взаимодействия природных и технологических процессов создается определенная структура природопользования, сопровождающаяся активизацией спектра деструктивных геоэкологических процессов, особенности которых почти всегда проистекают от свойств вмещающего природного ландшафта; одновременно с этим черты развития процессов хозяйственного освоения в настоящее время характеризуются развертыванием новых этапов освоения на техногенных модификациях геосистем прошлых периодов [9; 10].

Результаты исследования и их обсуждение

Пространство поиска моделей определяет, какие архитектуры могут быть представлены в принципе для решения задачи анализа больших пространственных данных. Использование априорных систематизированных знаний позволит уменьшить размер пространства поиска и упростить его. В ходе работ над проектными задачами анализу необходимо подвергать следующие пространства поиска:

1) пространство нейронных сетей с цепочечной структурой, описываемое как последовательность уровней, должно быть параметризовано максимальным числом слоев, типами операций, выполняемых каждым слоем (объединением, сверткой и т. д.), гиперпараметрами, связанными с операцией, например количеством фильтров, размером ядра и шагом для сверточного слоя;

2) пространство моделей с ветвящейся структурой, в которых имеются слои, объединяющие выходные данные предыдущего уровня, а также служащие источником данных для нескольких последующих слоев. Использование таких архитектур приводит к значительному увеличению степени свободы и должно быть основано на экспертном комбинировании блоков, состоящих из нескольких нейросетевых слоев, в единую глубокую модель для усиления положительных эффектов результирующего классификатора. Такой подход позволит достичь резкого сокращения пространства поиска, поскольку блоки содержат значительно меньшее количество слоев, чем единая глубокая макроархитектура. Архитектуры, построенные из блоков, легче переносить или адаптировать к другим наборам пространственно-временных данных посредством изменения количества ячеек и фильтров, используемых в модели. Кроме этого, повторение блоков с определенной вероятностью позволит повысить эффективность модели. Наконец, описанный подход позволит осуществлять иерархический поиск: постепенно углублять нейросетевую модель до определенного предела для повышения точности при умеренном снижении производительности.

Для исследования пространства нейронных архитектур должны быть последовательно исследованы различные стратегии поиска: случайный поиск и поиск по сетке (для небольших моделей, требующих дальнейшего иерархического), байесовская оптимизация, эволюционные методы, обучение с подкреплением и методы на основе градиента. Представленные стратегии поиска направлены на поиск нейронной архитектуры, которая максимизирует некоторые показатели производительности, такие как точность классификации пространственных данных или прогнозирование развития природных или природно-техногенных процессов. Чтобы руководить процессом поиска, эти стратегии должны оценить производительность данной архитектуры.

Собранные разнородные данные целесообразно использовать для формирования экспериментально синтезированных генеративными глубокими нейронными сетями пространственно-временных признаков в качестве исходных данных для нового цикла обучения нейронных сетей. Использование системы тестовых полигонов позволит обосновать оптимальное решение в области обучения представлениям пространственных данных, направленного на изучение абстрактных и полезных представлений, позволяющих автоматически обнаружить представления, необходимые для выявления иерархических признаков, заменяющих ручное конструирование.

Исходные данные для автоматизированного анализа при этом должны быть сформированы на основе нескольких источников:

1) ревизия и импорт данных из проблемно ориентированных геоинформационных систем (к примеру, ГИС «Мордовия», включающая 150 тематических слоев электронных карт, содержащих эколого-геохимическую, геологическую, гидрогеологическую, почвенную, геоботаническую, ландшафтную, социально-экономическую и геоэкологическую информацию);

2) импорт открытых данных ДЗЗ (в том числе Ресурс-П, Landsat-7, Landsat-8 и Sentinel-2), их постобработка; импорт данных из открытых ресурсов (в том числе кадастровой информации);

3) создание научно обоснованной системы тестовых полигонов для дешифрирования данных ДЗЗ, мониторинга развития природно-техногенных процессов, влияния окружающей среды на застройку и генерация базы размеченных выборок для машинного обучения на их основе.

Если первые два источника представляют собой доступный информативный ресурс данных, то вопросу развертывания системы тестовых полигонов должно быть уделено отдельное внимание. Применение новых вариантов интеграции обучающих данных перспективно на основе геосистемного подхода, посредством которого станет возможным выделение характерных пространственно-временных признаков и, как следствие, более точных результатов анализа пространственно-временных систем средствами глубокого обучения.

Создание новой методологии построения сверточных нейронных сетей, эффективных при анализе больших пространственно-временных данных, должно осуществляться в ходе экспериментальных исследований, в ходе которых оптимизируются стратегии конфигурирования наборов и размерностей слоев свертки и субдескритизации, а также алгоритмы уменьшения размерности. Это делает возможным системно обоснованный выбор архитектуры и параметров глубоких нейронных сетей для решения новых задач анализа больших данных в геопортальных хранилищах.

Поиск нейроcетевых архитектур основывается на выборе пространства поиска, определяющего типы используемых моделей; стратегии поиска, определяющей подходы к исследованию пространства поиска; стратегии оценки производительности формируемой нейросетевой модели. Глубокая нейронная сеть должна строиться исходя из решаемых ею задач, в связи с чем актуально формирование системы методов построения нейросетевых архитектур и их параметризации для решения конкретных задач в области землепользования и прогнозирования развития природно-техногенных процессов с использованием разнородных пространственно-временных данных. Практическое руководство по построению моделей необходимо сопровождать рекомендациями и экспериментально полученными выводами.

Прямое применение к мультиспектральным пространственным изображениям контролируемых сверточных сетей является очень сложной задачей из-за высокой размерности входных данных и относительно небольшого количества доступных помеченных данных. Учитывая потенциальную нехватку помеченных данных, применение неконтролируемых алгоритмов обучения для глубоких архитектур является одной из первостепенных научных проблем. Глубокие архитектуры имеют сильно нелинейную природу, которая хорошо подходит для преодоления трудностей нелинейного пространственно-спектрального анализа изображений; сверточные архитектуры, в частности, захватывают локальные взаимодействия, что делает их хорошо подходящими, когда существует высокая избыточность; наконец, разреженные признаки должны быть удобными для описания изображений дистанционного зондирования и других пространственных данных.

Авторы статьи предлагают использовать геосистемный подход [8] для автоматизированного расширения набора исходных данных в условиях дефицита исходной информации и его анализа посредством модели GeoSystemNet, ключевое преимущество которой заключается в достаточном числе степеней свободы, позволяющем гибко конфигурировать модель, исходя из решаемой задачи. К варьируемым параметрам следует отнести: число входов модели; число уровней выделения признаков модулем Unit Lx; емкость и число модулей слияния признаков Merge HN; гиперпараметры многослойного персептрона, принимающего результирующее решение. Использование модели при классификации изображений набора EuroSAT, алгоритмически расширенного с позиции геосистемного подхода, позволило повысить точность классификации в условиях дефицита обучающих данных (разделение набора на обучающую и проверочную выборку в соотношении от 10/90 до 40/60) в пределах 9%.

Хотя подавляющее большинство моделей на основе сверточных нейронных сетей применяются к контролируемым проблемам, в их архитектуре нет прямых ограничений на выполнение неконтролируемых задач, и они могут быть использованы для извлечения признаков неконтролируемым образом. При неконтролируемом извлечении признаков вектор анализируемых признаков и, следовательно, также его качество по отношению к решаемой задаче анализа пространственных данных будет зависеть от качества и количества параметров сети.

Создание системы тестовых полигонов для формирования массивов обучающих данных и отработки методов и алгоритмов дешифрирования многозональных космических снимков. Тестовые полигоны должны удовлетворять следующим требованиям: структурного разнообразия, оптимального расположения и размера, грамотного методического и технологическое обеспечения процесса сбора данных; наличия информативного метаописания. Собранные данные должны быть использованы для составления банков размеченных обучающих данных и формирования экспериментально синтезированных генеративными глубокими нейронными сетями пространственно-временных признаков в качестве исходных данных для нового цикла обучения нейронных сетей. Ключом к формированию оптимальной системы тестовых полигонов для картографирования территории выступает гипотеза о том, что на любой стадии освоения создается определенная структура природопользования, сопровождающаяся активизацией спектра деструктивных геоэкологических процессов, особенности которых почти всегда проистекают от свойств природных геосистем; одновременно с этим черты развития процессов хозяйственного освоения в настоящее время характеризуются развертыванием новых этапов освоения на техногенных модификациях геосистем прошлых периодов.

Разрабатываемое методическое и алгоритмическое обеспечение должно быть апробировано при решении конкретных научных и практических задач в области оценки потенциала минерально-сырьевой ресурсной базы региона: моделирование естественных геосистем при помощи цифровой реконструкция природных территориальных комплексов на основе материалов ДЗЗ в комбинации с ландшафтными картографическими и иными пространственно-временными данными и их верификацией по результатам полевых исследований; статическое и динамическое прогнозирование развития чрезвычайных ситуаций экзогеодинамического характера и оценка их последствий. В ходе выполнения проектных задач авторами статьи была проведена работа по созданию базы обучающих данных на основе системы тестовых полигонов «Чеберчинка», «Инерка», «Смольный», «Мамангино» (рисунок).

Данные тестовые участки расположены на территории Приволжской возвышенности. В качестве исходных данных для систематизации выбраны данные ДЗЗ спутников Landsat и Sentinel, позволяющих исследовать территории отдельных классов и категорий земель.

Yamashkin1.tif

Система тестовых полигонов на карте месторождений полезных ископаемых

1. Полигон «Инерка» (координаты центра: 54°03′ с. ш., 45°53′ в. д.) расположен в долине реки Суры, которая имеет правостороннюю асимметрию бортов. Правый коренной склон крутой, местами обрывистый, левый – пологий, со слабовыраженными надпойменными террасами, с абсолютными высотами от 100 до 180 м. На территории полигона расположены Большеберезниковское и Теньгушевское месторождения кирпично-черепичного сырья (глины и суглинки).

2. Полигон «Чеберчинка» (координаты центра: 54°26′ с. ш., 46°17′ в. д.) локализован на эрозионно-денудационной равнине. Максимальные абсолютные отметки 280–320 м. Характерной чертой ландшафта является хорошо выраженная склоновая смена лесных и лугово-степных геосистем, значительно измененных хозяйственной деятельностью и включающих Дубенское и Паракинское месторождения глин и суглинков.

3. Полигон «Смольный» (координаты центра: 54°44′ с. ш., 45°17′ в. д.) организован в древней ложбине стока ледниковых вод в зоне долины Алатыря, для которой характерна слабоволнистая поверхность с абсолютными отметками 130–190 м. Интерес в рамках обозначенного полигона представляют Кергудское месторождение глин и суглинков, а также месторождение кирпично-черепичного сырья Просянка.

4. Полигон «Мамангино» (координаты центра: 54°13’ с. ш., 43°53’ в. д.) организован в парагенетических системах лесных ландшафтов водно-ледниковых и древнеаллювиальных равнин, включающих в свои территориальные границы Кичатовское, Шингаринское, Кочелаевское, Парапинское месторождения песков для строительных работ и производства силикатных изделий, Троицкое месторождение керамзитного сырья, а также Ковылкинское, Юнатовское, Троицкое месторождения глин и суглинков.

Использование тестовых полигонов для обучения нейросетевых моделей позволит дать объективный ответ на следующие вопросы: каковы пути оптимизации глубоких нейронных сетей с целью повышения точности классификации пространственных данных с целью анализа ресурсного потенциала региона; насколько хорошо разрабатываемые модели работают с ограниченными наборами пространственно-временных данных; с какими проблемами сталкивается обучение глубоких нейронных сетей при работе с большими пространственно-временными данными и как решить проблему переобучения.

Выводы

Синтез знаний о состоянии региональных ПСПС позволяет осуществить оценку потенциала минерально-сырьевой ресурсной базы регионов России. Для повышения эффективности методов интерпретации пространственных данных посредством использования цифровых ландшафтных карт. В качестве информативного пространственно-временного объекта должны анализироваться ландшафтная оболочка – зона контакта и активного энергомассообмена литосферы, атмосферы, гидросферы и биосферы, характеризующаяся активным развитием географических процессов: выветривания, экзогеодинамических, гидрологических, почвообразовательных, биологических процессов. Геосистемы, входящие в структуру ландшафтной оболочки, имеют иерархическую пространственно-временную организацию: от самых крупных и долговечных образований, каковыми являются отделы, системы, классы, группы, типы, роды и виды.

Создаваемое методическое и алгоритмическое обеспечение должно быть апробировано при решении следующих конкретных научных и практических задач: 1) моделирование геосистем при помощи автоматизированной цифровой реконструкции на основе материалов ДДЗ и иными пространственно-временными данными; 2) решение спектра геологических задач, связанных с проблемами хозяйственного освоения.

Создаваемые новые методы и алгоритмы глубокого машинного обучения будут применимы для анализа пространственных моделей различного ранга. Результаты экспериментов по обучению глубоких прогностических моделей целесообразно свести в систему принципов построения эффективных сверточно-рекуррентных нейронных сетей, практическое использование которой сделает возможным повышение эффективности прогнозирования пространственно-временных процессов в сравнении с эмпирическим подходом.

Создаваемое методическое и алгоритмическое обеспечение анализа региональных геосистем должно быть апробировано при решении научных и практических задач статического и динамического прогнозирования развития природно-техногенных чрезвычайных ситуаций и при оценке их последствий. Использование глубоких сверточных нейросетевых моделей в процессе реагирования в кризисных ситуациях позволит сократить время на принятие решений. Тестовые полигоны необходимо использовать для калибровки процесса обучения нейросетевых моделей. Создаваемые методы и алгоритмы глубокого машинного обучения, апробированные на системе тестовых полигонов при решении проектных задач, могут быть применимы для анализа пространственных моделей различного ранга.

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 20-37-70055.