Одним из самых распространенных методов для проведения классификаций является сравнение исследуемых объектов с некоторыми другими, принимаемыми за эталонные. Принадлежность к данному классу определяется по степени близости (или удаленности) между эталонным и реальным объектом.
В работе [1] авторами предложен подход к классификации сложных объектов посредством разработанной ими рангово-экспертной функции отклонений от неких эталонных состояний этих объектов. При этом сам вопрос о построении этих эталонных объектов в этой статье не рассматривался и был выведен в самостоятельную задачу.
Причиной этого решения стала неоднозначность и отсутствие общепринятых подходов к принципам построения таких объектов. Обычно в качестве эталонов, когда это требуется, выбирают объекты в некотором характерном состоянии, с которыми затем производят сравнение реальных объектов. Например: эталоны в буквальном смысле этого слова – метры, килограммы и другие единицы измерений. Более сложный пример: молодой человек – это возраст x, рост y, вес z и т.д. Характеристики x, y, z… могут задаваться как числами, так и интервалами с переменными границами, то есть нечеткими числами. Другим примером могут служить методы многокритериального принятия решений [2, 3], которые применимы в случаях, если объект можно формализовать при помощи критериев «больше – лучше» или «меньше – лучше». Одним из таких методов является TOPSIS (Technique for Order of Preference by Similarity to Ideal Solution) – метод выбора альтернатив путем сравнения с идеальным решением. В нем используется два эталона: позитивный и негативный, с которыми в дальнейшем сравнивается каждый объект для его классификации. Так как критерии формализованы в метрическом пространстве, выбор эталонов здесь является очевидным – это объект с максимальными значениями критериев «больше – лучше» и минимальными для «меньше – лучше» в случае позитивного эталона, и наоборот – в случае негативного. Однако на практике применять такие методологии часто бывает затруднительно, особенно когда речь идет о сложных объектах, составные части которых несоизмеримы. К таким объектам в большинстве своем относятся географо-экологические, социально-экономические и подобные им, для классификации которых необходимо применять ряд последовательных процедур [4].
Под эталонным нами понимается объект, структура и состояние которого в наибольшей степени соответствует целям решаемой задачи. Совпадение с эталоном, как и установленные малые отклонения от него, позволяют отнести исследуемый объект к определенному классу.
Целью настоящей работы является разработка методологических подходов к построению эталонных объектов для целей классификации сложных объектов.
Объектом исследования являются методы классификации сложных объектов, такие как разработанная авторами рангово-экспертная функция отклонений. Предметом исследования являются объекты, в наибольшей степени отвечающие идеальным требованиям применительно к целям проводимой классификации. Материалами для настоящих исследований послужили результаты проводимых авторами классификаций в задачах выбора принятия стратегических решений и районирования территорий и акваторий, а методами исследования – теория нечетких множеств и формальная логика. Задачами исследования являются обобщение материалов ранее проведенных авторами исследований с применением различных методов классификаций, анализ применения методов классификации и эталонов в различных областях и формирование на этой основе методологии их построения.
Методы построения эталонных объектов
Одним из главных вопросов при создании правил классификации является обоснование и выбор критериев и соответствующих им показателей. Как отметил нобелевский лауреат Конрад Лоренц по поводу одного понятия, напрямую связанного с классификацией объектов, «понятие “нормального” – одно из самых трудноопределимых во всей биологии; но в то же время оно, к сожалению, столь же необходимо, как и противоположное ему понятие “патологического”» [5, с. 293]. И это характерно не только для биологии, но также для многих отраслей науки, техники, экономики и социума.
Еще одной трудноразрешимой проблемой является дискретизация характеристик объекта. Поясним эту проблему на примере. Пусть имеется показатель плотности озерной сети – отношение площади данных водных объектов к общей площади территорий, на которых они находятся. Этот показатель сильно чувствителен к размерам ячейки сетки. Так, если ячея слишком велика, влияние даже небольшого озера будет распространяться на нее целиком, и наоборот, озеро может не оказать влияния на прилегающую ячейку даже вблизи него самого, если находится в соседней достаточно малой ячейке. Аналогичная ситуация наблюдается и для одномерных (линейных) объектов. Поэтому дискретизация объектов должна производиться уже на конечном этапе решения задачи, с учетом его масштабов. Аналогией здесь могут служить сеточные методы в гидродинамике, где, например, принято учащать сетку вблизи границ тел для более точного их расчета. В различных науках существует правило, что на объект должно приходиться минимум три точки, так как они позволяют минимально характеризовать любую кривую, что можно распространить и на двумерное пространство.
Другим аспектом дискретизации является разбиение непрерывного или квазинепрерывного показателя на участки. Обычно принимают требование, чтобы разбиваемые участки значений были примерно однородные. Но здесь возникает две проблемы: участков может оказаться слишком много или, наоборот, мало, и каким должен быть критерий для их разграничения. В первом случае участки можно объединять или дробить, чтобы их число было разумным – не более 10, как это принято в предложенной нами рангово-экспертной функции отклонений; вторая задача не имеет строгого решения, и интервалы устанавливаются либо на основании представлений о природе процесса [6], либо формально по нормативным документам или при помощи теории нечетких множеств [7]. От ответа на эти вопросы зависит «точность» составления эталона.
Рассмотрим способы составления эталона (табл. 1), первый из них эмпирический – из наиболее благоприятных значений показателей. При достаточном количестве информации этот метод наиболее простой.
Таблица 1
Методы построения эталонных объектов
№ |
Способ (методы) |
Суть |
Области применения (примеры) |
1 |
Эмпирический |
Из практики работы с объектом выбираются значения показателей (стоимость, расположение, цвет и др.), которые наиболее часто востребованы |
− Параметры гидродинамических моделей, позволяющие рассчитывать динамические характеристики потоков, наиболее близкие к измеряемым |
2 |
Статистический |
При наличии статистически однородных данных для всех показателей рассчитываются устойчивые характеристики выборок, такие как медианы, интерквартильные расстояния и др. |
− Средние концентрации тяжелых металлов в верхней части земной коры |
3 |
Экспертный |
При отсутствии требуемых для расчета данных значения показателей устанавливаются экспертами, исходя из их представлений об оптимальности объекта. Находятся путем экспертных опросов с последующим усреднением их результатов. |
− Выбор альтернатив при построении опасных объектов на неосвоенных территориях, например нефтепроводов |
4 |
Сценарный |
Сценарии разрабатываются для изучения функционирования объекта при неких типовых ситуациях. Расчеты последствий производятся при помощи имитационных моделей, адаптированных применительно к данным случаям |
− Аварийные разливы нефти и нефтепродуктов на объектах транспортной инфраструктуры. − Декларация безопасности промышленных объектов |
5 |
Нормативный |
Значения показателей устанавливаются на основании нормативных требований |
− Категории чрезвычайных ситуаций. − Примитивная оценка экологической ситуации и расчет ущерба экосистемам с использованием только предельно допустимых концентраций загрязняющих веществ |
6 |
Комплексный |
Для различных характеристик объекта устанавливаются наиболее подходящие из перечисленных выше способами эталоны |
− Геоэкологическое районирование территорий и акваторий |
Статистический – из статистических характеристик показателей (включая усреднение по ансамблю моделей). Считается, что при достаточном размере выборки можно найти устойчивые статистические характеристики показателя и выбрать одну из них в качестве эталона, например среднее арифметическое или медиану. Такая гипотеза, что устойчивые характеристики будут оптимальными, часто используется в качестве базовой. Для получения исходных данных могут использоваться математические модели, с их помощью можно получить информацию об объекте и его частях в различных состояниях, вводя в модель соответствующую информацию. Выборки, полученные таким способом, затем подвергаются статистической обработке. Статистические характеристики во многих случаях существенно изменяются со временем: так, аварийность на магистральных трубопроводах в России с 2000 по 2017 г. снизилась в несколько раз [8]. При этом необходимо выбирать временной промежуток для расчета статистических характеристик, это может вызвать затруднения, так как необходимо оценивать поведение тренда в будущем.
Экспертный – устанавливаются экспертами. Необходимая информация в полном объеме имеется не всегда, или же она недоступна, тогда привлекаются эксперты – узкие специалисты в своих областях. Это особенно актуально для новых объектов, для которых не существует аналогов, например при создании абсолютно нового пищевого продукта или образца новейшей техники. Экспертам можно поставить задачу определить как границы классов, так и параметры их оптимального состояния.
Сценарный – составление сценариев функционирования объекта. Для анализа функционирования объекта и определения количества градаций можно использовать метод сценариев. При этом часто используются имитационные модели, особенно прогностические, то есть одним из параметров которых является время (но не обязательно). Сценарный метод часто применяется в экономике, политике, технике. Он тесно связан с экспертным, поскольку для разработки сценариев обычно привлекаются эксперты.
Нормативный – определяется нормативными требованиями. В качестве примера приведем классификацию чрезвычайных ситуаций (ЧС). Критерии ЧС были установлены положением «О классификации чрезвычайных ситуаций природного и техногенного характера» и утверждены Постановлением Правительства РФ № 1094 от 13 сентября 1996 г., которое до настоящего времени неоднократно изменялось и дополнялось, но суть его не менялась, что дает нам возможность использовать его как весьма наглядную иллюстрацию. Согласно этому положению ЧС делятся на локальные, местные, территориальные, региональные, федеральные и трансграничные. Для первых пяти установлены критерии и числовые показатели по ним: количество пострадавших (чел.), либо нарушение условий жизнедеятельности (чел.), либо материальный ущерб (минимальных размеров оплаты труда) и пределы охватываемой территории. Так, для региональной ЧС эти показатели соответственно равны 50–500, 500–1000, 500000–5000000 и затрагивают не менее двух субъектов федерации. Только для последней ЧС – трансграничной показатели не установлены: таковой считается ЧС, выходящая за границы РФ либо произошедшая за рубежом и затрагивающая территорию РФ. Здесь нет разрывов между градациями показателей ЧС, но так бывает далеко не всегда. Например, в методике «Критерии оценки экологической обстановки территорий для выявления зон чрезвычайной экологической ситуации и зон экологического бедствия», утвержденной Министерством природных ресурсов РФ 30 ноября 1992 г., разработанной для оценки экологической обстановки территорий, для некоторых критериев этот принцип не соблюдается, что весьма затрудняет ее непосредственное применение для классификации объектов в случае промежуточных между двумя классами значений показателей. Нормативные требования становятся обязательными, когда классификации подлежат объекты, сформированные под установившиеся понятия, такие как «здоровье», «качество продуктов» и др. Это не исключает использование других подходов, но тогда произведенная с их применением классификация будет несопоставима с общепринятой. А в некоторых случаях использование нормативных критериев и показателей, таких как предельно допустимые концентрации загрязняющих веществ или категории особо охраняемых природных территорий, просто обязательно.
Комплексный – для различных характеристик устанавливаются наиболее подходящие из перечисленных выше способов эталоны. Для сложных объектов трудно обойтись каким-нибудь одним методом. Тогда приходится в той или иной степени использовать все рассмотренные выше подходы и их комбинации, что и имеет место на практике. Комплексными могут быть и сами показатели, когда их выражения содержат в себе измеряемые, моделируемые и качественные величины (в виде рангов).
Из изложенного естественным образом вытекает, что эталон не может быть постоянным: базы данных, характеризующие объект, постоянно пополняются, что влияет на эмпирические характеристики показателей объекта, модели совершенствуются, нормативы изменяются, а цели корректируются, поэтому эталоны должны постоянно уточняться.
Следует также отметить, что критерии могут быть как качественными, так и количественными, последние, в свою очередь, подразделяются на точечные и интервальные.
Области применения
При использовании эталонных состояний объектов для их классификации следует различать следующие основные случаи: объект имеет одно оптимальное в контексте рассматриваемой задачи состояние и некие оптимумы для каждого класса состояний.
Рассмотрим конкретный пример: построение оценочных ранговых шкал для задачи сравнительной оценки инфраструктурного потенциала объектов агропромышленного комплекса северного региона [9] – табл. 2. Обоснование выбора самих факторов изложено в цитируемой статье. Поэтому остановимся только на идентификации самих методов.
В результате получился комбинированный подход к формализации объекта, что обычно и бывает в таких случаях. Всего же авторы использовали четыре метода.
Приведем еще один, более сложный пример. Пусть требуется провести геоэкологическую оценку уязвимости территорий Арктической зоны Российской Федерации (АЗРФ) к нефтяному загрязнению [10]. В данном случае объектом является участок территории со всеми его физико-географическими и геологическими особенностями, имеющими значение при аварийных разливах нефти и нефтепродуктов и вероятности из возникновения. Формализовать объект такой сложности – весьма трудоемкая задача, так как необходимо учесть взаимодействие литосферы, гидросферы, атмосферы и биосферы. Поэтому здесь имеет место только комбинированный подход к выбору эталона. Для данного примера, относительно поставленной задачи, актуален как вариант выбора одного оптимального эталона – абстрактной территории, наименее уязвимой к разливу нефти, так и деление на классы уязвимости. Рассмотрим первый из них. В табл. 2 приведен список факторов и их показателей, использованных для решения этой задачи, а также метод выбора эталона для каждого из них.
Рассмотрим некоторые из них: эталон для свойств почв, выражаемых факторами 3.1, 3.3, и свойств нефти – фактор 6.1 предполагается определить статистическим методом путем осреднения ансамбля математических моделей. Они объединены по причине связи по балансу масс при процессах растекания, фильтрации в грунт и испарения. Так, при более интенсивном испарении увеличивается вязкость нефти, уменьшается площадь растекания и объем впитываемой грунтом нефти. В то время как при высоких фильтрационных свойствах процесс испарения не успевает значительно повлиять на объем и вязкость нефти, но также уменьшает площадь ее растекания.
Таблица 2
Методы построения сравнительной оценки инфраструктурного потенциала объектов агропромышленного комплекса северного региона
№ |
Фактор |
Метод |
1 |
Физический износ объекта |
нормативный |
2 |
Готовность объекта с учетом имеющегося незавершенного строительства |
нормативный |
3 |
Востребованность объекта как элемента хозяйственного комплекса |
экспертный |
4 |
Обеспеченность объекта транспортной инфраструктурой |
эмпирический и нормативный |
5 |
Обеспеченность объекта энергетической инфраструктурой |
статистический |
6 |
Обеспеченность объекта коммунальной инфраструктурой |
эмпирический |
7 |
Обеспеченность объекта трудовыми ресурсами |
эмпирический и нормативный |
Таблица 3
Факторы, их показатели и методы выбора эталона в задаче геоэкологической оценки уязвимости территорий АЗРФ к разливам нефти и нефтепродуктов
№ |
Факторы |
Показатель |
Метод выбора эталона |
1 |
Климатические |
||
1.1 |
Увлажненность |
Коэффициент увлажнения (отношение между количеством осадков и испарением за год) |
Эмпирический («меньше – лучше») |
1.2 |
Циркуляция атмосферы |
Интенсивность барических образований (циклонов и антициклонов за год) |
Эмпирический («меньше – лучше») |
1.3 |
Температурный режим |
Среднемесячная температура января и июля |
Эмпирический («меньше – лучше») |
1.4 |
Снежный покров |
Доля дней в году с наличием снежного покрова |
Эмпирический («меньше – лучше») |
2 |
Гидрологические |
||
2.1 |
Плотность речной сети |
Количество водотоков на единицу площади с учетом градации средние/крупные реки и малые реки/ручьи |
Эмпирический («меньше – лучше») |
2.2 |
Плотность озерной сети |
Отношение площади озер к площади территории |
Эмпирический («меньше – лучше») |
2.3 |
Заболоченность |
Процент заболоченности |
Эмпирический («меньше – лучше») |
3 |
Географо-геологические |
||
3.1 |
Почвы |
Типы почв с учетом их свойств и ранга |
Статистический (усреднение по ансамблю моделей фильтрации нефти и нефтепродуктов в грунт) |
3.2 |
Рельеф |
Средний уклон |
Эмпирический («меньше – лучше») |
3.3 |
Многолетнемерзлые породы |
Средняя глубина сезонного протаивания |
Статистический (усреднение по ансамблю моделей фильтрации нефти и нефтепродуктов в грунт) |
3.4 |
Морские берега |
Расстояние до берега моря с учетом масштабов пляжей/приливных осушек |
Эмпирический («больше – лучше») |
4 |
Экологические |
||
4.1 |
Наличие ООПТ |
Площадь ООПТ с учетом их ранга |
Эмпирический («меньше – лучше») |
4.2 |
Загрязненность воздуха |
ПЗА (потенциал загрязнения атмосферы) |
Нормативный (значение индекса при отсутствии загрязнений) |
4.3 |
Загрязненность водных объектов |
Индекс загрязненности вод |
Нормативный (значение индекса при отсутствии загрязнений) |
4.4 |
Загрязненность почв и грунтов |
Индекс загрязненности почв |
Нормативный (значение индекса при отсутствии загрязнений) |
4.5 |
Растительность |
Биопродуктивность, ц/га |
Статистический (среднее значение для данного климатического пояса) |
4.6 |
Животный мир |
Число видов наземных позвоночных |
Статистический (среднее значение для данного климатического пояса) |
5 |
Социально-экономические |
||
5.1 |
Население |
Плотность населения |
Эмпирический («меньше – лучше») |
5.2 |
Дорожная сеть |
Плотность автомобильных и железных дорог |
Эмпирический («больше – лучше») |
5.3 |
Месторождения нефти |
Плотность месторождений |
Эмпирический («меньше – лучше») |
5.4 |
Трубопроводы |
Плотность нефтепроводов с учетом их типа |
Эмпирический («меньше – лучше») |
5.5 |
Нефтеперевозки наземным транспортом |
Объем нефтеперевозок автомобильным и железнодорожным транспортом |
Эмпирический («меньше – лучше») |
6 |
Технические |
||
6.1 |
Сорт нефти |
Средняя вязкость товарной нефти, добываемой/транспортируемой на данной территории |
Статистический (усреднение по ансамблю моделей фильтрации в грунт и испарения нефти и нефтепродуктов) |
6.2 |
Меры по ликвидации аварийных разливов (ЛАРН) |
Близость места базирования средств и сил ЛАРН |
Экспертный |
При таких зависимостях чрезвычайно сложно ответить на вопрос, что делает территорию менее уязвимой: наличие высокой возможности к фильтрации нефти или, наоборот, к ее растеканию. С точки зрения ликвидации аварийных разливов в первом варианте необходимо рекультивировать больший объем почвы, а во второй – делать это на большей площади. Поэтому наиболее оптимальным методом выбора эталона для данных факторов является осреднение ансамбля математических моделей баланса масс в данных процессах.
При расчете эталонных показателей возникает еще одна проблема, разрешить которую не так просто. Если рассматривать эталонные значения как некие оптимумы, то встает вопрос об их совместимости. Это означает, что, если показатели факторов х, y, z и другие по отдельности приобретают некоторое оптимальное значение, это не означает, что все они будут иметь место одновременно, то есть в общем случае fопт(x,y,z…) ≠ f(xопт, yопт, zопт). Такая возможность существует, но чем больше в задаче факторов, тем она менее вероятна.
Обратимся к табл. 3: оптимум увлажненности (фактор 1.1) может не совпадать по времени и пространству [11] с наступлением оптимального температурного режима (фактор 1.3), а растительность (фактор 4.5) – с животным миром (фактор 4.6). То же можно сказать и о сочетании биологических показателей с фактором 5.4. «Трубопроводы». Подобных сочетаний можно выявить множество практически в каждом объекте.
Это обстоятельство вносит самую большую неопределенность в нахождение значений, характеризующих состояние объекта в целом. Данный вопрос требует специального исследования. Одним из путей решения данной задачи может стать построение многомерных функций распределения значений показателей и расчет на их основе соответствующих статистических характеристик.
В первом приближении факторы можно рассматривать как статистически независимые, что часто и делается в прикладных задачах. Для многих классов задач такой подход вполне оправдан, например, когда разрабатываются прототипы нового оборудования. Также он вполне применим для оценки объектов, рассчитанных на длительное время, таких как транспортная инфраструктура. По этой причине нами и рекомендован сценарный подход, позволяющий создавать виртуальные ситуации.
Когда же классификация зависит от субъекта, например, при оценке климатической комфортности, где учитывается несколько факторов состояния атмосферы, а также сезонная их изменчивость [12], то для разных людей критерии оптимальности климатических характеристик будут сильно различаться: кому-то больше нравится жаркий климат, а кто-то предпочитает слегка теплую погоду, к ветру тоже может быть различное отношение. Здесь необходимо настраивать функцию близости индивидуально на каждого потребителя, что вполне возможно. Процедуры для получения необходимой для этого информации давно отработаны [13].
Заключение
Структура и содержание объекта-эталона целиком определяются целью классификации. Если цель классификации изменяется или же подлежит корректировке, необходимо пересмотреть систему показателей и их числовые значения.
Выбор метода построения эталона зависит от полноты и доступности информации. Для сложных объектов рекомендуется использовать несколько методов и их сочетания. При этом необходимо установить взаимозависимость числовых значений показателей, поскольку оптимальные значения для объекта-эталона не всегда могут иметь место одновременно.
Поскольку объемы информации постоянно изменяются, как и цели исследования, объекты-эталоны должны периодически подвергаться пересмотру, а их числовые значения – пересчету. Это необходимо делать и по формальным причинам, таким как изменение законодательства.