Ураганным содержанием принято называть аномально высокое содержание, выделяющееся из основной массы наблюдений. В геологическом словаре ураганное содержание определяется следующим образом: «Проба с весьма высоким содержанием полезного компонента, резко искажающая его среднее содержание и, как следствие, приводящая к искаженной оценке запасов полезного ископаемого».
Проблема ураганных содержаний – не сугубо специфическая для горнодобывающей промышленности. Наличие значений, резко выделяющихся из некоторого набора данных, присутствует практически во всех областях человеческой деятельности. В статистике такие значения принято называть «выбросами».
Ураганы или выбросы характеризуются следующими особенностями:
− Не отражают (и искажают) свойства руды и процесса рудообразования в данном месте.
− Величина выбросов значительно превышает истинную изменчивость содержаний.
− Причины возникновения ураганных содержаний могут быть различны:
• «Человеческий фактор»: от ошибки при пробоотборе/пробоподготовке до ошибки при обработке данных.
• Технические причины: сбой оборудования, брак химических реактивов, программные сбои и т.д.
• Природные факторы. Этот тип факторов отличается крайне высокой степенью разнообразия. Перечислить все возможные природные причины возникновения аномально высоких содержаний не представляется возможным.
К сожалению, природа возникновения аномального содержания практически никогда не известна. Обычно для возможных мест возникновения ошибки, обусловленной «человеческим фактором» или технической причиной, разработаны правила, протоколы действий и проверки, позволяющие свести к минимуму эти причины, поэтому в данной статье считается, что природа возникновения аномально высокого содержания – чисто природная.
Целью исследования в данной статье является рассмотрение различных подходов к решению проблемы ураганных содержаний.
Материалы и методы исследования
Прежде чем заняться поиском ураганных содержаний, имеет смысл решить, стоит ли вообще это делать. В некоторых источниках [1] предлагается следующее эмпирическое правило:
− Набор данных с коэффициентом вариации менее 1, скорее всего, не нуждается в урезке ураганных содержаний.
− Набор данных с коэффициентом вариации более 1,2, скорее всего, нуждается в урезке ураганных содержаний.
− Набор данных с коэффициентом вариации более 3, скорее всего, нуждается в разделении на домены.
На наш взгляд, для условий месторождений благородных металлов эти уровни, вероятно, могут быть выше.
Проблема ураганных содержаний может быть «разложена» на два вопроса: как их найти и что с ними потом делать. Вариантов обнаружения ураганных содержаний, существует более 40 [2]. Наибольшее распространение в советской, а затем российской практике получили два: метод Когана и метод Каллистова. В практике работы зарубежных геологов применяются свои методы, некоторые из них являются аналогами упомянутых методов.
Необходимо иметь в виду, что ни одного на 100 % верного, научно обоснованного и безошибочного метода обнаружения ураганных содержаний не существует. Каждый из методов, по сути, является сочетанием статистических приемов, эмпирических выводов и волевого решения. То есть определение того, что именно уже является ураганным содержанием, а что – еще нет, очень сильно зависит от знаний, опыта и главным образом здравого смысла геолога, поэтому к вопросу урезки необходимо подходить максимально вдумчиво, учитывая все данные.
В качестве метода исследования было выбрано рассмотрение и сопоставление действующих общепринятых вариантов определения оптимальных значений для урезки ураганных содержаний. Далее в статье описываются применяемые авторами на практике методики и рассматриваются их преимущества и недостатки.
Визуальный анализ гистограмм и вероятностных кривых
Этот метод красиво назван «методом дезинтеграции» [3]. В данном случае ураганными пробами считаются пробы с содержаниями, сильно «оторванными» от основной массы наблюдений, что приводит к появлению горизонтальной «ступеньки» на вероятностной кривой. Подобный анализ напоминает метод Каллистова. Этот метод обнаружения ураганных проб, с одной стороны, является довольно субъективным, с другой – опирается на анализ реально существующего распределения без привлечения «модельных» распределений. Необходимо помнить, что, работая с данными, содержащими вес декластеризации, этот вес нужно учесть при построении гистограмм и вероятностных кривых, иначе есть довольно большой шанс получить некорректные результаты.
После построения гистограммы с размером «бина» по умолчанию следует попытаться изменить его таким образом, чтобы возможные нарушения однородности в правом «хвосте» распределения стали более отчетливыми. При этом не следует доводить ситуацию до распада гистограммы на отдельные столбцы (рис. 1). В этом случае довольно сложно анализировать как гистограмму, так и вероятностную кривую, поскольку не всегда понятно – отражает ли рассматриваемая граница действительно нарушение однородности или является артефактом неудачного построения гистограмм.
При анализе вероятностной кривой следует обратить внимание на ее «срывы» или «ступеньки» в верхах распределения (рис. 2), что может свидетельствовать о наличии ураганных содержаний.
Очень полезной возможностью при интерактивном построении гистограммы и графика накопленной вероятности является возможность выделить диапазон проб на графиках и увидеть их расположение в пространстве (рис. 3).
Рис. 1. Последствия слишком малого размера «бина» при построении гистограммы
Рис. 2. «Срывы» вероятностной кривой, которые могут свидетельствовать о наличии ураганных содержаний
Рис. 3. Выделение диапазона проб на вероятностной кривой (слева) и их отображение в окне 3D (справа, выделены желтым в красных кругах)
О наличии ураганных проб может свидетельствовать наличие «срыва» на вероятностной кривой, который соответствует промежутку на гистограмме в сочетании с тем фактом, что отмеченные пробы не обнаруживают тенденции к пространственной группировке.
Следует различать ураганные пробы и пробы, представляющие более богатую совокупность (например, пробы, освещающие рудные столбы). Последние обычно группируются в участки, прослеживаемые по простиранию и/или падению.
Квантильный анализ
В какой-то степени является «модернизированным» аналогом метода Когана. Считается, что выборка содержит аномальные содержания, если 90 % процентиль несет более 40 % металла. Границей ураганного содержания считается граница 1 % процентиля (из верхних 10 %), несущего более 10 % металла [4]. При этом необходимо иметь в виду, что принятые критические уровни количеств металлов в процентилях обоснованы только эмпирически и к результатам определения уровней ураганных содержаний с помощью квантильного анализа следует подходить критически.
Квантильный анализ предусмотрен практически во всем горном программном обеспечении. В результате выполнения процедуры квантильного анализа рассматриваемая выборка упорядочивается по возрастанию содержаний и разбивается на классы, каждый из которых содержит 10 % наблюдений. То есть создается файл процентилей с 10 % шагом. «Верхний» класс дополнительно разбивается на 10 частей, то есть по 1 %. Границей ураганных содержаний является нижняя граница того процентиля, где было превышено критическое значение доли металла.
Анализ отношений содержаний в упорядоченном ряду
Метод обнаружения ураганных содержаний, являющийся упрощенным аналогом метода дезинтеграции. Суть метода заключается в вычислении отношений содержаний (текущего к предыдущему) в упорядоченном ряду. Содержания сортируются по возрастанию (от наименьшего к наибольшему), и каждое значение содержания делится на предыдущее значение содержания. В случае наличия аномально высоких значений будет зафиксирован резкий скачок отношений [5].
Рассматривать отношения содержаний имеет смысл в области высоких содержаний, где возможно появление ураганных проб. Нет никакого смысла рассматривать весь ряд содержаний. Начало графика необходимо выбрать в области, где ураганных содержаний, скорее всего, еще нет. В случае наличия аномально высоких значений будет зафиксирован резкий скачок отношений в «верхах» упорядоченного ряда содержаний (рис. 4). После определения уровня ураганных содержаний обязателен контроль по гистограмме и проверка пространственного расположения выделяемых проб с анализом близрасположенных проб.
Метод заключается в анализе графика зависимости величины коэффициента вариации от различных уровней урезки ураганных содержаний [6].
Рис. 4. Пример графика отношений содержаний в упорядоченном ряду с выделенным ураганным содержанием на границе 5645 г/т
Рис. 5. Излом графика зависимости коэффициента вариации от уровня урезки
Анализ характера изменения коэффициента вариации
Предполагается, что включение в выборку аномального содержания приводит к появлению «излома» или «ступеньки» на соответствующем графике (рис. 5). Данный способ может быть реализован с использованием MS Excel. Однако формулы вычисления выборочной дисперсии, заложенные в Excel, не учитывают взвешивание на вес декластеризации, поэтому не подходят для расчетов в случае кластерных данных. Для использования весов декластеризации формулу расчета дисперсии следует слегка изменить. Формула с учетом веса декластеризации:
,
где fi – вес декластеризации.
Диапазон и шаг возможных уровней урезки принимается на усмотрение геолога, исходя из распределения содержаний.
Метод межквартильного размаха
Непосредственно в геологии метод в явном виде используется редко. Он рекомендован при исследовании бизнес-процессов, анализе временных рядов и т.д. Однако этот метод фактически знаком каждому, кто пользовался диаграммой типа «ящик с усами». В этом случае «ящик» ограничен первым и третьим квартилем, а «усы» – границами квартилей плюс/минус полтора межквартильных размаха. Ураганными содержаниями считаются содержания, которые превышают содержание верхней границы третьего квартиля плюс полтора межквартильных размаха:
Q3 + k × (Q3 − Q1),
где k = 1,5 или k = 3, Q1 – верхняя граница первого квартиля, Q3 – верхняя граница третьего квартиля.
Коэффициент «k» чаще всего используется равным указанным двум значениям [7]. Данный метод довольно прост в использовании.
Метод Сихеля
Среднее Сихеля – это оценка среднего содержания, разработанная специально для логнормального распределения, свободная от ошибки, связанной в том числе с наличием ураганных содержаний. Формула для расчета:
Среднее Сихеля = ,
где – среднее логарифмированных (по основанию e) данных, σ2log(x) – дисперсия логарифмированных данных.
Метод заключается в последовательной урезке наиболее высоких содержаний таким образом, чтобы среднее содержание урезанной выборки приблизилось к исходной оценке Сихеля. Наибольшую ценность этот метод представляет по той причине, что ориентирован именно на логнормальный характер распределения.
Метод «трех сигм»
Метод основывается на следующем свойстве нормального распределения: при наличии нормально распределенной совокупности ~99,7 % наблюдений содержатся в «коридоре»: среднее содержание ± три стандартных отклонения [8].
Метод прост и выглядит вполне наукообразно, однако есть существенные ограничения: рассматриваемая выборка должна быть однородна и не должна противоречить нормальному распределению. Очевидно, что на месторождениях золота (и не только золота) эти условия не выполняются практически никогда. Во-первых, распределение содержаний благородных металлов чаще близко к логнормальному (но с точки зрения общеупотребимых критериев проверки может ему противоречить), во-вторых, в подавляющем большинстве случаев массивы данных представляют собой неоднородные выборки, содержания в которых сформированы несколькими процессами. Причем геометризовать однородные части чаще всего технически невозможно (рис. 6).
Поэтому применение данного правила часто наталкивается на трудности, преодоление которых может быть невозможным. Соответственно, использование метода «трех сигм» вряд ли может считаться оправданным. Здесь оно упоминается только для того, чтобы предостеречь от его использования.
Что делать с найденными ураганными содержаниями
Вопрос о том, что делать с найденными ураганными содержаниями, может быть решен двумя способами:
− Полное исключение аномальных содержаний из рудной выборки. Этот подход полностью оправдан в том случае, если есть четкое понимание того, что наличие аномально высокого содержания обусловлено техническими причинами или человеческим фактором. Поскольку это практически никогда неизвестно, удаление ураганного содержания из рудной выборки чаще всего выглядит не вполне обоснованным.
Рис. 6. Гистограмма содержаний серебра в рудном теле и распределение в пространстве проб, принадлежащих одной из совокупностей, формирующих общую выборку (выделено желтым)
− Замена аномально высокого содержания на что-то более низкое [9]. Этот подход является наиболее широко распространенным, есть только разночтения в вопросе того, чем заменять. В упомянутых раньше 40 методах урезки варианты предлагаются самые разные – от замены на среднее по блоку, увеличенное на некоторое количество стандартных отклонений до среднего по окружающим пробам. В практике работы авторов данной статьи всегда выполнялась замена ураганных содержаний на граничное значение.
Результаты исследования и их обсуждение
Необходимо иметь в виду, что определение уровня ураганного содержания должно выполняться индивидуально для каждого выделенного домена (то есть к моменту урезки должна быть произведена разбивка на домены). Это требование совершенно очевидно ввиду того, что выделенные домены зачастую ощутимо различаются по содержаниям. То есть содержание, вполне допустимое в одном домене, может оказаться (ложно) ураганным в другом. Также возможна обратная ситуация: наличие ураганного содержания в домене может маскироваться рядовыми содержаниями в более богатом домене при их совместном рассмотрении. Тем не менее, как это ни странно, это очевидное обстоятельство часто не учитывается.
В случае если объем рудной выборки по каждому рудному телу позволяет рассматривать их (тела) индивидуально, это следует сделать. Поиск ураганных проб одновременно для большого количества рудных тел допустим только в случае, если степень разведанности (и, как следствие, объем выборки по отдельным телам) не позволяет рассмотреть каждое тело обособленно. Но даже в этом случае группировка тел должна быть выполнена с учетом наличия доменов и, возможно, с выделением классов рудных тел по содержаниям.
Вопрос о том, выборка какого объема может считаться достаточной для индивидуального рассмотрения, не имеет однозначного ответа. Традиционно в учебниках по математической статистике указывается, что статистические критерии начинают «работать» с объемом выборки ~50–70 наблюдений (в ряде случаев указывается, что и с уровня 40 наблюдений уже можно ими пользоваться). Вероятно, величину в несколько десятков проб со значимыми содержаниями можно считать «достаточной» для индивидуального рассмотрения урезки. При этом необходимо помнить, что объем выборки самым непосредственным образом влияет на достоверность получаемых результатов.
Следует иметь в виду и то, что для урезки содержаний рудная выборка должна отражать свойства рудного тела в целом, то есть быть представительной: пробы должны быть отобраны по всему объему рудного тела по регулярной, равномерной и достаточно плотной разведочной сети [10]. Также необходимо, чтобы пробы имели одинаковое основание – то есть имели одинаковую природу – например, все рассматриваемые пробы являлись бы керновыми пробами и были приблизительно одинаковой длины. Рассмотрение в пределах одной выборки керновых и, например, валовых проб недопустимо. Также крайне желательно, чтобы пробы, участвующие в рассмотрении, были проанализированы либо одним и тем же методом, либо методами, которые могут считаться «равноправными» с точки зрения точности результатов.
В случае нерегулярной сети наблюдений необходимо выполнить процедуру декластеризации и ввести в расчеты вес декластеризации.
Урезку имеет смысл выполнять только для «натуральных» содержаний компонентов – то есть для «натуральных» содержаний золота или серебра (меди/платины и т.д.). Выполнять какие-либо статистические манипуляции с «интегральными» полями «условного золота» (серебра и т.д.) технически, конечно, возможно, но смысла не имеет.
При поиске и урезке ураганных содержаний следует различать «собственно ураганные» пробы и пробы из более богатых совокупностей (рудных столбов). Для этого при поиске ураганных проб следует анализировать их пространственное расположение, положение в распределении (гистограммы и вероятностные кривые) и наличие группировки проб с подозрением на ураганные содержания.
Заключение
Поиск и ограничение ураганных содержаний является важной частью оценки минеральных ресурсов, которая позволит корректно произвести интерполяцию содержаний в блочную модель и не допустить их переоценки. Поиск и ограничение ураганных содержаний должны выполняться несколькими методами с последующим сравнением результатов между собой и выработкой обобщенного решения о способе ограничения.