Развитие энергетики России Тепловые станции Экологический аспект Электрофильтры Регенеративные методы Математическое моделирование экологических систем Аварийные ситуации на АЭС

Введение в экологию энергетики

В зависимости от того, в каких шкалах измерены данные, репрезентативная теория измерений, основные понятия и применения которой рассматриваются в обзорах [Стивенс, 1960; Орлов, URLа,б], определяет круг возможных арифметических операций над этими числами. Например, имея отметки учащихся как один из видов экспертного оценивания, вряд ли кто-либо будет утверждать, что знания отличника равны сумме знаний двоечника и троечника (хотя 5 = 2 + 3), в то время как в экологических методиках подобные операции в интервальных шкалах – не редкость.

Традиционным для сравнительного анализа двух совокупностей является самое простое – сравнение по средним значениям. А как вычислять средние? Ф. Мостеллер и Дж. Тьюки [1982] проводят анализ различные видов средних величин: среднее арифметическое, медиана, мода, среднее геометрическое, среднее гармоническое, среднее квадратическое, бивес-оценки (см. также [Розенберг с соавт., 1994а]). Обобщением нескольких из перечисленных является среднее по А.Н. Колмогорову [1985]. Для чисел X1, X2, ..., Xn среднее по Колмогорову вычисляется по формуле:

G{(F(X1) + F(X2) + ... + F(Xn))/n},  (2.4)

где F – строго монотонная функция, G – функция, обратная к F.

Если F(x) = x, то среднее по Колмогорову (2.4) – это среднее арифметическое, если F(x) = ln x, то среднее геометрическое, если F(x) = 1/x, то среднее гармоническое,  и т.д. Медиану и моду нельзя представить в виде средних по Колмогорову.

Общее понятие среднего (по Коши) таково: средней величиной является любая функция f(X1, X2, ..., Xn), такая, что при всех возможных значениях аргументов значение этой функции не меньше, чем минимальное из чисел X1, X2, ..., Xn , и не больше, чем максимальное из этих чисел. При допустимом преобразовании шкалы значение средней величины, очевидно, меняется. Но выводы о том, для какой совокупности среднее больше, а для какой – меньше, в соответствии с требованием инвариантности выводов не должны меняться.

Сформулируем математическую задачу поиска вида средних величин, результат сравнения которых устойчив относительно допустимых преобразований шкалы [Орлов, URLб]. Пусть для любых двух совокупностей наблюдений справедливо соотношение средних по Коши:

f(Y1, Y2, ..., Yn) < f(Z1, Z2, ..., Zn) .

Тогда для устойчивости результата сравнения средних необходимо, чтобы для любого допустимого преобразования g из группы допустимых преобразований соответствующей шкалы было справедливо также неравенство

f(g(Y1), g(Y2), ..., g(Yn)) < f (g(Z1), g(Z2), ..., g(Zn)) ,

т.е. среднее преобразованных значений из первой совокупности также было меньше среднего преобразованных значений для второй совокупности. 

Приведем численный пример, показывающий некорректность использования среднего арифметического f(X1, X2) = (X1+X2)/2 в порядковой шкале. Пусть Y1= 1, Y2 = 11, Z1 = 6, Z2 = 8. Тогда f(Y1, Y2) = 6, что меньше, чем f(Z1, Z2) = 7. Пусть строго возрастающее преобразование g таково, что g(1) = 1, g(6) = 6, g(8) = 8,  g(11) = 99. Тогда f(g(Y1), g(Y2)) = 50, что больше, чем f(g(Z1), g(Z2)) = 7. В результате преобразования шкалы упорядоченность средних изменилась.

С помощью математической теории измерений, дающей основу для разработки, изучения и применения конкретных методов расчета, удается описать вид допустимых средних в основных шкалах:

из всех средних по Коши в порядковой шкале в качестве средних можно использовать только члены вариационного ряда (порядковые статистики), в частности, медиану, но не среднее арифметическое, среднее геометрическое и т.д.;

в шкале интервалов из всех средних по Колмогорову можно применять только среднее арифметическое;

в шкале отношений из всех средних по Колмогорову устойчивыми относительно сравнения являются только степенные средние и среднее геометрическое.

Другим обстоятельством, влияющим на результат сравнения средних двух выборок, является характер распределения данных. Приведем без купюр фрагмент из статей А.А. Любищева [1969a,б] , которые можно назвать апологией здравого смысла в статистике:

«Но разве так трудно точно вычислить среднее значение? Конечно, можно сложить показания всех проб и разделить на число всех проб, и мы получим среднее арифметическое значение, но только ценность этого результата будет часто незначительна. Например, мы сравниваем число вредителей на двух участках – обработанном инсектицидами и контрольном – для выяснения эффективности мероприятия. Дает ли простое сравнение средних арифметических из проб на обоих участках надежное указание на то, на каком участке изучаемого нами насекомого больше? Не всегда. Возьмем простой придуманный пример. На двух участках взято по четыре пробы, и количество насекомых в каждой пробе оказалось:

Пробы

1

2

3

4

Всего

Среднее

арифметическое

Среднее

геометрическое

Участок 1

4

3

4

5

16

4,0

3,94

Участок 2

2

1

2

15

20

5,0

2,78

Если верить среднеарифметическому, то на втором участке насекомых больше. Но если выберем другую среднюю – среднюю геометрическую (перемножим все четыре цифры и извлечем из произведения корень 4-й степени), то получаем обратный результат: насекомых больше на первом участке. Какой же вывод правильный? Разве средняя арифметическая не естественное выражение реальной действительности? Далеко не всегда. Перенос результата проб на весь участок правомерен лишь в том случае, если в самих взятых пробах мы обнаруживаем отражение определенного закона изменчивости. Если же изменчивость показывает ненормальные особенности, то и вывод будет ненадежен. И вот, рассматривая цифры, мы видим, что колебания учетов на первом участке очень незначительны, следовательно, мы вправе ожидать, что размах этих колебаний в первом приближении отображает изменчивость численности насекомых на всем участке. Что касается второго участка, то здесь – явная неоднородность: три пробы с малым числом насекомых и одна с чрезвычайно большим, что мы имеем право приписать какому-то непредвиденному обстоятельству: или ошибке в учете, или случайному скоплению насекомых, т. е. таким факторам, которые сильно обесценивают значение средней арифметической.

Почему же помогает введение средней геометрической? Потому что средняя геометрическая отображает среднюю арифметическую от логарифмов первоначальных чисел, а при этом сильно снижается влияние на среднюю резких крайних уклонений. Это проверено на большом материале английского энтомолога Вильямса, собиравшего в течение восьми лет при помощи автоматических ловушек насекомых на Ротамстедской станции. Поэтому сейчас для оценки учетов численности чрезвычайно широко применяют различные преобразования: замену чисел логарифмами или эквивалентными баллами и проч.»

Приведем еще один пример исчисления средних, с учетом цели определения средней тенденции, хорошо известный в математической статистике (см., например, [Розенберг с соавт., 1993, с. 24]). На скамейке сидят пять человек. Двое из них – бродяги, имущество которых оценивается в 25 центов у каждого, третий – рабочий с доходом в $2000, четвертый владеет $15 000, а пятый и вовсе миллионер с доходом в $5 000 000. Таким образом, мода равна 25 центам и характеризует 40% выборки, медиана равна 2000, средняя геометрическая – примерно, 280, а средняя арифметическая – 1 003 400,1 доллара. Если взять за основу моду, то актив этих соседей на скамейке должен быть оценен в 1-1,5 доллара (что обидно для всех, кроме бродяг); остальные оценки выглядят еще хуже. Таким образом, очевидно, что не существует средней меры для характеристики этой странной группы.

Наиболее часто в биологических исследованиях используется шкала отношений, в которой измеряются так называемые количественные признаки. Эта традиция идет, вероятно, из физики, где считается, что переход от количественных шкал к порядковым сопровождается существенной потерей информации. Для биологии с ее иным масштабом ошибок измерений подобное утверждение является скорей предрассудком, нежели научно обоснованным убеждением. На наш взгляд, в биологическую практику следует шире внедрять порядковые шкалы, которые не предъявляют ограничивающих требований к точности измерения, законам распределения и являются более "помехоустойчивыми". С математической точки зрения "балльные" оценки ничем принципиально не отличаются от "числовых", разве что математическая техника работы с ними значительно проще [Constandse-Westermann, 1972]. Но в силу укоренившихся традиций в биологических исследованиях значительно чаще безосновательно вычисляют среднее, дисперсию, эксцесс, нежели медиану. Во многом такое нежелательное положение вещей объясняется просто недостаточным методическим распространением математического аппарата, позволяющего обрабатывать результаты измерений по частным шкалам порядка и некоторым лагом в динамике исторического развития статистики и биологии. Впрочем, это мнение нельзя рассматривать как догму, поскольку очень многое зависит как от характера решаемой задачи, так и от особенностей обрабатываемых данных.


На главную