Развитие энергетики России Тепловые станции Экологический аспект Электрофильтры Регенеративные методы Математическое моделирование экологических систем Аварийные ситуации на АЭС

Введение в экологию энергетики

Задачи о выборках: анализ распределений, сравнение, поиск зависимостей

Анализ каждой произвольной выборки, представляющей собой совокупность независимых, одинаково распределенных случайных измерений, начинается с расчета описательных статистик эмпирического ряда: средних, дисперсии, основных моментов высшего порядка, медианы, моды, стандартного отклонения, ошибки среднего и др. Расчету элементарных статистик посвящено огромное множество литературы [Урбах, 1963; Смирнов, Дунин-Барковский, 1965; Крамер, 1975; Гнеденко, 1988; Калинина, Панкин, 2001; Ю. Прохоров, 2002], что избавляет нас от необходимости углубляться в эту тему. Рядом авторов [Браунли, 1977; Айвазян с соавт., 1983; Зайцев, 1984] предлагаются также специальные критерии, предназначенные для оценки показателей вариации, точности опыта, репрезентативности и случайности выборок и т.д. Можно привести также некоторые ссылки на источники, где статистические методы рассматриваются в контексте использования популярных пакетов прикладных программ [Тюрин, Макаров, 1995; Боровиков, 2001; Алексахин с соавт., 2002] или в виде руководства к использованию офисного табличного процессора Excel [Лапач с соавт., 2000].

Особое место в анализе выборок занимает проверка соответствия характера эмпирического распределения какому-нибудь заданному закону распределения [Кендалл, Стьюарт, 1966; Гмурман, 1972; Джонсон, Лион, 1980, 1981]. Это связано с тем, что вид функции распределения часто постулируется как одно из важнейших предположений применения большинства статистических методов.

Разработанную в первой трети ХХ в. теорию называют параметрической статистикой [Плошко, Елисеева, 1990; Орлов, URLб], поскольку ее основной объект изучения – это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами [Елисеева, Юзбашев, 1995; Вентцель, 1999]. Как правило, нельзя указать каких-либо веских причин, по которым конкретное распределение результатов экологических наблюдений должно входить в то или иное параметрическое семейство. В подавляющем большинстве реальных ситуаций таких предположений сделать нельзя, но, тем не менее, приближение реального распределения с помощью кривых из семейства Пирсона или его подсемейств часто не является чисто формальной операцией. Закономерности расчета описательных статистик в зависимости от распределения эмпирического ряда хорошо известны: если вероятностная модель основана на нормальном распределении, то расчет математического ожидания предусматривает суммирование независимых случайных величин; если же модель приближается к логарифмически нормальному распределению, то итог естественно описывать как произведение таких величин и т.д. Легководные реакторы Современные ядерные реакторы

В первой же трети ХХ в., одновременно с параметрической статистикой, в работах Ч.Спирмена и М. Кендалла появились первые непараметрические методы, основанные на коэффициентах ранговой корреляции, носящих ныне имена этих статистиков [Кендалл, 1975; Рунион, 1982; Холлендер, Вулф, 1983]. Но непараметрика, не делающая нереалистических предположений о том, что функции распределения результатов наблюдений принадлежат тем или иным параметрическим семействам распределений, стала заметной частью статистики лишь со второй трети ХХ в. В 30-е годы появились работы А.Н. Колмогорова и Н.В. Смирнова, предложивших и изучивших статистические критерии, носящие в настоящее время их имена и основанные на использовании так называемого эмпирического процесса – разности между эмпирической и теоретической функциями распределения [Большев, Смирнов, 1968; Гублер, Генкин, 1973].

Во второй половине XX в. развитие непараметрической статистики пошло быстрыми темпами, в чем большую роль сыграли работы Ф. Вилкоксона и его школы [Гаек, Шидак, 1971]. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг статистических задач, что и с помощью параметрических [Никитин, 1995]. Все бóльшую роль играют непараметрические оценки плотности вероятности, непараметрические методы регрессии и распознавания образов (дискриминантного анализа).

Тем не менее, параметрические методы всё еще популярнее непараметрических, хотя неоднократно публиковались обзоры [Налимов, 1960; Максимов с соавт., 1999], свидетельствующие о том, что распределения реально наблюдаемых случайных величин (в частности, биологических данных) в подавляющем большинстве случаев отличны от нормальных (гауссовских). Теоретики продолжают строить и изучать статистические модели, основанные на гауссовости, а практики – применять подобные методы и модели («ищут под фонарем, а не там, где потеряли»). Однако полностью игнорировать классические методы не менее вредно, чем переоценивать их. Поэтому целесообразно использовать одновременно оба подхода – и параметрические методы, и непараметрическую статистику. Такая рекомендация находится в согласии с концепцией математической устойчивости [Орлов, 1979], рекомендующей использовать различные методы для обработки одних и тех же данных с целью выделить выводы, получаемые одновременно при всех методах.

Любая выборка экологических данных является принципиально неоднородной, поскольку измерения могут осуществляться в различные временные периоды, разных пространственных точках водоема, с использованием различных инструментальных методов и т.д. В связи с этим, важным этапом математической обработки является дисперсионный анализ, с помощью которого оценивается, имеют ли место статистические различия между отдельными подмножествами данных и можно ли считать их принадлежащими одной генеральной совокупности [Плохинский, 1970; Лисенков, 1979; Джонсон, Лион, 1980, 1981, Любищев, 1986]. Если каждому измерению поставлен в соответствие один признак (фактор), определяющий условия его реализации, то говорят об однофакторном дисперсионном анализе. Если таких группообразующих факторов больше одного, то выполняется многофакторный дисперсионный анализ [Плохинский, 1982; Афифи, Эйзен, 1982].

Если выборка состоит из двух рядов сопряженных наблюдений, измеренных в идентичных условиях, то решается задача регрессионного анализа, т.е. один эмпирический ряд объявляется результативным показателем или «откликом» Y, а другой – независимой варьируемой переменной X или «фактором» . Теория и практика одномерного регрессионного анализа также представлена многочисленными литературными источниками [Хальд, 1956; Андерсен, 1963; Себер, 1980; Дрейпер, Смит, 1986; Дюк, 1997].

Мем № 17: «Те биологические системы, которые не смогли охватить громадный диапазон жизненно значимых воздействий среды, попросту вымерли, не выдержав борьбы за существование. На их могилах можно было бы написать: "Они были слишком линейны для этого мира". Но такая же судьба ожидает и математические модели, не учитывающие этой важной особенности жизни» А.М. Молчанов [1975].

Основной задачей регрессионного анализа является идентификация вида функциональной зависимости Y » f(X), восстанавливаемой по эмпирическим данным. Реальный мир в подавляющем большинстве случаев объективно нелинеен (нелинеен, например, даже закон Ома, если в нем учесть температурную зависимость). В ряде случаев вид аппроксимирующего уравнения заранее предполагается из некоторых теоретических соображений. Если этого нет, то, исходя из принципа множественности моделей В.В. Налимова, одному и тому же конечному результату будет соответствовать значительное множество вариантов расчетных формул. Возникает традиционная ситуация пребывания исследователя «между Сциллой усложненности и Харибдой недостоверности», когда необходим выбор регрессионного уравнения оптимальной сложности.

Нелогично описывать уравнением прямой или другими простыми алгебраическими функциями динамику рядов биологических показателей, характеризующихся "горбами", перегибами и прочими нестационарными атрибутами. В этом случае неоптимальность модели связана с ее недоопределенностью, когда сложность структуры аппроксимирующей функции недостаточна для отображения сложности изучаемого процесса. Еще раз напомним слова А.Г. Ивахненко о том, что сложность модели для сложных объектов принципиально необходима.

Другим возможным источником неоптимальности является переопределенность структуры выбранной модели: через n точек всегда можно провести бесконечное множество кривых с нулевой ошибкой (например, с помощью полиномов степени выше n), но это исключает какую-либо возможность содержательной интерпретации полученной зависимости. До сих пор во многих научных работах авторы постулируют некоторую функцию лишь на том основании, что она весьма близко прошла через их экспериментальные точки [Фукс, 1975; Айвазян с соавт., 1985]. Такие доказательства "правильности" теорий нельзя принимать серьезно, так как за пределами эмпирического материала такая модель может вести себя достаточно "причудливым" образом, что поставит под сомнение возможность получения надежного прогноза и достоверной связи между факторами. «Переусложнение модели так же вредно, как и ее недоусложнение» [Ивахненко, 1982].

Сущность нахождения модели оптимальной сложности заключается в ее поэтапной структурной идентификации, т.е. одновременном определении оптимальной структуры и оценки параметров модели. Например, можно предложить следующий порядок подгонки моделей:

строится модель простой линейной регрессии и оценивается его адекватность, поскольку линейная форма модели в целом является более предпочтительной;

если уравнение прямой выглядит неудовлетворительным, то рассматривается семейство простых алгебраических функций;

в случае наличия многовершинности или периодичности данных, ищут аппроксимацию в классе полиномов, сплайнов или алгоритмов МГУА (подробнее об этом классе функций можно прочитать в нашей предыдущей книге [Розенберг с соавт., 1994]).

Более строгие методы проверки гипотезы о линейности связаны с анализом выборочных корреляционных отношений на основе методов интервальной математики.


На главную