Развитие энергетики России Тепловые станции Экологический аспект Электрофильтры Регенеративные методы Математическое моделирование экологических систем Аварийные ситуации на АЭС

Введение в экологию энергетики

Таблицы сопряженности и интервальная математика

Математический аппарат, осуществляющий анализ таблиц сопряженности, используется в тех случаях, когда данные, в которых измерены показатели Y и X, представлены в шкале наименований или порядковой шкале В этих случаях любые статистические методы, основанные на параметрических распределениях, оказываются неприменимыми и анализ таблиц сопряженности [Елисеева, Рукавишников, 1977; Аптон, 1982; Енюков, 1986; Флейс, 1989] оказывается практически единственным надежным видом обработки (хотя существуют, например, специальные методы регрессии типа логит- и пробит-анализа или нейросетевой анализ).

Среди различных статистических методов изучения биологической вариабельности анализ частот считается наиболее распространенным и адекватным. Достаточно напомнить, что именно анализу частот современная биология обязана открытием гена (Г. Мендель, Т. Морган). Популярность этого подхода оказалась настолько велика, что разработаны методики его адаптации к количественным признакам, которые заключаются в разбиении области существования переменной на интервалы и подсчете вероятностей появления значения признака в каждом из этих интервалов. Таким образом, можно получить надежную и непротиворечивую оценку степени и характера влияния фактора на зависимую переменную, хотя, в отличие от регрессионного анализа, конкретный расчет уравнения связи Y » f (X) здесь не достигается.

Как отмечалось выше, при анализе эмпирического материала часто оказывается, что средняя арифметическая и коэффициент корреляции – плохие количественные характеристики гидробиологических данных, где часто не подтверждается гипотеза о нормальности распределения. Возникают ситуации, когда средние арифметические биологических признаков статистически неразличимы, хотя на самом деле выборки этих значений имеют существенные отличия. Коэффициенты корреляции Пирсона и уравнения регрессии могут свидетельствовать о взаимосвязи, которой на самом деле нет или, наоборот, не в состоянии выявить связь, когда она есть. Одним из альтернативных методов обработки, обеспечивающих более надежные и устойчивые оценки, явились специальные приемы и алгоритмы [Гублер, 1978; Хьюбер, 1984], также основанные на анализе частот или интервальных средних. Альтернативная гидроэнергетика Приливные электростанции Особый вид гидроэлектростанции, использующий энергию приливов, а фактически кинетическую энергию вращения Земли. Приливные электростанции строят на берегах морей, где гравитационные силы Луны и Солнца дважды в сутки изменяют уровень воды.

В главе 6, наряду с критериями оценки связей в таблицах сопряженности, описывается несколько внешне непохожих подходов к статистической обработке данных, объединенных одной общей идеей интервальной математики: анализ корреляционных отношений, прямой градиентный анализ, метод сравнения выборок, основанный на использовании информационной меры Кульбака и детерминационный анализ. С точки зрения математической статистики такой подход наименее требователен к распределению данных и основывается лишь на предпосылке независимости наблюдений.

Задачи о классификациях: отношения сходства и порядка многомерных объектов

От выборок, являвшихся предметом предыдущего изложения и представляющих вариационные ряды (векторы) отдельных показателей, перейдем к моделям многомерного пространства (матрицам наблюдений). Введем первоначально такие понятия, как «объект» и «признак». Под «объектами» (от лат. objectum) будем подразумевать конкретные предметы исследования, в первую очередь, те точки наблюдений  i = 1,2,…,n, где были взяты гидробиологические пробы. «Признак» Xij (синонимы – свойство, переменная, характеристика; англ. variable – переменная) – представляет собой конкретное свойство j объекта i, j = 1,2,…,m, которое может быть выражено в шкале произвольного характера.

Цель статистического моделирования в гидробиологии часто сводится к классификации: на некотором подмножестве выборок ищутся новые ассоциативные или группирующие отношения, связывающие объекты (кластерный анализ) или показатели (факторный анализ).

Как отмечалось выше, операции по упорядочиванию гидробиологических объектов и математическому моделированию экологических сообществ разного масштаба и структуры осуществляются на фоне углубления понятия об экосистеме, как пространственно-временном континууме. Вопрос о соотношении непрерывности и дискретности экосистем не может быть решен без уточнения понятия "однородный", т.к. абсолютной однородности видовой структуры быть не может и вероятность точного повторения пространственного рисунка из одних и тех же видов приближается к нулю. Однако, если измерять однородность реальными рамками масштаба принятых в гидробиологии таксономических единиц, то повторение одних и тех же более или менее сцепленных замещающих друг друга видов не является редкостью.

В любой научной деятельности классификация является одной из фундаментальных составляющих, без которой невозможны построение и проверка научных гипотез и теорий. В качестве метода типологического анализа наиболее широко в настоящее время используется кластерный анализ – это обобщенное название достаточно большого набора алгоритмов, используемых при создании классификации. Сам термин «кластерный анализ» впервые был предложен Р. Трионом [Tryon, 1939], а слово "cluster" переводится с английского языка как "гроздь, кисть, пучок, группа" (по этой причине первое время этот вид анализа называли "гроздевым анализом"). К настоящему времени эта область математики переживает бум популярности: по приблизительным оценкам специалистов число публикаций по кластерному анализу и его приложениям в различных областях знания удваивается каждые три года.

Первые работы, в которых упоминались кластерные методы, появились достаточно давно. Польский антрополог К. Чекановский в 1911 г. предложил стратегию "структурной классификации", основанную на фундаментальной идее кластерного анализа – выделении компактных групп объектов. В начале прошлого века отечественный биометр П.В. Терентьев [1925; цит. по: 1959] разработал так называемый "метод корреляционных плеяд", предназначенный для группировки коррелирующих признаков. Этот метод дал толчок развитию методов группировки с помощью графов. В начале 50-х годов появились публикации Р. Люиса, Е. Фикса и Дж. Ходжеса по иерархическим алгоритмам кластерного анализа и работы Р. Розенблатта по распознающему устройству (персептрону), положившие начало развитию теории "распознавания образов без учителя".

Теоретическим введением в использование методов кластеризации в биологии явилась книга "Принципы численной таксономии", опубликованная двумя биологами – Р. Сокэлом и П. Снитом [Sokal, Sneath, 1963]. Авторы этой книги исходили из того, что для создания эффективных биологических классификаций процедура кластеризации должна обеспечивать использование всевозможных показателей, характеризующих исследуемые экосистемы, производить оценку степени сходства между отдельными организмами и обеспечивать размещение схожих объектов в одну и ту же группу. При этом сформированные группы должны быть достаточно "локальны", т.е. сходство объектов (организмов) внутри групп должно превосходить сходство групп между собой. Последующий анализ выделенных группировок, по мнению авторов, может выяснить, отвечают ли эти группы разным биологическим видам. Иными словами, Сокэл и Снит предполагали, что выявление структуры распределения объектов в группы помогает установить процесс образования этих структур. А различие и сходство организмов разных кластеров (групп) могут служить базой для осмысления происходившего эволюционного процесса и выяснения его механизма.

Определение кластерного анализа дано, например, в последнем издании "Статистического словаря" [1989]: «Кластерный анализ – совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ними. По смыслу аналогичен терминам: автоматическая классификация, разбиение, группировка, таксономия, распознавание образов без учителя».

Задача выделения групп однородных гидробиологических объектов в общем виде достаточно сложна. Под кластером обычно понимается группа объектов [Дидэ, 1985], обладающих свойством метрической близости ("сходности"): плотность объектов внутри кластера больше, чем вне его. Однако данное определение не является строгим (строгого определения не существует вообще): можно лишь вербально описать кластер, указав некоторые его характерные свойства, допускающие субъективное толкование.  Не представляет труда интуитивно верно разделить совокупность компактных и дискретных групп, характеризующихся малыми расстояниями между членами одной группы и большими расстояниями между членами разных групп. Но такие случаи в гидробиологической практике достаточно редки; чаще всего сообщества гидробионтов образуют непрерывный и стохастически варьируемый континуум без сколько-нибудь резких границ между биоценозами.

Другой проблемой кластерного анализа является его собственная методологическая "рыхлость", выраженная в отсутствие единого подхода и стратегии. Всегда приходится сознавать, что полученный при использовании кластерного анализа результат является одним из возможных, причем отсутствуют строгие математические методы его сравнения с аналогичными результатами, полученными с применением других комбинаций метрик, алгоритмов объединения и т.д. Поэтому убедиться самому и убедить своих оппонентов, что данный результат является оптимальным, возможно лишь в тех редких случаях, когда найденная классификация не только что-то "объясняет", но имеет и предсказывающую способность [Леонов, URLв]. Любой класс, ассоциация, кластер, полученный по технологии "без учителя" и состоящий из некоторого подмножества реальных объектов – всегда некоторая умозрительная теоретическая конструкция, которую принципиально невозможно точно измерить, а, следовательно, оценить качество предсказания или, хотя бы, сформулировать критерии, позволяющие надежно предпочесть одну полученную классификацию другой. Некорректность любых утверждений о том, например, что метод ближней связи с использованием меры сходства по формуле Т. Съёренсена приводит к "лучшей" классификации, чем, предположим, алгоритм П. Макнаутона-Смита на основе взвешенной эвклидовой дистанции, стали очевидными с появлением в 1931 г. знаменитой теоремы К. Гёделя [Нагель, Ньюмен, 1970]. Если не прибегать к точной математической формулировке, суть этой теоремы состоит в том, что всякая формальная логическая теория часто содержит такие утверждения, которые нельзя ни доказать, ни опровергнуть внутренними средствами этой теории. Такие доказательства возможны только с помощью внешнего дополнения или средствами более мощной логической теории. Их в случае кластерного анализа заменяет только человеческий опыт и интуиция, которые, к сожалению, всегда субъективны.

Абсолютное большинство методов кластеризации [Дюран, Оделл, 1980; Классификация и кластер.., 1980; Мандель, 1988] основывается на анализе квадратной и симметричной относительно главной диагонали матрицы коэффициентов сходства (расстояния, сопряженности, корреляции и т.д.). При определении корреляции между признаками сравнивается распределение двух каких-либо видов в определенной серии наблюдений и оценивается, насколько тесно совпадают эти распределения. Определение корреляции между объектами представляет обратную задачу: сравниваются две точки отбора проб и оценивается, насколько тесно совпадает набор их признаков. В кластерном анализе всегда подчеркивалась принципиальная равноправность обоих этих методов, причем вычисление матрицы коэффициентов корреляции размерностью m×m между признаками обозначалась как R-техника, а вычисление корреляции между объектами (матрица n×n) – как Q-техника.


На главную