Развитие энергетики России Тепловые станции Экологический аспект Электрофильтры Регенеративные методы Математическое моделирование экологических систем Аварийные ситуации на АЭС

Введение в экологию энергетики

Оценка качества водных экосистем по многомерным эмпирическим данным

Мем № 18: «Каковыми бы сложными не были состав элементов, структура взаимосвязей или материально-энергетические процессы в реальной экосистеме, все они, в конечном итоге, сводятся для наблюдателя всего к двум показателям: численности и биомассе особей отдельных видов, измеренных в пространственно-временном аспекте. Роль гидробиолога состоит в том, чтобы по этим двум показателям восстановить всю сложность реального мира, используя свой опыт и "арсенал" математических формул» 

Общая постановка задачи

Несмотря на то, что в нашей стране нет общепринятой системы оценки качества вод по гидробиологическим показателям [Винберг, 1979а], основной задачей классической гидробиологии остается таксация водоемов по степени загрязнения. Основные принципы такой оценки в конечном итоге сводятся к следующим формальным аксиоматическим предпосылкам, без выполнения которых эта задача не имеет смысла.

Пусть "качество вод" – некоторая внешняя характеристика водоема, оценивающая возможность его использования в тех или иных практических целях, которая может быть представлена шкалой некоторого непрерывного или дискретного показателя Y.  Предположим, что заранее установлены сущность и способ измерения (расчета) этого критерия. Для определенности предположим, что величина Y возрастает с уменьшением качества вод.

Структурные и функциональные характеристики водных биоценозов являются важными индикаторами "качества вод", иными словами, предполагается некоторая статистически значимая стохастическая связь между величиной Y и некоторой совокупностью гидробиологических измерений. Энергия ветра Человек использует энергию ветра с незапамятных времен. Но его парусники, тысячелетиями бороздившие просторы океанов, и ветряные мельницы использовали лишь ничтожную долю из тех 2,7 трлн кВт энергии, которыми обладают ветры, дующие на Земле. Полагают, что технически возможно освоение 40 млрд кВт, но даже это более чем в 10 раз превышает гидроэнергетический потенциал планеты.

Структура биоценоза может быть достаточно адекватно описана двумя классами переменных: показателями обилия в пространстве видов Xвi (i = 1,2,…,nв ) и некоторым множеством nи обобщенных индексов Xиj (j = 1,2,…,nи ), которые являются в конечном итоге функциями того же обилия – численности и биомассы.

Состоятельная и эффективная оценка показателя "качества вод" Y может быть рассчитана с использованием следующей модели, использующей оба класса переменных (для сокращения формы записи приводится ее линейная интерпретация):

 nв nи

 Y = b - ( S lвi xвi + S lиj xиj ) , (2.5)

 i =1 j =1

где: lвi  и lиj – найденные коэффициенты статистической модели, b – свободный член.

Величины  lвi при неизвестных Xвi в уравнении (2.5) играют роль "индикаторных валентностей": большие положительные значения связаны с чувствительными видами-индикаторами воды высокого качества, отрицательные значения (< 0) – с видами, характерными для загрязненных водоемов, а коэффициенты, близкие к нулю – с эврибионтными видами, не являющимися индикаторами.

Подмножество обобщенных индексов Xиj может включать любые, в том числе, такие общепризнанные показатели как информационный индекс Шеннона, биотический индекс Вудивисса, составляющие функционально-энергетического баланса, сапробиологические показатели, коэффициенты, основанные на учете индикаторных групп гидробионтов (олигохет, хирономид и др.). Единственным критерием для включения индекса в модель является его предполагаемая информативность, т.е. возможность учесть при анализе данных новые информационные аспекты, не содержащиеся в явном виде в исходном пространстве видов, а также использовать в конкретных случаях анализа весь ретроспективный опыт и закономерности, выявленные исследователями на водоемах других регионов. В частности, в подмножество обобщенных индексов могут входить абсолютные или относительные показатели обилия отдельных трофико-таксономических групп (см. главу 4).

Статистическое моделирование, всегда основанное на апостериорной информации, предполагает наличие обучающей выборки: таблицы с эмпирическими данными, где каждой k-й строке {x1, …, xi, …, xn} поставлено в соответствие строго определенное значение показателя качества  yk . Если этот показатель измерен в непрерывных шкалах, то решается задача множественной регрессии. Если yk имеет смысл класса качества и представлен шкалой наименований или порядковой шкалой, то решается задача распознавания образов. В этом случае обучающая последовательность представляет собой таблицу, разбитую на L непересекающихся подмножеств строк, причем любому из L классов принадлежит не менее одного объекта. Содержательный смысл задаваемой системы классификации {у1, у2, …, yL} не имеет никакого значения для последующего изложения и может быть вполне произвольным (например: любые градации сапробности, токсобности, классов качества вод, типов водоемов, природно-климатических зон и т.д.) Можно упомянуть особый случай представления класса качества yk в бинарной (альтернативной) шкале измерения, когда используются лишь две градации, например, "плохое качество / хорошее качество".

С точки зрения общих концепций классификации и прогнозирования, каких-либо четких отличий между регрессионным анализом и распознаванием образов нет. Приведем, в частности, обобщенную формулировку задач статистики для таблицы наблюдений Х,  с предельной ясностью сделанную Г.С. Лбовым [1981], который выделил четыре классические постановки:

распознавание образов (предсказание для объекта значения некоторого его целевого признака, выраженного в шкале наименований);

регрессия (предсказание значения числового признака для объекта);

динамическое прогнозирование значения числового признака объекта, использующее временные измерения значений этого же признака (анализ временных рядов);

автоматическая группировка объектов (кластерный анализ).

Каждая из перечисленных постановок сводится, в сущности, к единой задаче заполнения пропусков в таблице данных. При автоматической группировке объектов в таблицу добавляется новый столбец, содержащий информацию о разбиении всего множества объектов на группы схожих. Для иных постановок прогнозируются неизвестные значения признаков у тех объектов, где имеется пропущенная информация (т.е. смысл задачи заполнения пропусков является эквивалентной классическому восстановлению неизвестных функциональных зависимостей по априори неполной таблице экспериментальных данных).

Процедуры многомерного статистического анализа сводятся к идентификации математических моделей, отражающих состояние объекта. Идентификация – это:

процесс восстановления функции условного математического ожидания моделируемой функции объекта Y на основе ее предполагаемой стохастической связи с набором признаков (для задачи множественной регрессии);

формирование решающих правил или сравнение образа объекта с набором образов, уже имеющихся в системе идентификации (для задачи распознавания образов).

Задача идентификации уравнений регрессии в прикладном смысле сводится к расчету и последующему анализу модели (2.5), т.е. выбору комплекса информативных переменных, наилучшим образом объясняющим существующие закономерности (структурная идентификация), подбору оптимальных коэффициентов уравнения или частных выражений для составляющих компонент (численная и функциональная идентификация).

Любая гидробиологическая среда представляет собой большой, сложный, слабо детерминированный и эволюционирующий объект исследования. Поэтому, как показывает практика, предположения о линейности аппроксимирующей функции (2.5), как правило, лишены оснований. Теория самоорганизации моделей показывает, что огромное большинство процессов в природе может быть описано, например, в виде полиномов высокой степени, являющихся частным случаем обобщенного полинома Колмогорова–Габора [Габор, 1972; Ивахненко с соавт., 1976]:

  . (2.6)

Число членов полного полинома равно , где m – число переменных, q – степень полинома, и уже при n=q=7 достигает 3600. Поэтому основная задача моделирования сложных систем с использованием регрессионных уравнений заключается в том, чтобы исключить в полиноме (2.6) подмножество "лишних" неинформативных коэффициентов и сохранить необходимое и достаточное сочетание "объясняющих членов". Сложность синтезированной модели будет оптимальной, если необходимая адекватность обеспечивается при минимальном количестве составляющих ее элементов [Эшби, 1959].

Для реализации этих условий необходим набор алгоритмов и методов построения различных эмпирических моделей прогнозирования (2.5), который бы удовлетворял следующим условиям:

достаточно высокая вычислительная эффективность, позволяющая получить работоспособные модели при разумных ресурсных издержках;

отсутствие определяющих ограничений на функцию распределения данных;

обеспечение возможности обработки разнотипных экспериментальных данных (без сведения всех признаков к одной шкале) и инвариантность к допустимым преобразованиям шкал признаков;

робастность и технологичность при наличии пропусков в таблице, а также в случае, если число измеренных признаков n значительно превышает число объектов m;

простота получения результата и инвариантность к конкретной проблемной области.

В этих условиях методы традиционной параметрической статистики не всегда могут быть работоспособны, поскольку требуют либо ощутимого объема исходных данных, либо некоторых предположений о виде функций распределения. Определенную альтернативу им составляют алгоритмы распознавания образов.


На главную