Развитие энергетики России Тепловые станции Экологический аспект Электрофильтры Регенеративные методы Математическое моделирование экологических систем Аварийные ситуации на АЭС

Введение в экологию энергетики

Методы распознавания образов

Как отмечалось выше, реальные гидробиологические объекты отличаются друг от друга какими-либо свойствами, но в то же время, многие из них обладают и некоторой общностью, что позволяет объединять объекты в классы. В математической литературе часто используется тождественное «классу» понятие «образа» и многие задачи классификации объединены под названием "проблемы распознавания образов". Наиболее удачно смысл этого термина сформулирован Н.Г. Загоруйко [1972]: «Под образом будем понимать наименование области в пространстве признаков, в которой отображается множество объектов или явлений реального мира».

Понятие «образа» может быть в разной степени абстрактным по отношению к изучаемым предметам и явлениям. Например, в объективной реальности не существует "экосистемы вообще", а существуют только отдельные измерения, наделенные некоторыми общими свойствами и объединенные исследователем в некоторый образ "экосистема". В нашем случае "экосистемой" можно назвать и некоторую небольшую географическую общность точек наблюдения (створ, станция), и произвольный участок реки, и отдельную реку или некоторую их совокупность, и весь Волжский бассейн в целом. В рамках тех формально-логических определений "экосистемы", которые существуют в настоящее время, корректность перечисленных утверждений нельзя ни доказать, ни опровергнуть (что вытекает из теоремы о "неполноте" К. Гёделя).

В рассматриваемом случае классы эквивалентности с той или иной степенью обоснованности задаются самим исследователем, т.е. рассматривается задача "распознавания с учителем", что отличает ее от описанного выше кластерного анализа. При этом выделяемые самостоятельные единицы ("экземпляры") образов группируются на основе некоторых содержательных представлений или используется внешняя дополнительная информация о сходстве и различии объектов в контексте решаемой задачи (например, постулируются образ буквы «А», границы реки Сок или в отдельный "грязный" класс выделяются измерения с БПК5 > 3). Водогрейные котлоагрегаты Малая теплоэнергетика

Предтечей математических методов распознавания образов явился дискриминантный анализ, предложенный в 1936 г. Р. Фишером (R. Fisher), – классическая ветвь биометрии, которая уже более 60 лет находит применение в самых разных областях биологической систематики и медицинской диагностики [Урбах, 1964; Дуда, Харт, 1978; Кравцов, Милютин, 1981; Айвазян с соавт., 1989; Ким с соавт., 1989]. Этот вид анализа обобщает несколько тесно связанных статистических процедур, относящихся к подмножеству линейных методов, поскольку модель классификации линейна относительно дискриминантных функций и напоминает множественную линейную регрессию. С другой стороны, основная идея дискриминантного анализа заключается в том, чтобы определить, отличаются ли совокупности по среднему значению линейной комбинации исходных переменных, и затем использовать эту комбинацию, чтобы предсказать для новых членов их принадлежность к той или иной группе. Поставленная таким образом задача о дискриминантной функции может быть сформулирована как задача многомерного дисперсионного анализа (МANOVA).

Множество алгоритмов распознавания образов, при всей их несхожести, методически основаны на одной предпосылке – гипотезе компактности [Айвазян с соавт., 1989; Кольцов, 1989], т.е. «в используемом пространстве признаков измерения, принадлежащие одному и тому же классу, близки между собой, а измерения, принадлежащие разным классам хорошо разделимы друг от друга». Существуют разные версии классификации алгоритмов распознавания, предлагаемые Ю.Л. Барабашем с соавторами [1967], Л.Т. Кузиным [1979], П. Уинстоном [1980], В.И. Васильевым [1983], А.Л.Гореликом и В.А. Скрипкиным [1984], Я.З. Цыпкиным [1984] и др. Например, в работах Е.В. Луценко [1996, 2002] используется типология методов распознавания образов на основе двух основных способов представления знаний:

интенсиональное представление – в виде схемы связей между признаками;

экстенсиональное представление – с помощью описаний конкретных объектов.

Обобщенные выводы из этого детального обзора методов распознавания мы представили в табл. 2.3, хотя не во всем согласны с излишне категоричными мнениями автора о недостатках анализируемых алгоритмов.

Обзор методов автоматической классификации применительно к проблемам геоботаники был выполнен также одним из соавторов книги [Розенберг, 1977].

Методы, основанные на оценках плотностей распределения значений признаков, заимствованы из классической теории статистических решений [Кендалл, Сьюарт, 1973], в которой объекты исследования рассматриваются как реализации многомерной случайной величины, распределенной в пространстве признаков по какому-либо закону [Афифи, Эйзен, 1982; Горелик, Скрипкин, 1984]. Эта группа методов использует ту или иную интерпретацию формулы условных вероятностей Т. Байеса (Т. Bayes) и имеет прямое отношение к методам дискриминантного анализа.

В группе методов, основанных на предположениях о классе решающих функций, считается известным общий вид уравнения разделяющей поверхности и задан функционал качества разбиения [Аркадьев, Браверман, 1971; Дуда, Харт,1978; Кольцов, 1989]. Самыми распространенными являются представления решающих функций в виде линейных и обобщенных нелинейных полиномов, что позволяет говорить об аналогии этих методов с частными реализациями регрессионного анализа. Функционал качества решающего правила обычно связывают с ошибкой классификации. Наиболее эффективными методами этой группы являются алгоритм построения оптимальной разделяющей гиперплоскости – "обобщенного портрета" [Вапник, Червоненкис, 1974] и разделение классов потенциальными функциями [Айзерман с соавт., 1970; Ту, Гонсалес, 1978].

Логические методы распознавания образов базируются на аппарате булевой алгебры логики и позволяют оперировать информацией, заключенной не только в отдельных признаках, но и в сочетаниях значений признаков [Горелик с соавт., 1985]. В главе 8 будут представлены результаты использования наиболее распространенного алгоритма этой группы – "Кора" [Бонгард, 1967; Вайнцвайг, 1973], формирующего систему логических решающих правил в виде конъюнкций элементарных событий.

Лингвистические методы распознавания образов основаны на использовании специальных грамматик (т.е. правил построения объектов из "атомарных" элементов), порождающих языки, с помощью которых может описываться совокупность свойств распознаваемых объектов [Фу, 1977; Борисов с соавт., 1982; Горелик с соавт., 1985]. Синтаксические анализаторы, которые представляют полное описание объекта в виде дерева грамматического разбора, устанавливают его синтаксическую правильность, а именно, может ли фиксированная грамматика, описывающая некоторый класс, породить имеющееся описание объекта. В противном случае, объект либо отклоняется, либо подвергается анализу с помощью других грамматик, описывающих другие классы объектов.

В экстенсиональных методах, в отличие от интенсионального направления, каждому изучаемому объекту в большей или меньшей мере придается самостоятельное диагностическое значение. Объекты в указанной группе методов играют роль диагностических прецедентов, при этом роль каждого из них может меняться в самых широких пределах: от главной до весьма косвенного участия в процессе классификации. По своей сути экстенсиональные методы рассматривают измерения как целостные феномены, каждый из которых индивидуален и имеет особенную диагностическую ценность, что определяет  высокую эффективность этих методов для "чистого" прогноза. Однако задача восстановления закономерностей поведения объектов и интерпретации связей между варьируемыми переменными (т.е. функция объяснения) является для них трудно формализуемой.


На главную