Распознавание образов - что это такое?

Образ - это все, что может называться информацией, т.е. что-то, имеющее некоторые характеризующие его признаки.

- Любые базы данных, состоящие из колонок цифр и строчек.

- Любое оцифрованное изображение.

Вот сейчас внизу экрана вы видите некоторый рисунок. Это диаграмма рассеяния. Так выглядят данные двух групп (красные и синие значки) по двум признакам, отложенным по соответствующим осям. Статистические различия между группами по каждому из признаков могут отсутствовать, распределение может быть далеким от нормального. Как же найти то, чем одна группа отличается от другой?

 

 

Именно так, как меняются кадры и происходит распознавание при работе метода статистически взвешенных синдромов:

1) Сначала ставятся границы градации (не обязательно одна) по одному из признаков таким образом, чтобы с одной стороны границы преобладали значения одной из групп, а с другой стороны было больше значений второй группы. То же делается для второго признака, и для всех признаков, участвующих в обучении. (Благодаря современной технике число признаков может быть почти не ограничено).

2) Далее из всех признаков оставляют только те, которые наиболее информативны с точки зрения отделения одной группы от другой.

3) Создается решающее правило, которое включает в себя набор наиболее информативных признаков с их границами градаций. По нему новый объект, не участвующий в обучении можно распознать, т.е. отнести с некоторой вероятностью к одной из групп.

4) Статистически взвешенное голосование проводится суммарно по всем базовым множествам. Так называют каждый прямоугольник, образованный границами градаций.

5) В результате распознавания мы имеем одно число, находящееся между номерами групп. К какому номеру группы оно ближе, к той группе и будет относиться распознаваемый объект. Существует зона неопределенности. Если результат попадает в нее, мы называем его отказом, т.е. решение неопределенно.

6) Самое главное - доказать, что различия между группами, найденные в результате распознавания, достоверно значимы. Для этого существует перестановочный тест, использующий метод Монте-Карло. Номера группы каждому объекту присваиваются произвольно и на скользящем контроле опять проводят обучение и распознавание. Так делается в автоматическом режиме тысячу раз. Если хорошее распознавание получается в 5 случаях из этой тысячи, то считаем, что достоверность равна 0,005. Если таких случаев достаточно много, то скорее всего различия между исследуемыми группами нет.

В Институте Биохимфизики им. М.Н.Эмануэля в лаборатории математической биофизики с 1993 г. успешно использовали методы распознавания образов для создания алгоритмов диагностики и прогнозирования в онкологии, неврологии, радиологии, педиатрии, психиатрии, гинекологии и других областях теоретической медицины.

Для медико-биологической информации характерны небольшие выборки, большое число параметров и наличие пропущенных значений в данных. Эти трудности, принципиальные для традиционных статистических методов, для нашего подхода не страшны. Мы любим работать именно с такими сложными данными. Причем данные могут быть и количественными, и качественными, непрерывными или дискретными. Главное, чтобы они имели вид таблицы, в которой один из столбцов является группирующим, т.е. содержит номера групп, к которым относятся каждый из объектов (данная строка - есть информация об одном объекте, "запись"). Имеется в виду, что сравниваемые группы заранее известны. Это могут быть группы больных с различным исходом лечения или заболевания, группы экспериментальных данных и контроля и т.д. Обучение идет на данных с известным разделением на группы. После получения решающего правила можно любой предлагаемый новый объект, группа которого не известна, с некоторой вероятностью отнести к одной из групп. Т.е. сделать для него прогноз или диагностику. Это и есть распознавание образов в действии.

С помощью данных методов распознавания образов были успешно решены многие задачи в медико-биологических исследованиях, что отражено в ряде публикаций.

 

 

?????? ??????? ?? ??????? ?????? ????????
Сайт создан в системе uCoz