Комплексный дипломный проект на тему "РИСК-II. Математическое обеспечение комплекса задач “Оценка эффективности функционирования военно-медицинского учреждения”
СПИСОК СОКРАЩЕНИЙ
АКД
- аппаратура канала доступа
АКК
- адаптер канал-канал
АО
- акционерное общество
АПД
- аппаратура передачи данных
АРМ
- автоматизированное рабочее место
АС
- автоматизированная система
АСУ
- автоматизированная система управления
АУК
- автоматизированный управляющий комплекс
АФЦП
- Аппаратная формирования цифровых потоков
АЦПУ
- алфавитно-цифровое печатающее устройство
БД
- база данных
БЗ
- база знаний
БИС
- большая интегральная схема
ВЗУ
- внешнее запоминающее устройство
ВОС
- взаимодействие открытых систем
ВП
- внешняя память
ВТ
- вычислительная техника
ВУ
- внешнее устройство
ГВКГ
- Главный военно-клинический госпиталь
ГВС
- глобальная вычислительная сеть
ГВЦ
- главный вычислительный центр
ГИС
- графическая информационная система
ГК
- главный конструктор
ГО
- гражданская оборона
ГОСТ
- государственный стандарт
ГС
- графическая система
ГЦУМС
- Главный центр управления международными связями
ДП
- дипломный проект
ЕС ЭВМ
- ЭВМ единой серии
ИМС
- интегральная микросхема
ИО
- информационное обеспечение
ИСС
- информационно-справочная система
КВВ
- канал ввода-вывода
КДП
- комплексный дипломный проект
ККП
- комплексный курсовой проект
КОМС
- коммутационная станция
КСА
- комплекс средств автоматизации
ЛВС
- локальная вычислительная сеть
ЛО
- лингвистическое обеспечение
М
- модем
МГ
- машинная графика
МИРЭА
-Московский институт радиотехники, электроники и автоматики
МККТТ
-Международный Консультативный Комитет по Телеграфии и Телефонии
МО
- математическое обеспечение
МОС
- Международная организация по стандартизации
МТО
- материально-техническое обеспечение
НК
- нормированные координаты
НМД
- накопитель на магнитном диске
ОА
- операционный автомат
ООД
- оборудование обработки данных
ОП
- оперативная память
ОС
- операционная система
ВВЕДЕНИЕ
Данный дипломный проект (ДП) выполнен в соответствии с заданием и приказом на дипломное проектирование и является частью комплексного проекта распределенного интеллектуального синергетического комплекса (РИСК-2).
Целью настоящего дипломного проекта является анализ и обоснование выбора архитектуры распределенного информационно-справочного комплекса для медицинских учреждений и разработка математического и программного обеспечения для его подсистем. Проектирование РИСК производится силами СКБ-2 кафедры СА и ПО АСУ МИРЭА последовательно в течение нескольких лет. В качестве медицинского учреждения выступает Главный Военный Клинический Госпиталь им. Бурденко (ГВКГ).
В 1998-1999 учебном году студентами 6-го курса разработаны комплексы задач (КЗ) по платным медицинским услугам, электронного документооборота, распознаванию болезней печени, оценки эффективности функционирования медицинского учреждения и др. прикладные системы. Эти разработки представляют комплексный дипломный проект (КДП) СКБ-2.
В процессе выполнения данного КДП решены несколько текущих задач по развитию РИСК-2:
системный анализ РИСК, рассмотрение направлений и этапов его создания; организация взаимодействия исполнителей на текущем этапе и анализ места частной задачи проекта в общей работе;
разработка МО и ПО по основной теме ДП;
создание (во взаимодействии с другими членами СКБ) прикладных программных систем по курсам “Гражданская оборона”, “Экология и охрана труда” и “Экономика” по заданиям, выданным соответствующими кафедрами МИРЭА;
оценка экономической эффективности проекта и исследование перспектив развития РИСК 2.
ГЛАВА 1. СИСТЕМНЫЙ АНАЛИЗ И СИНТЕЗ РИСК II
1.1. Анализ замысла, целей, направлений и этапов разработки РИСК II
1.1.1. Замысел и цели разработки РИСК II
Последнее десятилетие происходит интенсивное развитие вычислительной техники (ВТ). С каждым следующим днем мы получаем возможность использовать ВТ по своей производительности превосходящую ту, которая была вчера, а по стоимости практически такую же, а то может быть и дешевле.
Наибольшее распространение ВТ получает в тех областях, где от человека требуется внимательность, точность, аккуратность и, в некоторых случаях, быстрота реакции или принятия решения. Это может быть, например, какая-нибудь область, связанная с запуском и управлением полетом спутников, ракетами ПВО, а может - обыкновенная бухгалтерия, банковские операции.
Замысел разработки РИСК II заключается в автоматизации деятельности медицинского персонала военно-медицинских учреждений МО РФ.
Целью разработки РИСК II является создание распределенных информационно-справочных комплексов, входящих в состав АСУ Главного Военного Клинического Госпиталя (ГВКГ) им. акад. Н.Н. Бурденко, проектируемой рамках ОКР "Тонус".
1.1.2. Направления и этапы разработки РИСК II
Основными направлениями разработки являются:
1. Разработка архитектуры РИСК II
2. Разработка математического обеспечения (МО) и специального программного обеспечения (СПО) прикладных задач.
Учитывая, что автоматизации подлежит большое количество задач, разработка РИСК II ведется поэтапно, в соответствии с этапами разработки АСУ ГВКГ в ОКР "Тонус". Разработка данного КДП совпадает с II этапом создания АСУ ГВКГ.
1.1.3. Исследование требований заказчика
Настоящий дипломный проект является составной частью комплексного дипломного проекта (КДП) "Разработка распределенного информационно-справочного комплекса медицинских учреждений (РИСК II)", выполняемого группой дипломников, объединенных в студенческое конструкторское бюро (СКБ 2).
На данном этапе в КДП требовалось разработать следующие комплексные задачи:
1. Комплекс задач (КЗ) “Математическое обеспечение оценки эффективности работы госпиталя”.
2. КЗ "Математическое обеспечение информационного обеспечения автоматизированного рабочего места специалиста медицинской части".
3. КЗ " Математическое обеспечение идентификации медицинских объектов методом главных компонент".
4. КЗ "Математическое обеспечение автоматизации бухгалтерского учета торговых предприятий".
По каждой комплексной задаче заказчиком были предъявлены требования к составу программных и технических средств, применяемых в процессе решения формулированных задач, а также к функциональным характеристикам, режимам функционирования и условиям эксплуатации программно-технических комплексов с учетом выбранной архитектуры.
Кроме того, в состав КДП решаются прикладные задачи по учебным курсам экономики, охраны труда и гражданской обороны. По этим задачам также были предъявлены требования к составу программных и технических средств, функциональным характеристикам, режимам решения, содержащиеся в ТЗ на эти задачи.
1.1.4. Анализ возможностей разработчика
На основе анализа всех предъявленных требований выделим основные технические и программные возможности разработчика:
1). Программное обеспечение для ГВКГ по требованию заказчика, должно быть реализовано на ПЭВМ IBM PC с операционной системой Windows 95 (или Windows NT 4.0 Workstation), обладающей возможностью подключения в локальную сеть.
2). Программное обеспечение обучающей системы по курсу "Экология и охрана труда" реализовано на ПЭВМ IBM PC с операционной системой MS DOS 6.0 для автономного режима функционирования.
3). Программное обеспечение системы по курсу "Экономика" должно быть реализовано на ПЭВМ IBM PC с операционной системой Windows 95 или Windows NT.
1.2. Синтез и обоснование проектных решений
1.2.1. Архитектура РИСК II
Использование в работе лечебного учреждения средств вычислительной техники является сегодня естественной необходимостью, в значительной мере определяющей уровень медицинской науки и непосредственно оказывающей влияние на диагностику заболеваний пациентов.
Крупным медицинским учреждением Московского военного округа и всей Российской армии является Главный Военный Клинический Госпиталь им. акад. Н.Н. Бурденко. Он курирует работу других госпиталей, таких как окружной военный госпиталь в г. Подольске, гарнизонные госпитали в г. Красногорске, Москве и т.д., а также ряда центральных поликлиник МО РФ.
По своей структуре госпиталь им. академика Бурденко является сложным многопрофильным лечебным учреждением, обеспечивающим как амбулаторное, так и стационарное обследование и лечение пациентов. В состав госпиталя входят:
1) основные лечебные отделения: операционное, переливания крови, терапевтическое, интенсивной терапии, кардиологии, гастроэнтерологии и др.;
2) вспомогательные лечебные отделения: приемное, лечебной физкультуры, физиотерапии, стоматологии и другие;
3) лаборатории: диагностики, биологическая, клиническая и другие;
4) административные и обеспечивающие подразделения: отдел материально-технического снабжения, отдел кадров, отделение медицинской статистики, аптека, склад, отдел гражданской обороны, отдел охраны труда, бухгалтерия, экономический отдел и другие.
За основу при определении структуры госпитальной информационной системы, состава и содержания базы данных, состава программных средств и подсистем необходимо положить комплекс задач, обеспечивающих лечебный процесс в отделениях. Система должна обеспечивать выполнение следующих функций:
автоматизация выполнения расчетов и проведения анализа полученных результатов функциональных, лабораторных и рентгенологических исследований, а также доведение результатов до лечащих врачей;
получение справок о наличии лекарственных средств и медицинского оборудования;
передача заявок на питание больных и лекарственные средства;
автоматизированное формирование и выдача отчетных и справочных документов;
планирование проведения консультаций и исследований, контроль их исполнения;
обеспечение обмена информации между лечебными и обеспечивающими подразделениями госпиталя.
Кроме этого госпитальная информационная система должна иметь программные средства, обеспечивающие печатание, редактирование, хранение текстовой и графической информации, статистическую обработку данных, получение справок по медицинской литературе, а также результатов анализа деятельности лечебных отделений и ряд других.
При автоматизации лечебного процесса в отделениях многопрофильного медицинского учреждения необходимо рассматривать его как сложный комплекс различных методов получения информации о больном, ее анализе и принятия решения о лечебном воздействии на основе этой информации.
Он требует четкого взаимодействия всех обеспечивающих его подразделений. При этом на всех этапах лечения должен создаваться машинный документ, отражающий динамику состояния больного, методы его лечения и являющийся частью автоматизированной истории болезни. Результаты каждого этапа должны вводиться в ЭВМ.
Внедрение такой системы позволит повысить качество документации, уровень обследования и диагностики лечения, а также создать базу данных обо всех лечившихся в лечебном учреждении.
На основе такой структуры ГВКГ, была разработана архитектура РИСК II, приведенная на рис.1.1.
На данном этапе, автоматизации подлежит деятельность медицинской части, 7-го неврологического отделения и бухгалтерии госпиталя.
В настоящем КДП этой проблеме посвящена глава 2, в которой проводится разработка математического обеспечения комплекса задач "Оценка эффективности функционирования военно-медицинского учреждения" для медицинской части.
1.2.2. Организация взаимодействия исполнителей
На основе разработанной архитектуры РИСК II и требованиями Заказчика на текущем этапе общий объем работ был распределен между исполнителями в соответствии с делением на классы задач, стоявших перед разработчиками. Работа над проектом проводилась разработчиками СКБ 2 в составе:
Чихирев Р.Б. - разработка модуля статистической обработки и анализа данных КЗ "Оценка эффективности работы военного госпиталя" - главный конструктор, ответственный за комплексную задачу по курсу “Экология и охрана труда”;
Базин В.В.. - разработка КЗ "Болезни печени" - первый заместитель главного конструктора, ответственный за комплексную задачу по курсу "Гражданская оборона";
Баймеев Р.Х. - заместитель главного консруктора по задаче по курсу “Экономика”;
Сачков А.В. - помошник главного конструктора.
Взаимодействие между исполнителями по решаемым задачам осуществлялась в соответствии с приведенной на рис. 1.2 матрицей взаимодействия.
На разработку комплексного дипломного проекта было выдано техническое задание (ТЗ) (Приложение 1), в котором автору предлагалось решить следующие комплексные задачи:
1. Провести системный анализ и синтез РИСК II.
2. Разработать математическое и программное обеспечение статистической обработки и анализа данных для комплекса задач "Оценка эффективности работы военного госпиталя".
3. Разработать автоматизированную обучающую систему по курсу "Гражданская оборона".
4. Разработать информационное обеспечение для автоматизированной обучающей системы по курсу "Экология и охрана труда".
5. Разработать и отладить программное обеспечение для системы оценки финансового состояния предприятия по курсу "Экономика".
Учитывая вышеизложенное, в соответствии с выданным на разработку техническим заданием, основные требования на разработку дипломного проекта являются следующими:
1) Провести обследование ГКВГ им. Бурденко и выявить ряд первоочередных задач, требующих автоматизации решения.
2) Для ПЭВМ IBM PC AT в среде Windows 95 или Windows NT Workstation 4.0 разработать математическое и программное обеспечение статистической обработки и анализа данных для комплекса задач "Оценка эффективности работы военного госпиталя".
3) Разработать рекомендации по защите оператора и ПЭВМ от поражающих факторов ядерного взрыва и землетрясения по курсу "Гражданская оборона".
4) Для ПЭВМ IBM PC AT в среде MS DOS разработать обучающую систему по курсу "Экология и охрана труда", представляющую собой компьютерный лабораторный практикум по требуемым разделам предмета и состоит из информационной и контролирующей части, которые управляются сценарием обучения.
5) Разработать программное обеспечение для системы анализа финансового состояния предприятия по курсу "Экономика".
6) В дипломном проекте необходимо провести технико-экономическую оценку разработки и определить перспективы развития РИСК II.
7) Программные продукты должны обеспечивать реализацию функций, заданных в ТЗ на эти средства.
8) На программные продукты должна быть разработана пользовательская документация в составе:
руководство системного программиста;
руководство программиста;
руководство оператора..
1.2.3. Обоснование выбора программных средств
1.2.3.1. Операционная среда
Операционные среды: MS DOS 5.0., Windows 3.1 (или Windows for Workgroups 3.11), Windows 95 (или Windows NT Workstation 4.0) определена требованиями Заказчика, вытекающими из проектных работ, реализуемых в рамках выполнения ОКР “Тонус”.
1.2.3.2. Инструментальные средства разработки
В качестве средств разработки специального программного обеспечения была выбрана система Borland C++ Builder 1.0 Client/Server. Выбор обуславливается тем, что с его помощью можно в кратчайшие сроки разработать быстрое, компактное и полноценное Windows-приложение, работающее с базами данных.
Для разработки программного обеспечения по курсу "Экономика" был выбран MSM 4.3, так как программа должна будет работать под операционными системами Windows 95.
Для разработки программного обеспечения по курсу "Экология и охрана труда" был выбран Borland C++ 5.0., так как программа должна будет работать под операционной системой MS DOS 5.0 по требованию кафедры.
Для разработки программного обеспечения по курсу "Гражданская оборона" был выбран Visual Basic 4.0., так как программа должна будет работать под операционной системой Windows 95 по требованию кафедры.
Для связи с физическими таблицами используется специальная программа Borland Database Engine 4.0.
Выводы по главе 1
В данной главе содержатся результаты системного анализа и синтеза РИСК II, а именно:
Проведен анализ замысла, целей, направлений и этапов разработки РИСК II;
Проведен анализ требований заказчика и возможностей разработчика. результаты обследования объектов заказчика:
Разработана архитектура РИСК II, представляющая собой совокупность территориально удаленных объектов (медицинских учреждений), взаимодействующих между собой через систему обмена данными. Внутри объектов взаимодействие осуществляется посредством локальных вычислительных сетей. Для разработки комплекса средств автоматизации интерес представляет ЛВС госпиталя.
На основе разработанной архитектуры РИСК II и требований Заказчика на данном этапе было организовано взаимодействие исполнителей для решения поставленных задач.
Проведено обоснование использования программных средств, необходимых для разработки и эксплуатации задач.
ГЛАВА 2. МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ КОМПЛЕКСА ЗАДАЧ "ОЦЕНКА ЭФФЕКТИВНОСТИ ФУНКЦИОНИРОВАНИЯ ВОЕННО-МЕДИЦИНСКОГО УЧРЕЖДЕНИЯ”
2.1 Постановка задачи и её спецификация
Основной целью разработки КЗ “Оценка эффективности работы военного госпиталя методом главных компонент” является автоматизация обработки статистических данных, представляющих собой показатели функционирования подразделений ГВКГ имени академика Н.Н. Бурденко.
Для повышения эффективности использования коечного фонда требуется объективная оценка показателей работы отделений и центров госпиталя. В этой связи комплекс задач “Оценка эффективности функционирования военно-медицинского учреждения”, должен позволять по совокупности показателей, характеризующих различные аспекты функционирования отделений медицинского учреждения, определить сравнительную эффективность их работы. Одним из приемлемых и достаточно простых в реализации математических методов решения поставленной задачи является метод главных компонент (МГК).
Метод главных компонент, сущность которого состоит в сведении множества показателей к нескольким суммарным интегральным оценкам, в данном случае обладает существенными преимуществами [3] по сравнению с другими статистическими методами, такими как дисперсионный, регрессионный и факторный анализы [7,9].
Однако, недостаток метода главных компонент состоит в сложности нахождения собственных чисел и собственных векторов матриц большой размерности [3,6] при ручной обработке которых, невозможно получить достаточно точные результаты за приемлемое время, поэтому необходима ее автоматизация с применением ЭВМ.
Для достижения цели проекта требуется решить следующие задачи:
изучить теоретические основы метода главных компонент;
разработать математическую модель работы отделений учреждения, т. е. выделить исследуемые и измеряемые параметры, установить зависимости между ними и дать математическую постановку задачи;
выбрать метод решения задачи;
разработать алгоритм и программу, реализующей этот метод.
2.1.1 Метод главных компонент
Объекты изучения в прикладных областях могут быть всесторонне охарактеризованы только при помощи целого набора признаков. При характеристике объекта исследования случайными многомерными признаками строится корреляционная матрица, элементы которой учитывают тесноту линейной стохастической связи. Однако при большом числе признаков характеристика выявленных связей становится труднообозримой задачей. Возникает потребность в описании объектов меньшим числом обобщенных показателей, например факторами или главными компонентами. Главные компоненты являются более удобными укрупненными показателями. Они отражают внутренние объективно существующие закономерности, которые не поддаются непосредственному наблюдению.
При корреляционном или регрессионном анализе на основе полученной корреляционной матрицы строятся, например, уравнения регрессии, связывающие факторные признаки с результативными. Сами уравнения регрессии являются конечной целью исследования. По ним проводится содержательная интерпретация полученных результатов и принимаются соответствующие решения. При использовании метода главных компонент корреляционная матрица используется как исходная ступень для дальнейшего анализа наблюдаемых ранее значений признаков. Появляется возможность извлечения дополнительной информации об изучаемом процессе или объекте.
2.1.2 Задачи решаемые методом главных компонент
С помощью метода главных компонент можно решить четыре основных типа задач.
Первая задача - отыскание скрытых, но объективно существующих закономерностей, определяемых воздействием внутренних и внешних причин.
Вторая задача - описание изучаемого процесса числом главных компонент m, значительно меньшим, чем число первоначально взятых признаков n. Главные компоненты адекватно отражают исходную информацию в более компактной форме. Выделенные главные компоненты содержат больше информации, чем непосредственно замеряемые признаки.
Третья задача - выявление и изучение стохастической связи признаков с главными компонентами. Выявление признаков, наиболее тесно связанных с данной главной компонентой., что позволяет принять научно обоснованное управляющее воздействие, способствующее повышению эффективности функционирования изучаемого процесса.
Существует возможность использования полученных данных для решения четвертой задачи, которая заключается в прогнозировании хода развития процесса на основе уравнения регрессии, построенного по полученным главным компонентам.
Негативной стороной метода является сложность математического аппарата, требующая знания как теории вероятностей и математической статистики, так и линейной алгебры и математического обеспечения ЭВМ. Однако, в настоящее время, в связи с большим прогрессом в области вычислительной техники и программного обеспечения ЭВМ, большинство вычислительных трудностей относительно легко разрешаются.
2.1.3 Анализ условий допущений и ограничений задачи
В ходе алгоритма нахождения главных компонент требуется найти собственные векторы и собственные значения матрицы парных корреляций. На настоящий момент наиболее быстрыми являются алгоритмы QR разложения [2,5] и их частные случаи. В частности, в связи с тем, что получающиеся в ходе исследования матрицы являются симметричными (симметрическими), то для нахождения собственных чисел и собственных векторов удобен относительно простой метод Якоби [6].
2.2. Обоснование проектных решений
2.2.1. Математическая модель метода главных компонент
Известно, что истинная величина изучаемого объекта содержит по крайней мере два компонента: истинную характеристику оцениваемого явления и ошибку измерения, которая зависит от большого числа причин. Если измерения проводятся в таких областях, как экономика, биология, медицина, психология, то добавляется третья составляющая, зависящая от вариабельности изучаемого признака, индивида или объекта. Таким образом, зарегистрированное значение может быть представлено в виде суммы , где - зарегистрированное значение изменяемого признака н i-ого объекта исследования, - истинное значение (математическое ожидание) измеряемого признака у i - ого индивида, - вариативное значение изменяемого признака i - ого индивида, - ошибка измерения при определении j - ого признака у i - ого объекта исследования.
В основу метода главных компонент положена линейная модель. Если N - число исследуемых объектов, n - число признаков, то математическая модель принимает вид:
, (2.1)
где r,j =1,2,...n; f - r-я главная компонента; - вес r-ой компоненты в j-ой переменной; -нормированное значение j-ого признака, полученное из эксперимента, на основе наблюдения. В матричной форме y=Af.
Для исследования начальными данными являются ковариации или коэффициенты корреляции. В дальнейшем будем использовать коэффициенты корреляции.
Для установления связи между главными компонентами и коэффициентами корреляции перепишем формулу для любого i в виде:
(2.2)
Вариабельность, зависящая от особенностей объектов, является причиной разброса показаний признаков от объекта к объекту относительно математического ожидания. Полная дисперсия выражается через дисперсию главных компонент, а так как дисперсии нормированных величин равны единице, то можно записать:
.(2.3)
Поскольку главные компоненты ортогональны, то выражение упрощается . Слева записана дисперсия, а справа доли полной дисперсии, относящиеся к соответствующим главным компонентам. Дисперсия является характеристикой изменчивости случайной величины, её отклонений от среднего значения. Полный вклад r-ого факторов дисперсию всех n признаков определяет ту долю общей дисперсии, которую данная главная компонента объясняет.
Этот вклад вычисляется по формуле:
(2.4)
Различают два вида компонент, общие и генеральные. Генеральные главные компоненты существенно связаны со всеми признаками задачи, общие - более чем с одним.
Несмотря на то, что вместо признаков получено такое же количество главных компонент, вклад в общую дисперсию большинства оказывается небольшим. Можно исключить из рассмотрения те компоненты, вклад которых мал.
Итак, при проведении эксперимента мы получаем результаты в виде матрицы наблюдаемых величин ХN,n где N - число наблюдаемых объектов, n - число измеряемых признаков.
Элементы данной матрицы центрируются и нормируются, и мы получаем матрицу Y.
Выясним, что представляют собой весовые коэффициенты между признаками и главными компонентами. Для этого умножим на первую главную компоненту и получим:
. (2.5)
Чтобы получит коэффициент корреляции между j-ым признаком и первой главной компонентой, просуммируем левую часть по всем N наблюдениям и разделим сумму на число наблюдений N, тогда правая часть примет вид:
. (2.6)
Учитывая, что , перепишем выражение:
, (2.7)
где -коэффициент корреляции между j-ым признаком и r-й главной компонентой, - коэффициент корреляции между r-й и первой главной компонентой, - весовые коэффициенты, которые называются в факторном анализе коэффициентами отображения. Поскольку в методе главных компонент компоненты не коррелированны между собой, можно записать =0 (r¹ k), поэтому =. И в общем случае в методе главных компонент можно написать =.
Матрица наблюденных коэффициентов корреляции может быть представлена так:
R=YY¢ , (2.8)
где Y - матрица нормированных значений признаков, Y¢ - транспонированная матрица.
Коэффициент корреляции характеризует связь между двумя случайными величинами Хj и Хr в случае линейной корреляции между ними. Коэффициент корреляции представляет эмпирический первый основной смешанный момент. Для любых признаков и случайных величин , (2.9)
Среднее значение случайной величины Хj определяется по формуле
, (2.10)
а среднеквадратическое отклонение
. (2.11)
В результате преобразований корреляционной матрицы можно получить y=UL 1/2f, где L -матрица собственных значений матрицы R, U - матрица из собственных векторов R. Отсюда можно заключить, что искомая матрица А может быть определена как А=UL 1/2, или, соответственно для столбцов .
2.2.2. Геометрическая интерпретация метода главных компонент
Геометрической интерпретацией метода главных компонент служит переход к новой системе координат, где осями служат главные компоненты распределения. [3,11].
Рассмотрим простейший двумерный случай. Она представлена на Рис 2.1.
Рис. 2.1. Геометрическая интерпретация метода главных компоент для двумерного случая
2.2.3 Блок схема алгоритма
Блок схема алгоритма метода главных компонент приведена на рисунке 2.2.
Рис 2.2. Блок схема алгоритма метода главных компонент
2.2.4 Обратная факторная задача
Как было указано выше, каждая главная компонента даёт некую новую общую характеристику всем изучаемым объектам. Причем каждая компонента является функцией особенностей каждого из изучаемых объектов. Часто нас интересует случай, когда нас интересуют качества объектов, связанные с одной или несколькими главными компонентами. Если было бы возможно получить значение компоненты для каждого из рассматриваемых пациентов, то их можно было бы ранжировать и классифицировать по такой важной интегральной особенности, как тяжесть ранения.
Обратимся к модели метода главных компонент. Развернём равенство , для j-ого признака:
(2.13)
Выразим теперь значения главных компонент через значения признаков. Для r-ой компоненты:
. (2.14)
Предложенный метод не является единственным, зато он легко программируется на ЭВМ.
2.2.5 Проблема собственных чисел и собственных значений
При решении задачи методом главных компонент возникает проблема вычисления собственных чисел и собственных векторов. В соответствующей литературе, посвященной методу главных компонент [4], для решения этой проблемы рекомендуется воспользоваться стандартными подпрограммами и библиотеками, входящими в поставку программного обеспечения ЭВМ. Однако, в связи с грандиозным прогрессом в области вычислительной техники, развитием персональных ЭВМ, и переориентацией рынка программных средств, данные рекомендации теряют актуальность. Очевидно так же, что и при написании этой методической литературы, данные рекомендации не являлись идеальными, так как при использовании стандартных подпрограмм никак не используются свойства матриц, получающихся при расчетах методом главных компонент.
2.2.6 Методы нахождения собственных чисел и собственных векторов
2.2.6.1 Постановка задачи
Собственным значением квадратной матрицы А называется такое число l , что для некоторого ненулевого вектора х имеет место равенство Ах=l х. Любой ненулевой вектор х, удовлетворяющий этому равенству, называется собственным вектором матрицы А, соответствующим собственному значению l . Все собственные векторы матрицы определены с точностью до числового множителя. Множество всех собственных значений матрицы А называется спектром матрицы А.
Собственные значения l матрицы А являются корнями алгебраического уравнения:
(2.16)
которое называется характеристическим уравнением матрицы А.
Известно, что характеристическое уравнение имеет в области комплексных чисел ровно m корней l 1, l 2, ..., l m (с учетом их кратности). Таким образом каждая квадратная матрица А порядка m обладает набором из m собственных значений l 1, l 2, ..., l m.
Если матрица А симметричная, то все её собственные значения являются вещественными числами. В противном случае, для несимметричных матриц возможно наличие комплексных собственных значений вида l =a + ib с ненулевой мнимой частью. В этом случае собственным значением матрицы будет и комплексно-сопряженное число.
Численные методы решения проблемы собственных значений до конца 40-х годов, сводились, в основном, к решению характеристического уравнения. При реализации такого подхода, основные усилия были направлены на разработку эффективных методов быстрого вычисления коэффициентов характеристического уравнения. Такие методы имеют названия прямых. Популярным методом этого типа является метод Данилевского [10].
Указанный подход становится неудовлетворительным при вычислении собственных значений матриц, имеющих порядок m в несколько десятков (и тем более сотен). В частности, одним из недостатков является так же то, что точность вычисления корней многочлена высокой степени данным методом чрезвычайно чувствительна к погрешности в коэффициентах, и на этапе вычисления последних может быть в значительной степени потеряна информация о собственных значениях матрицы.
С появлением ЭВМ широкое распространение получили интерполяционные методы решения проблемы собственных значений, не использующие вычисление характеристического многочлена. В настоящее время эти методы почти полностью вытеснили прямые.
2.2.6.2 QR разложение матрицы
В настоящее время лучшими методами вычисления всех собственных значений квадратных заполненных матриц общего вида являются алгоритмы, основанные на QR разложении, которое позволяет получить представление исходной матрицы А в виде произведения ортогональной матрицы Q на верхнюю треугольную матрицу R. Планарные (плоские) вращения (они же вращения Якоби или Гивенса) представляют собой наиболее простое средство получения искомого ортогонального разложения. Метод планарных вращений может быть естественным образом обобщен для получения более удобных форм ортогональных вращений, осуществляемых в пространстве с произвольным числом измерений. Такими обобщениями является алгоритм Хаусхольдера (метод отражений) и модифицированный алгоритм Грама - Шмидта [1,8].
Очевидно, что для полного разложения, независимо от применяемого алгоритма, требуется некая последовательность ортогональных преобразований, которые могут быть представлены матрицами Q0,Q1,...,Qm. Таким образом, полученная в результате матрица примет вид Q= Q0,Q1,...,Qm.
2.2.6.3 Метод вращений ( метод Гивенса)
Отдельное планарное вращение, применяемое к матрице А, эквивалентно умножению её на матрицу в