Министерство образования Российской Федерации
ОРЕНБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Финансово-экономический факультет
Кафедра МММЭ
КУРСОВАЯ РАБОТА
по дисциплине "Многомерные статистические методы"
Компонентный и факторный анализ
ОГУ 061700.5001.06 00
Руководитель работы
__________________ Реннер А.Г.
“____”_____________2001г.
Исполнитель
студент гр.99ст
______________ Рамазанов М.И.
“_____”____________2001г.
Оренбург 2001
Содержание
Задание……………………………………………………………………………3
Введение……………………………………………………………………….….4
1 Исследование на мультиколлинеарность……………………………..……5
2 Метод главных компонент………………………………………………..….7
2.1 Вычисление главных компонент……………………………………….…7
2.2 Экономическая интерпретация полученных главных компонент…..…12
2.3 Матрица наблюденных значений главных компонент……………...….12
2.4 Классификация объектов…………………………………………………13
2.5 Уравнение регрессии на главные компоненты………………………….13
3 Факторный анализ………………………………...…………………………15
3.1 Преобразование матрицы парных коэффициентов корреляции в редуцированную матрицу, получение матрицы факторных нагрузок и экономическая интерпретация ………………………………………………..…...16
3.2 Графическая классификация объектов по двум общим факторам…….19
3.3 Переход к обобщенным факторам с помощью варимаксного вращения ……………………………………………………………………...19
3.4 Построение функции регрессии на выделенные общие факторы…......21
Список использованной литературы………………………………………...22
Приложения………………………………………………………..………...…23
Задание
По имеющимся данным производственно-хозяйственной деятельности предприятий машиностроения:
Y1 – производительность труда;
X5 – удельный вес рабочих в составе ППП;
X6 – удельный вес покупных изделий;
X7 – коэффициент покупных изделий;
X9 – удельный вес потерь от брака;
X17 – непроизводственные расходы.
1. Выявить наличие мультиколлинеарности.
2. Снизить размерность признакового пространства и удалить наличие
мультиколлинеарности следующими методами:
Метод главных компонент:
- для факторных признаков найти оценку матрицы парных коэффициентов корреляции, найти собственные числа и собственные вектора;
- на основании матрицы собственных чисел определить вклад главных компонент в суммарную дисперсию признаков, отобрать и указать m (m , то гипотеза Н0 отвергается и матрица является значимой, следовательно, имеет смысл проводить компонентный анализ.
Проверим гипотезу о диагональности ковариационной матрицы
Выдвигаем гипотезу:
Н0: соv=0,
Н1: соv
Строим статистику , распределена по закону с
степенями свободы.
=123,21, (0,05;10) =18,307 т.к > то гипотеза Н0
отвергается и имеет смысл проводить компонентный анализ.
Для построения матрицы факторных нагрузок необходимо найти собственные числа матрицы , решив уравнение.
Используем для этой операции функцию eigenvals системы MathCAD, которая возвращает собственные числа матрицы:
Т.к. исходные данные представляют собой выборку из генеральной
совокупности, то мы получили не собственные числа и собственные
вектора матрицы, а их оценки. Нас будет интересовать на сколько “хорошо” со
статистической точки зрения выборочные характеристики описывают
соответствующие параметры для генеральной совокупности.
Доверительный интервал для i-го собственного числа ищется по формуле:
Доверительные интервалы для собственных чисел в итоге принимают вид:
Оценка значения нескольких собственных чисел попадает в доверительный интервал других собственных чисел. Необходимо проверить гипотезу о кратности собственных чисел.
Проверка кратности производится с помощью статистики
, где r-количество кратных корней.
Данная статистика в случае справедливости распределена по закону
с числом степеней свободы . Выдвинем гипотезы:
Так как , то гипотеза отвергается, то есть собственные числа
и не кратны.
Далее,
:
Так как , то гипотеза отвергается, то есть собственные числа
и не кратны.
:
Так как , то гипотеза отвергается, то есть собственные числа
и не кратны.
Необходимо выделить главные компоненты на уровне информативности
0,85. Мера информативности показывает какую часть или какую долю дисперсии
исходных признаков составляют k-первых главных компонент. Мерой
информативности будем называть величину:
I1==0,458
I2==0,667
I3=
На заданном уровне информативности выделено три главных компоненты.
Запишем матрицу =
Для получения нормализованного вектора перехода от исходных признаков к главным компонентам необходимо решить систему уравнений: , где - соответствующее собственное число. После получения решения системы необходимо затем нормировать полученный вектор.
Для решения данной задачи воспользуемся функцией eigenvec системы
MathCAD, которая возвращает нормированный вектор для соответствующего
собственного числа.
В нашем случае первых четырех главных компонент достаточно для достижения
заданного уровня информативности, поэтому матрица U (матрица перехода от
исходного базиса к базису из собственных векторов)
Строим матрицу U, столбцами которой являются собственные вектора:
U=.
Матрица весовых коэффициентов:
А=.
Коэффициенты матрицы А являются коэффициентами корреляции между центрировано – нормированными исходными признаками и ненормированными главными компонентами, и показывают наличие, силу и направление линейной связи между соответствующими исходными признаками и соответствующими главными компонентами.
2.2 Экономическая интерпретация полученных главных компонент
Коэффициент матрицы А представляют собой коэффициенты корреляции между i-ой главной компонентой и j-ым исходным признаком.
Так как первая главная компонента зависит главным образом от первого
(X5 – удельный вес рабочих в составе ППП) и третьего (X7 – коэффициент
сменности оборудования) исходного признака, следовательно ее можно
обозначить как «Эффективность основного производства». Вторая главная
компонента тесно взаимосвязана со вторым (X6 – удельный вес покупных
изделий) и четвертым (X9 – удельный вес потерь от брака) исходными
признаками, ее можно обозначить как «Удельный вес затрат не приносящих
прибыль». Третья главная компонента взаимосвязана с четвертым исходным
признаком, поэтому ее обозначим «Удельный вес потерь от брака».
2.3 Матрица наблюденных значений главных компонент.
Мы получили ненормированные главные компоненты. Проведя нормирование
полученных центрированных , получим . При нормировании
дисперсия должна равняться 1, . Для этого нужно разделить на
среднеквадратическое отклонение .
Обозначим - это матрица весовых коэффициентов, с помощью которой устанавливается связь между нормированными исходными признаками и нормированными главными компонентами.
Модель метода главных компонент:
где
- значение I-той стандартизированной переменной по j-ому объекту
наблюдения;
- m-тая главная компонента по j-ому объекту наблюдения;
- весовой коэффициент m-той главной компоненты и I-той переменной.
Эту матрицу будем строить, исходя из соотношения , где - диагональная матрица, на главной диагонали которой стоят дисперсии соответствующих главных компонент в минус первой степени;
- транспонированная матрица факторных нагрузок;
Х- матрица наблюденных значений исходных признаков.
Данная формула хороша тем, что она верна и в том случае, если матрица
А не квадратная (т.е. выделено m