КАТЕГОРИИ:

Главная
Случайная страница
Познавательное
Новые статьи
Контакты
Заказать работу

Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Проверка качества модели

⇐ Предыдущая 1 234 5 6 7 Следующая ⇒

Замечание

Замечание.

Пример

Пусть зависимая переменная Y – квартальная прибыль девяти компаний одной отрасли (в млн. руб.), а фактор X – объем продаж товара этих компаний за квартал (в тыс. шт.). Исходные данные представлены в таблице 1.

Таблица 1

№ п.п.	Y	X

Решение:

1) найти параметры уравнения линейной регрессии, дать экономическую интерпретацию коэффициента регрессии

Диаграмма рассеяния (рис. 4) демонстрирует наличие прямой и достаточно тесной связи переменных.

Рис. 4. Диаграмма рассеяния исходных данных

Для решения задачи построим расчетную таблицу 2:

№ п.п.	Yi	X	X-Xcp	(X-Хcp)^2	Y-Ycp	(X-Xcp)*(Y-Ycp)	Yip	e_i
			-9		-31		31.65	-6.65
			-7		-22		37.07	-3.07
			-4		-14		45.2	-3.2
			-6		-5		39.78	11.22
					-1		56.04	-1.04
							64.17	2.83
							75.01	-2.01
							69.59	6.41
							85.85	-4.85
Сумма								-0.36
Среднее

Таблица 2

Уравнение регрессии:

Y_i=-90.3 + 2.71*X_i + е_i,

при этом

Y_i_р=-90.3 + 2.71*X_i.

Предпоследний столбец в таблице 1 получен в результате подстановки в модель регрессии фактических значений фактора. Последний столбец представляет ошибки моделирования .

Экономический смысл коэффициента регрессии:

при изменении объема продаж компании (Х) на 1 тысячу штук прибыль (Y) будет меняться в ту же сторону на 2,71 млн. руб.

Результат моделирования представлен на рисунке 5.

Рис. 5. Результаты приближения фактических значений прибыли линией регрессии

Уравнение регрессии и целый ряд его характеристик (в т.ч. (Предсказанное Y) и (Остатки)) можно получить, воспользовавшись инструментом Регрессия в пакете Анализ данных в Excel (таблицы 3, 4).

Таблица 3

	Коэффициенты
Y-пересечение	-90.33160622
X	2.70984456

Таблица 4

Наблюдение	Предсказанное Y	Остатки
	31.61	-6.61
	37.03	-3.03
	45.16	-3.16
	39.74	11.26
	56.00	-1.00
	64.13	2.87
	74.97	-1.97
	69.55	6.45
	85.81	-4.81

■

Анализ вариации зависимой переменной в уравнении регрессии [3]

Особую роль в эконометрических исследованиях играют различные виды дисперсий (вариаций). Дисперсия – это величина, характеризующая степень отклонения (разброса, рассеяния) каких-либо величин друг относительно друга. В зависимости от величин рассматривают разные дисперсии.

Рассмотрим вариацию (дисперсию, разброс) значений зависимой переменной Y вокруг их среднего значения .

Разобьем отклонения на две части

.

Тогда дисперсия Y представляется в виде трех слагаемых

.

Можно показать (самостоятельно), что третье слагаемое в этом равенстве равно нулю. Таким образом,

. (3)

Пояснения к формуле (3)

1. TSS = – общая сумма квадратов отклонений (общая дисперсия), которая характеризует степень разброса фактических значений исследуемой переменной Y около их среднего значения (рис.6);

Рис. 6. Общая сумма квадратов отклонений

1. RSS = – сумма квадратов отклонений, объясненная регрессией (факторная дисперсия), характеризует степень отклонения расчетных значений исследуемой переменной от среднего значения (рис.7);

Рис. 7. Объясненная (факторная) сумма квадратов отклонений

2. ESS = – остаточная сумма квадратов отклонений (остаточная дисперсия), оценивает степень отклонения линии регрессии от фактических значений исследуемого показателя (рис.8).

Рис. 8. Остаточная сумма квадратов отклонений

Любая сумма квадратов отклонений связана с числом степеней свободы, т.е. числом свободы независимого варьирования признака. Число степеней свободы равно разности между числом независимых наблюдений случайной величины n и числом связей, ограничивающих свободу их изменения. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Число степеней свободы должно показать, сколько независимых отклонений из n возможных требуется для образования данной суммы квадратов[4].

Для общей суммы квадратов TSS = необходимо (n-1) независимых отклонений, т.к. по совокупности из n единиц после расчета среднего уровня свободно варьируют лишь (n-1) отклонение.

Факторная сумма квадратов RSS = при линейной регрессии зависит только от одной константы – коэффициента регрессии . Поэтому данная сумма имеет одну степень свободы.

Подобно равенству (3), можно установить равенство между числом степеней свободы соответствующих сумм квадратов

,

из которого видно, что число степеней свободы остаточной суммы квадратов при линейной регрессии составляет (n-2). Действительно, две степени свободы теряются при определении двух параметров регрессии из системы нормальных уравнений.

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений или дисперсию на одну степень свободы:

,

,

.

Дисперсии на одну степень свободы приводят различные дисперсии к сравнимому виду.

Различные суммы квадратов отклонений, число степеней свободы и дисперсии на одну степень свободы можно получить в отчете по регрессионному анализу (таблица Дисперсионный анализ). Соответствующие результаты по данным нашего примера приведены в таблице 5.

Таблица 5

Дисперсионный анализ
	df	SS	MS
Регрессия		2834.50	2834.50
Остаток		267.50	38.21
Итого		3102.00

Пояснения к таблице

1. Столбец df – число степеней свободы.

2. Столбец SS – суммы квадратов, соответственно факторная, остаточная, общая.

3. Столбец MS – дисперсии на одну степень свободы, соответственно факторная и остаточная.

В задачу регрессионного анализа входит не только построение самой модели, но и исследование ее соответствия реальным (фактическим) данным.

Оценки и параметров регрессионного уравнениядолжны обладать определенными свойствами. Они должны быть несмещенными, состоятельными и эффективными.

Несмещенность оценок означает, что математическое ожидание остатков равно 0.

Оценки считаются эффективными, если они характеризуются наименьшей дисперсией.

Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки.

Указанные критерии оценок (несмещенность, состоятельность и эффективность) обязательно учитываются при разных способах оценивания. МНК строит оценки регрессии на основе минимизации суммы квадратов остатков. Поэтому для проверки названных критериев важно исследовать поведение остаточных величин регрессии. Условия, необходимые для получения несмещенных, состоятельных и эффективных оценок, представляют собой предпосылки МНК, соблюдение которых желательно для получения достоверных результатов регрессии.

Исследования остатков предполагают проверку наличия следующих пяти предпосылок МНК:

1) случайный характер остатков;

2) независимость остатков или отсутствие их автокорреляции;

3) остатки подчиняются нормальному распределению;

4) нулевая средняя величина остатков (или их математическое ожидание), не зависящая от уровней фактора Х;

5) гомоскедастичность остатков – дисперсия каждого отклонения одинакова для всех значений фактора.

Теорема Гаусса-Маркова. Если регрессионная модель удовлетворяет предпосылкам1, 2, 4, 5,то оценки и имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

Выполнение предпосылки 3 (нормальность распределения остатков) позволяет использовать критерии t и F (см. ниже)при анализе свойств модели и ее параметров.

Проверка первых четырех предпосылок представляет собой исследование адекватности модели определенным статистическим критериям. Этот материал подробно рассмотрен в курсе ЭММиПМ в теме «Моделирование и прогнозирование временных рядов»[5].

Рассмотрим подробнее исследование гомоскедастичности остатков. Остатки считаются гомоскедастичными, если для каждого значения фактора они имеют одинаковую дисперсию. Иными словами остатки распределены вдоль оси абсцисс случайно с одинаковой частотой и амплитудой. В этом случае на графике остатков они расположены в виде достаточно узкой горизонтальной полосы[6] (рис.9).

Рис. 9. Гомоскедастичные остатки

Если это условие не соблюдается, то имеет место гетероскедастичность остатков. Гетероскедастичные остатки имеют направленность в своем распределении (рис. 10).

Рис. 10. Гетероскедастичные остатки

При малом объеме выборки для оценки гетероскедастичности может использоваться метод Гольдфельда – Квандта, разработанный в 1965 году. Тест, предложенный этими учеными, включает в себя следующие шаги:

1. Упорядочение n наблюдений по мере возрастания переменной X.

2. Исключение из рассмотрения С центральных наблюдений; при этом (n-C):2>p, где р – число оцениваемых параметров ().

3. Разделение совокупности из (n-C) наблюдений на две группы (соответственно с малыми и большими значениями фактора Х) и определение по каждой из групп уравнений регрессии.

4. Определение остаточной суммы квадратов для первой (S1) и второй (S2) групп и нахождение их отношения: R=S1:S2 (в числителе должна стоять большая величина).

Вывод о гомоскедастичности делается с помощью F-критерия Фишера с (n-C-2p):2 (р – число оцениваемых в уравнении параметров; для парной регрессии р=2) степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Замечание

Табличное значение F -критерия можно найти с помощью статистической функции FРАСПОБР.

Протестируем данные нашего примера на наличие гомоскедастичности остатков.

Пример (продолжение).

2) проверить выполнение предпосылок МНК:

Проверку предпосылок 1 – 4 выполнить самостоятельно, используя материал дисциплины ЭММиПМ.

Проверка предпосылки 5:

1. Упорядочим переменную Y по возрастанию фактора Х (в Excel для этого можно использовать команду Данные – Сортировка – По возрастанию Х).

Исходные данные

Y	X

Упорядоченные данные

Y	X

2. Уберем из середины упорядоченной совокупности С=1/4*n=1/4*9 2 значения. В результате получим две совокупности по ½*(9-2)=4 значения соответственно с малыми и большими значениями Х.

3. Для каждой совокупности в отдельности выполним регрессионный анализ (рисунок 11).

Для первой совокупности:

Дисперсионный анализ
	df	SS	MS
Регрессия		200.0769	200.0769
Остаток		169.9231	84.96154
Итого

Для второй совокупности:

Дисперсионный анализ
	df	SS	MS
Регрессия		78.75	78.75
Остаток
Итого		102.75

Рис. 11.Фрагменты регрессионного анализа для первой и второй совокупностей соответственно

4. Найдем отношение полученных остаточных сумм квадратов (в числителе должна быть большая сумма):

R= 169,9/24 =

7.08

5. Вывод о наличии гомоскедастичности остатков делаем с помощью F-критерия Фишера с уровнем значимости и двумя одинаковыми степенями свободы:

Число степеней свободы:	(9-1-2*2):2=2
Fтаб(0,05;2;2)=

Так как , то обнаруживается наличие гомоскедастичности в остатках модели по отношению к фактору Х.

■

Замечание

При нарушении гомоскедастичности остатков модели и наличии автокорреляции в них рекомендуется заменять традиционный МНК обобщенным МНК (ОМНК), в основе которого лежит работа с предварительно преобразованными исходными данными[7].

Для анализа качества регрессионных моделей используется ряд дополнительных специфических характеристик. К ним относится, например, индекс корреляции:

Этот коэффициент является универсальным, так как отражает тесноту связи и точность модели, может использоваться при любой форме связи переменных. Для парной линейной модели индекс корреляции равен коэффициенту парной корреляции, т.е.

На практике чаще используется его квадрат, который называется коэффициентом детерминации:

, иногда выражают не в долях, а в процентах.

Коэффициент детерминации показывает,какая доля вариации (случайных колебаний, общей дисперсии) признака Y учтена в построенной модели и обусловлена случайными колебаниями включенного в нее фактора. Качество модели тем лучше, чем ближе к 1. Иными словами характеризует степень влияния включенных в модель факторов. Влияние факторов, не учтенных в модели, определяется тогда величиной 1- . Модель тем лучше, чем больше и меньше 1- .

Для оценки уровня точности регрессионных моделей используется также средняя относительная ошибка аппроксимации

.

Величина показывает, на сколько процентов в среднем фактические значения исследуемой величины отличаются от расчетных. Модель тем точнее, чем меньше . Часто наиболее приемлемыми считают значения .

В качестве меры точности модели применяют также оценку остаточной дисперсии или квадратный корень из нее , называемый стандартной ошибкой модели или среднеквадратическим отклонением.

Точность модели тем лучше, чем меньше ее стандартная ошибка (это же имеет место и при использовании для оценки уровня точности других видов ошибок). Однако, понятие «чем меньше» является относительным и зависит от порядка чисел, представляющих данные задачи. Поэтому модель считается точной, если стандартная ошибка модели меньше стандартной ошибки (среднеквадратического отклонения) результативного признака Y . Стандартную ошибку легко найти в Excel с помощью статистической функции СТАНДОТКЛОН.

Пример (продолжение).

3) вычислить коэффициент детерминации, найти среднюю относительную ошибку аппроксимации, сделать вывод о качестве модели

Необходимые предварительные расчеты представлены в таблице 6.

Таблица 6

№ пп Y Y-Yср e e^2 eотн (Y-Yср)^2 X^2

-31 -6.65 44.22 26.6

-22 -3.07 9.42 9.03

-14 -3.2 10.24 7.62

-5 11.22 125.89

-1 -1.04 1.08 1.89

2.83 8.01 4.22

-2.01 4.04 2.75

6.41 41.09 8.43

-4.85 23.52 5.99

Сумма -0.36 267.52 88.54

Среднее 9.84

;

вывод: 91,4 % случайной вариации исследуемого признака Y (прибыль) учтено в построенной модели и обусловлено случайными колебаниями включенного в нее фактора Х (объем продаж); влияние неучтенных в модели факторов () около 9 %.

вывод: фактические значения прибыли Y отличаются от модельных в среднем на 9.8 %; уровень точности модели достаточный.

Cтандартная ошибка модели и коэффициент детерминации выводятся в первой таблице «Регрессионная статистика» отчета по регрессионному анализу. Для нашей модели эта таблица представлена на рисунке 12.

Регрессионная статистика

Множественный R 0.956

R-квадрат 0.914

Нормированный R-квадрат 0.901

Стандартная ошибка 6.182

Наблюдения 9.000

Рисунок 12. Фрагмент регрессионного анализа

В нашем случае стандартная ошибка модели , а среднеквадратическое отклонение (или стандартная ошибка) Y . Так как < , то модель регрессии является точной.

■

⇐ Предыдущая 1 234 5 6 7 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2017-02-01; Просмотров: 227; Нарушение авторских прав?; Мы поможем в написании вашей работы!
Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopediasu.com - Студопедия (2013 - 2026) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.009 сек.