КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Проверка качества модели
Замечание Замечание. Пример Пусть зависимая переменная Y – квартальная прибыль девяти компаний одной отрасли (в млн. руб.), а фактор X – объем продаж товара этих компаний за квартал (в тыс. шт.). Исходные данные представлены в таблице 1. Таблица 1
Решение: 1) найти параметры уравнения линейной регрессии, дать экономическую интерпретацию коэффициента регрессии Диаграмма рассеяния (рис. 4) демонстрирует наличие прямой и достаточно тесной связи переменных.
Рис. 4. Диаграмма рассеяния исходных данных Для решения задачи построим расчетную таблицу 2:
Таблица 2
Уравнение регрессии: Yi=-90.3 + 2.71*Xi + еi, при этом Yiр=-90.3 + 2.71*Xi. Предпоследний столбец в таблице 1 получен в результате подстановки в модель регрессии фактических значений фактора. Последний столбец представляет ошибки моделирования Экономический смысл коэффициента регрессии: при изменении объема продаж компании (Х) на 1 тысячу штук прибыль (Y) будет меняться в ту же сторону на 2,71 млн. руб. Результат моделирования представлен на рисунке 5.
Рис. 5. Результаты приближения фактических значений прибыли линией регрессии Уравнение регрессии и целый ряд его характеристик (в т.ч. Таблица 3
Таблица 4
■ Анализ вариации зависимой переменной в уравнении регрессии [3] Особую роль в эконометрических исследованиях играют различные виды дисперсий (вариаций). Дисперсия – это величина, характеризующая степень отклонения (разброса, рассеяния) каких-либо величин друг относительно друга. В зависимости от величин рассматривают разные дисперсии. Рассмотрим вариацию (дисперсию, разброс) Разобьем отклонения
Тогда дисперсия Y представляется в виде трех слагаемых
Можно показать (самостоятельно), что третье слагаемое в этом равенстве равно нулю. Таким образом,
Пояснения к формуле (3) 1. TSS =
Рис. 6. Общая сумма квадратов отклонений 1. RSS =
Рис. 7. Объясненная (факторная) сумма квадратов отклонений 2. ESS =
Рис. 8. Остаточная сумма квадратов отклонений Любая сумма квадратов отклонений связана с числом степеней свободы, т.е. числом свободы независимого варьирования признака. Число степеней свободы равно разности между числом независимых наблюдений случайной величины n и числом связей, ограничивающих свободу их изменения. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Число степеней свободы должно показать, сколько независимых отклонений из n возможных требуется для образования данной суммы квадратов[4]. Для общей суммы квадратов TSS = Факторная сумма квадратов RSS = Подобно равенству (3), можно установить равенство между числом степеней свободы соответствующих сумм квадратов
из которого видно, что число степеней свободы остаточной суммы квадратов при линейной регрессии составляет (n-2). Действительно, две степени свободы теряются при определении двух параметров регрессии из системы нормальных уравнений. Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений или дисперсию на одну степень свободы:
Дисперсии на одну степень свободы приводят различные дисперсии к сравнимому виду.
Различные суммы квадратов отклонений, число степеней свободы и дисперсии на одну степень свободы можно получить в отчете по регрессионному анализу (таблица Дисперсионный анализ). Соответствующие результаты по данным нашего примера приведены в таблице 5. Таблица 5
Пояснения к таблице 1. Столбец df – число степеней свободы. 2. Столбец SS – суммы квадратов, соответственно факторная, остаточная, общая. 3. Столбец MS – дисперсии на одну степень свободы, соответственно факторная и остаточная.
В задачу регрессионного анализа входит не только построение самой модели, но и исследование ее соответствия реальным (фактическим) данным. Оценки Несмещенность оценок означает, что математическое ожидание остатков равно 0. Оценки считаются эффективными, если они характеризуются наименьшей дисперсией. Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки. Указанные критерии оценок (несмещенность, состоятельность и эффективность) обязательно учитываются при разных способах оценивания. МНК строит оценки регрессии на основе минимизации суммы квадратов остатков. Поэтому для проверки названных критериев важно исследовать поведение остаточных величин Исследования остатков 1) случайный характер остатков; 2) независимость остатков или отсутствие их автокорреляции; 3) остатки подчиняются нормальному распределению; 4) нулевая средняя величина остатков (или их математическое ожидание), не зависящая от уровней фактора Х; 5) гомоскедастичность остатков – дисперсия каждого отклонения Теорема Гаусса-Маркова. Если регрессионная модель Выполнение предпосылки 3 (нормальность распределения остатков) позволяет использовать критерии t и F (см. ниже)при анализе свойств модели и ее параметров. Проверка первых четырех предпосылок представляет собой исследование адекватности модели определенным статистическим критериям. Этот материал подробно рассмотрен в курсе ЭММиПМ в теме «Моделирование и прогнозирование временных рядов»[5]. Рассмотрим подробнее исследование гомоскедастичности остатков. Остатки считаются гомоскедастичными, если для каждого значения фактора они имеют одинаковую дисперсию. Иными словами остатки распределены вдоль оси абсцисс случайно с одинаковой частотой и амплитудой. В этом случае на графике остатков они расположены в виде достаточно узкой горизонтальной полосы[6] (рис.9).
Рис. 9. Гомоскедастичные остатки Если это условие не соблюдается, то имеет место гетероскедастичность остатков. Гетероскедастичные остатки имеют направленность в своем распределении (рис. 10).
Рис. 10. Гетероскедастичные остатки При малом объеме выборки для оценки гетероскедастичности может использоваться метод Гольдфельда – Квандта, разработанный в 1965 году. Тест, предложенный этими учеными, включает в себя следующие шаги: 1. Упорядочение n наблюдений по мере возрастания переменной X. 2. Исключение из рассмотрения С центральных наблюдений; при этом (n-C):2>p, где р – число оцениваемых параметров ( 3. Разделение совокупности из (n-C) наблюдений на две группы (соответственно с малыми и большими значениями фактора Х) и определение по каждой из групп уравнений регрессии. 4. Определение остаточной суммы квадратов для первой (S1) и второй (S2) групп и нахождение их отношения: R=S1:S2 (в числителе должна стоять большая величина). Вывод о гомоскедастичности делается с помощью F-критерия Фишера с (n-C-2p):2 (р – число оцениваемых в уравнении параметров; для парной регрессии Замечание Табличное значение F -критерия можно найти с помощью статистической функции FРАСПОБР. Протестируем данные нашего примера на наличие гомоскедастичности остатков. Пример (продолжение). 2) проверить выполнение предпосылок МНК:
Проверку предпосылок 1 – 4 выполнить самостоятельно, используя материал дисциплины ЭММиПМ. Проверка предпосылки 5: 1. Упорядочим переменную Y по возрастанию фактора Х (в Excel для этого можно использовать команду Данные – Сортировка – По возрастанию Х). Исходные данные
Упорядоченные данные
2. Уберем из середины упорядоченной совокупности С=1/4*n=1/4*9 3. Для каждой совокупности в отдельности выполним регрессионный анализ (рисунок 11). Для первой совокупности:
Для второй совокупности:
Рис. 11.Фрагменты регрессионного анализа для первой и второй совокупностей соответственно
4. Найдем отношение полученных остаточных сумм квадратов (в числителе должна быть большая сумма):
5. Вывод о наличии гомоскедастичности остатков делаем с помощью F-критерия Фишера с уровнем значимости
Так как ■ Замечание При нарушении гомоскедастичности остатков модели и наличии автокорреляции в них рекомендуется заменять традиционный МНК обобщенным МНК (ОМНК), в основе которого лежит работа с предварительно преобразованными исходными данными[7].
Для анализа качества регрессионных моделей используется ряд дополнительных специфических характеристик. К ним относится, например, индекс корреляции:
Этот коэффициент является универсальным, так как отражает тесноту связи и точность модели, может использоваться при любой форме связи переменных. Для парной линейной модели индекс корреляции равен коэффициенту парной корреляции, т.е.
На практике чаще используется его квадрат, который называется коэффициентом детерминации:
Коэффициент детерминации показывает,какая доля вариации (случайных колебаний, общей дисперсии) признака Y учтена в построенной модели и обусловлена случайными колебаниями включенного в нее фактора. Качество модели тем лучше, чем ближе Для оценки уровня точности регрессионных моделей используется также средняя относительная ошибка аппроксимации
Величина В качестве меры точности модели применяют также оценку остаточной дисперсии Точность модели тем лучше, чем меньше ее стандартная ошибка (это же имеет место и при использовании для оценки уровня точности других видов ошибок). Однако, понятие «чем меньше» является относительным и зависит от порядка чисел, представляющих данные задачи. Поэтому модель считается точной, если стандартная ошибка модели
Пример (продолжение). 3) вычислить коэффициент детерминации, найти среднюю относительную ошибку аппроксимации, сделать вывод о качестве модели Необходимые предварительные расчеты представлены в таблице 6. Таблица 6
вывод: 91,4 % случайной вариации исследуемого признака Y (прибыль) учтено в построенной модели и обусловлено случайными колебаниями включенного в нее фактора Х (объем продаж); влияние неучтенных в модели факторов (
вывод: фактические значения прибыли Y отличаются от модельных Cтандартная ошибка модели
Рисунок 12. Фрагмент регрессионного анализа В нашем случае стандартная ошибка модели ■
Дата добавления: 2017-02-01; Просмотров: 227; Нарушение авторских прав?; Мы поможем в написании вашей работы! |