КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Точность оценки регрессии
Классическая модель нормальной линейной регрессии Коэффициент частной корреляции Если исследуется зависимость между тремя величинами x, в, z (спрос на бензин, цены, доход) и нужно выделить влияние которых или два факторов, то используется так называемый коэффициент частной корреляции
Коэффициент корреляции показывает, что две переменные связаны друг с другом, однако он не дает представления о том, каким образом они связаны. Рассмотрим классическую линейную модель регрессии.
то есть наблюдаемая случайная величина В (регрессанд, зависимая переменная, объяснимая переменная) представляется в виде линейной функции от к наблюдаемым переменным (регрессоров, независимых переменных, объясняющих переменных)
Основные предпосылки нормальной классической линейной модели регрессии Модель (1) называется классической если выполняются следующие предпосылки (предположение): 1. регрессоры 2. Единственной случайной переменной в (1) есть Предусматривается, что для возмущений (остатков) выполняются условия Гаусса-маркова: 2.1 Возмущение (остаток) 2.2 Остатки Поэтому Значение
2.3 Остаток При добавлении этого предположения остатки Если все эти предпосылки выполняются, то такая модель называется классической линейной моделью нормальной регрессии. Если не выполняется предпосылка 2.3 относительно нормального распределения возмущений, то имеет место классическая линейная регрессионная модель. Предусматривается, что каждое наблюдение отзыва В имеет нормальное распределение относительно вертикали со средним, получаемым из постулированной модели. Дисперсии же всех нормально распределенных величин предусматриваются одинаковыми и ровными. Во многих реальных ситуациях ошибки, в соответствии с центральной предельной теоремой, подчиняются нормальному распределению. Если член, который содержит ошибку, таков, что u оказывается суммой ошибок от нескольких причин, то независимо от того как могут быть распределены отдельные ошибки, их сумка u будет иметь нормальное распределение. Если все перечислены условия соблюдены, то данная модель называется нормальной линейной регрессионной. (Classical Normal linear regression model). Условие независимости дисперсии ошибки от номера наблюдения Случай, когда условие гомоскедастичности не выполняется, называется гетероскедастичностью (heteroscedasticity).
случай гомоскедастичности случай гетероскедастич- ошибок ности ошибок
Условие
P>0 P<0 Для простого случая
3.4 Линейная регрессия: подбор прямой. Случай два переменных Х и В Уравнение прямой может быть полезное во многих ситуациях для обобщения наблюдаемой зависимости одной переменной от другой. Рассмотрим как такое уравнение можно получить методом наименьших квадратов. Допустимо, что линия регрессии переменные В от переменной Х имеет вид
u – остаточный фактор, возмущение. В уравнении (1) величины
в – предусмотрено значение В для данного Х. Уравнение (2) позволяет предусмотреть «действительное» среднее значение для заданного Х. Процедурой оценивания будет метод наименьших квадратов (МНК). При некоторых предположениях, какие мы рассмотрим позже, этот метод владеет определенными свойствами. Пусть мы имеем множественное число из n наблюдений Тогда уравнение (1) можно записать в виде
Сумма квадратов отклонений от действительной линии есть
Линия, подобранная методом наименьших квадратов, такова, которая делает сумму квадратов всех этих вертикальных разногласий, указанных на рисунке, настолько малой насколько это возможно. Дифференцируя уравнение (4) сначала по, потом по
(5)
и приравнивая результаты к нулю, для оценок
Решим эту систему относительно
или
Действительно
С помощью подстановки в уравнение Отметим, что поскольку, то
(на практике из-за ошибок округления эта сумма может очутиться не точно ровной нулю). В любом регрессионном задании сумма остатков всегда равна нулю, если член Исключение Такое предположение очень сильно. Исключение составляет линия регрессии, которая проходит через точку х=0, у=0 (отсекает нулевой отрезок). Исключение
Попробуем построить выборочную линию регрессии для 25 пар наблюдений переменных Х и В, приведенных в таблицы, здесь же приведенные необходимые для последующего значения величины
Приведены ниже величины получаем по очевидным формулам с целью вычислить коэффициенты b0 и b1.
Окончательно для уравнения линейной регрессии получаем
Построена линия регрессии нанесенная на рисунке вместе с диаграммой рассеяния.
Рассмотрим вопрос, какая точность может быть приписана нашей оценке линии регрессии. Рассмотрим следующую тождественность
, (1)
Геометрический смысл тождественности (1) легко понять из приведенного выше рисунка Уравнение (1) можно переписать в виде Возведем обе части этого уравнения в квадрат
Просуммируем это выражение от i=1 к n
Окончательно
Сумма квадратов относительно среднего = сумма квадратов относительно регрессии + сумма с обусловленной регрессией. Введем обозначение
Ясно, что мы можем написать следующее равенство
Не все действительные наблюдения лежат на прямой регрессии поскольку есть член
Мы будем довольны если
не очень сильно отличается от единицы.
Ясно, что имеет место формула
Всякая сумма квадратов связана с числом, называемым ее степенями свободы. Это число показывает, как много независимых элементов инормации, что выходят из n независимых чисел Для
Это отображает тот факт, что даны остатки полученные для моделей прямой линии, которая требует оценивания двух параметров n-1=1+n-2 (6) Пользуясь уравнениями (2) и (6) мы можем построить таблицу дисперсионного анализа. Таблица дисперсионного анализа
Средний квадрат относительно регрессии выполним вычисление для нашего примера
Таблица дисперсионного анализа
Таким образом получено уравнение регрессии,, на 71,44% объясняет общий разброс данных относительно среднего
Дата добавления: 2015-05-26; Просмотров: 2524; Нарушение авторских прав?; Мы поможем в написании вашей работы! |