Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Построение модели регрессии.




 

Процесс построения регрессионной модели можно представить в виде нескольких этапов, на каждом из которых решаются свои задачи.

1. Определение цели исследования..

2. Сбор исходных данных.

3. Анализ данных и отбор факторов. Выбор формы модели.

4. Количественная оценка параметров модели.

5. Оценка качества модели.

Рассмотрим каждый этап более подробно.

 

Этап 1. Определение цели исследования.

Цель. Ставится задача исследовать зависимость некоторой экономической переменной от влияющих на нее факторов, выразить эту зависимость в количественном виде и использовать полученную модель для прогнозирования. Первоначальный выбор зависимой переменной и факторов определяется на базе экономической теории и на основе качественного анализа ситуации.

Итог I этапа. Поставлена задача исследования и установлен набор экономических показателей.

Этап 2. Сбор исходных данных

Задача. Необходимо собрать достаточное для проведения исследования количество данных в соответствии с установленным набором.

При сборе исходных данных необходимо обратить внимание на два вопроса:

- способ получения данных;

- количество необходимых данных по каждой переменной (длина ряда).

В зависимости от способа получения исходные данные, которые исследователь собирает с целью проведения анализа и построения модели, можно выделить в три основные группы.

- данные получены методом случайной выборки из некоторой N – мерной совокупности случайных величин.

- данные о факторах получены путем проведения “экономического” эксперимента. При этом некоторые показатели могут носить случайный характер, а другие – быть заданными. В принципе, допускается, что все факториальные признаки не являются случайными величинами.

- данные для модели представляют собой статистические временные ряды экономических показателей. Они по своей природе являются случайными величинами. Упорядоченность во времени не позволяет рассматривать их как случайную выборку. Кроме того, многие временные ряды имеют тренд.

Способ получения данных для построения модели имеет существенное значение для методов их обработки и последующего использования. Эти вопросы будут далее рассмотрены при описании способов построения моделей.

Следующий вопрос, который необходимо решить на данном этапе, связан с количеством данных (длиной ряда или числом наблюдений), которые, в свою очередь, связаны с размерностью модели. Обычно принято, что длина рядов данных должна превышать число искомых параметров модели в 6–8 раз. Так, если модель регрессии со свободным членом включает четыре фактора, то длина рядов данных должна содержать не менее 30 показателей.

Итог 2 этапа.

В соответствии с поставленной целью исследования на основе качественного анализа процесса сформирован блок исходных данных, который оформлен в виде таблицы:

Табл. 2.1

N п/п Y X1 X2 ... Xk
1 Y1 X11 X12 X1k
2 Y2 X21 X22 X2k
n Yn Xn1 Xn2 Xnk

 

Этап 3. Анализ данных и отбор факторов

Задача: определить набор факторов, которые будут включены в модель регрессии.

Три рассмотренных выше способа получения данных определяют методы их анализа для отбора факторов, включаемых в модель. Необходимо отметить, что эта процедура носит итеративный характер и по мере углубления анализа набор факторов может пересматриваться.

1. Если все анализируемые показатели представляют собой случайные величины, полученные методом случайной выборки, то в этом случае для отбора факторов привлекают методы корреляционного анализа.

2. Если случайные величины представлены временными рядами, содержащими тренды, в этом случае методы корреляционного анализа применяются не к самим исходным данным, а к преобразованным.

Анализ осуществляется следующим образом:

– во временном ряду каждого показателя определяется тренд;

–находятся отклонения от тренда;

– корреляционный анализ применяется к отклонениям от тренда;

– выводы распространяются на сами показатели.

В построении самой модели участвуют сами показатели в виде временных рядов, а не отклонения, если это не диктуется специальными соображениями.

3. Если данные представлены неслучайными величинами, то для отбора факторов можно применять пошаговый метод последовательного исключения. Этот метод можно применять при всех трех способах получения данных.

Эти методы будут подробно рассмотрены далее в соответствующих разделах.

Выбор формы модели осуществляется на основе предпосылок экономической теории о характере взаимосвязей исследуемых экономических показателей, или на основе анализа успешных исследований по сходным проблемам, или просто путем перебора возможных математических моделей и выбора наилучшей по статистическим критериям.

Итог 3 этапа. На основе качественного и количественного анализа отобраны факторы, которые предполагается включить в модель на этом этапе исследования и определена форма модели.

 

Этап 4. Построение модели. Оценка параметров модели регрессии.

Задача: Для выбранной формы модели необходимо определить численные значения параметров модели.

Численные значения параметров модели регрессии находятся путем решения системы нормальных уравнений, которая составляется, исходя из требований метода наименьших квадратов.

В результате решения системы нормальных уравнений находят численные значения параметров модели регрессии . Как уже говорилось, они являются оценками параметров истинной регрессии.

Найденные числовые значения параметров подставляют в уравнение модели.

Целесообразно провести качественный анализ полученных коэффициентов регрессии. Так как они имеют конкретную содержательную интерпретацию необходимо, проверить соответствие их значений положениям соответствующей теории (экономической науки).

Итог 4 этапа. Построена модель регрессии, включающая те факторы, которые были отобраны на втором этапе, с численными значениями параметров.

 

Этап 5. Проверка качества модели.

Задача: осуществить проверку качества модели регрессии, которая включает в себя проверку соответствия модели основным предпосылкам регрессионного анализа, а также проверку адекватности модели. Проверка качества модели состоит из нескольких процедур. Содержание процедур проверки качества модели одинаково для всех способов построения регрессионных моделей, независимо от типов исходных данных.

 

5.1. Анализ остатков

5.1.1. Определение остатков.

Остатками в регрессионной модели называется последовательный ряд чисел , полученный как разности между фактическими значениями случайной величины Y и значениями , полученными на основе модели регрессии путем подстановки в уравнение модели численных значений факториальных признаков, т. е. . Остатки можно с содержательной стороны объяснить как ту часть вариации признака Y, которую нельзя объяснить с помощью построенной модели регрессии. Эта та часть вариации Y, которая объясняется влиянием тех факторов, которые не включены в модель.

Если влияние неучтенных факторов на Y довольно сильное и постоянное, то это будет сказываться на остатках. По величине остатков и их свойствам можно судить о качестве модели, о полноте набора включенных факторов, о правильности формы выбранной модели и т. д.

Более того, от свойств остатков зависят дальнейшие возможности использования аппарата регрессионного анализа. На последующих шагах проверки качества модели (оценки статистической надежности коэффициентов регрессии, проверки адекватности модели) используется математико-статистический аппарат проверки статистических гипотез, основанный на предположении о независимости нормально распределенных случайных величин. В качестве этих случайных величин рассматриваются остатки. Отсюда ясно, почему в регрессионном анализе уделяется большое внимание остаткам и придается такое значение проверке выполнения основных требований к остаткам, о которых говорилось выше.

После исследования остатков должны придти к следующим выводам:

– предположения нарушены;

– предположения, по-видимому, не нарушены.

При этом надо иметь ввиду, что результаты анализа не означают, что мы пришли к выводу о правильности предположения, это означает только, что на основе данных, которые имелись, нет основания для утверждения о неправильности.

 

5.1.2.Способы исследования остатков.

5.1.2.1. Графический способ исследования остатков.

На основе полученных величин остатков необходимо построить график остатков, отложив на оси абсцисс – номер наблюдения, а на оси ординат – величину остатков.

Среди остатков иногда встречается остаток, который по абсолютной величине значительно превосходит остальные остатки. Такие остатки называют выбросами. Так как регрессия характеризует среднюю зависимость между результативным и факториальными признаками, то выброс показывает точку, которая не совсем типична по отношению к остальным данным. В практических исследованиях рекомендуется отбрасывать точку выброса, и данное наблюдение не рассматривать, если анализ выброса дает возможность заключить, что он вызван чисто случайным стечением обстоятельств. После исключения наблюдений, связанных с выбросом, снова анализируют данные и строят модель без этих наблюдений.

В любом случае надо анализировать точки выброса, так как они могут дать новую специфическую информацию. При прогнозировании эту информацию надо учитывать.

Графический анализ остатков по расположению “полосы”, в которой расположены остатки, позволяет сделать определенные выводы о их свойствах. Так, если остатки заключены в “полосе”, параллельной оси абсцисс, то это можно рассматривать как признак того, что выполняется требование постоянства дисперсии. Если “полоса” будет как бы “расширяться” или в ту или другую сторону, то это означает, что дисперсия не постоянна во времени. В этом случае рекомендуется в модель включить временную компоненту.

На графике наглядно будет видно чередование знаков остатков, что является признаком независимости и случайности остатков. Если имеется достаточно большое количество остатков с одинаковыми знаками, то свойство случайности остатков может быть не выполнено, и в дальнейшем может потребоваться пересмотр модели.

 

5.1.2.2. Аналитические способы анализа остатков.

5.1.2.2.1. Критерий «серий»

Для анализа остатков могут быть использованы и некоторые аналитические методы, аналитические критерии. В частности, критерий “серий”. Идея метода состоит в том, что, если остатки случайны и независимы, то в ряду остатков не может быть серий из большого количества подряд идущих остатков со знаком “+” или “–”, а самих таких серий из одинаковых подряд знаков не должно быть мало.

В частности, при уровне значимости 0,05 <g < 0,0975 количественное выражение этого правила имеет вид:

, l(n) < l0(n),

Где: n – число членов в ряду;

S(n) –число серий;

l(n) – максимальная длина серии. При этом если n£ 26, то l0(n)=5, если 26<n£ 153, то l(n)=6. Если хотя бы одно неравенство нарушено, то гипотезу о случайности отвергают.

5.1.2.2.2. Критерий Дарбина-Уотсона.

Ранее говорилось о том, что одним из требований к остаткам является отсутствие в них автокорреляции. Чаще всего исследуется случай для зависимости первого порядка:

ei=r1ei–1 + bi,

Где: bi – случайная величина.

Обычно проверяется справедливость одной из следующих двух альтернативных гипотез:

- нулевой H 0 - r1= 0;

- альтернативной – о существовании автокорреляции остатков первого порядка. Проверку осуществляют с помощью критерия Дарбина–Уотсона на основе показателя:

Значения статистики затабулированы при разных уровнях значимости (0,05) и (0,01). Таблица имеет вид (5 % уровень значимости):

Табл. 2.2

Число наблюдений Число факторов в модели
         
dL dU dL dU dL dU dL dU dL dU
  1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21
  1,10 1,37 0,98 1,54 0,86 1,73 0,74 1,94 0,62 2,15
  1,13 1,38 1,02 1,54 0,90 1,71 0,78 1,90 0,67 2,10

 

Способ пользования таблицей удобно пояснить на рисунке.

Положительная автокорреляция ? Автокорреляция отсутствует ? Отрицательная автокорреляция

0 dL dU 2 4–dU 4–dL 4

По таблице в соответствии с объемом выборки n и числом включенных в модель факторов k находятся значения dL и dU. Затем вычисляются значения 4– dL и 4– dU. По данным модели вычисляется значение показателя DW:

Если:

1. 0 £ DW £ dL – в остатках имеется положительная автокорреляция.

2. 4– dL < DW £ 4 – в остатках имеется отрицательная автокорреляция.

3. dU. £ DW £ 4– dU. – автокорреляция в остатках отсутствует.

4. – dU < DW £ 4– dL, dL < DW < dL – на основе имеющихся данных нельзя установить однозначный ответ. Причина существования автокорреляции может заключаться в ошибке спецификации, когда влияние некоторого существенного фактора или группы факторов оказывается включенным в состав остатка ei. Следовательно, данную проблему можно решить, выявив данный фактор и включив его в модель. Предварительно надо проверить, действительно ли существует зависимость между этим фактором и остатком, или же включить данный фактор в исходную модель и проверить снова автокорреляцию остатков.

Анализ остатков может привести к следующим выводам:

1. остатки удовлетворяют основным требованиям регрессионного анализа и можно переходить к следующему этапу;

2. остатки не удовлетворяют основным требованиям регрессионного анализа, необходимо вернуться к исследованию спецификации модели на первом и втором этапах.

 

5. 2. Проверка статистических гипотез относительно свойств модели.

После процедуры анализа остатков можно перейти к проверке статистических гипотез относительно свойств регрессионной модели. На основе построенной по выборочным данным регрессионной модели можно проверить гипотезу о величине коэффициента регрессии генеральной совокупности. Чаще всего рассматривается гипотеза о равенстве коэффициента регрессии ai нулю: то есть H0: ai=0. Проверка этой гипотезы осуществляется с помощью t –статистики. На основе данных регрессионной модели рассчитывается показатель:

,

Где: ai – оценка коэффициента регрессии (i=0,1,…,k);

– оценка стандартной ошибки коэффициента регрессии ai в модели.

Где: ei - остатки;

n – число наблюдений;

k –число включенных в модель факторов;

bjj –диагональный элемент обратной матрицы системы нормальных уравнений.

Отношение при выполнении предпосылок регрессионного анализа представляет собой случайную величину, характеризующуюся t распределением. Поэтому вычисленные значения t можно сравнить с табличными значениями t для разных уровней значимости a и для разных степеней свободы n–k–1. Если |tрасч| ³ tтабл, то нулевую гипотезу H0: a i =0 при выбранном уровне значимости нужно отвергнуть, как несогласующуюся с данными наблюдений. При этом считают, что коэффициент регрессии значимо отличается от нуля, и фактор вносит статистически значимый вклад в изменение результативного признака

Если |tрасч| < tтабл., то гипотеза принимается, и при заданном уровне значимости считается, что коэффициент регрессии ai существенно не отличается от нуля. Это означает, что соответствующий этому коэффициенту фактор Xi не вносит статистически значимого вклада в уравнение регрессии, при этом говорят, что коэффициент регрессии статистически незначим. В противном случае его называют значимым. Проверку статистической значимости осуществляют для всех коэффициентов модели регрессии. Если те или иные коэффициенты модели статистически незначимы, то соответствующие им факторы можно исключить из модели, так как они не оказывают существенного воздействия на величину Y.

Доверительный интервал коэффициента регрессии a i вычисляется по формуле:

 

5.3. Проверка качества модели в целом.

Для проверки качества модели в целом, оценки того, насколько хорошо данная модель описывает фактические данные (вариацию результативного признака Y), используется дисперсионный анализ, на основе которого выводится коэффициент детерминации R2.

Известно, что общая вариация признака Y разлагается на два слагаемых:

,

Где: –общая вариация признака Y, которую надлежит объяснить с помощью модели регрессии;

– вариация признака Y, объясняемая регрессией;

– остаточная, необъясненная вариация.

Естественно, чем больше часть вариации, объясненная регрессией, тем лучше подобрана модель, или тем меньше остаточная вариация. Показатель , показывающий, какую долю общей вариации составляет обьясненная регрессией вариация, служит показателем качества модели и называется коэффициентом детерминации. Однако, можно вычислить и по другой формуле:

Статистическая значимость коэффициента детерминации проверяется по F критерию, вычисляемому по данным наблюдений по формуле:

Расчетное значение F сравнивается с табличным по таблицам распределения Фишера. Если (a;n-k-1;k), то R 2 статистически значим и модель адекватна.

Итог 5 этапа. С использованием статистических критериев произведена оценка качества модели. Если по каким-либо критериям дается неудовлетворительная оценка, то ставится вопрос о пересмотре всей модели и проведении аналогичного анализа с новым набором переменных или построении модели по другой форме.

Если качество модели удовлетворяет, то ее можно использовать для анализа и прогнозирования.

Прогноз на основе модели регрессии осуществляется путем подстановки в модель прогнозных значений факторных переменных, которые определяются или экспертным путем, или методами экстраполяции.

 




Поделиться с друзьями:


Дата добавления: 2017-02-01; Просмотров: 86; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopediasu.com - Студопедия (2013 - 2026) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.013 сек.