Методы построения моделей регрессии.

⇐ Предыдущая 2 3 4 5 6 7 8 910

Выше мы рассмотрели общую схему построения модели регрессии. Но, как уже отмечалось, особенности исходных данных накладывают свой отпечаток на способы отбора факторов для модели и, следовательно, на способы построения моделей регрессии. Наибольшее распространение получили методы пошаговой регрессии – метод последовательного присоединения и метод последовательного исключения.

2.4.1.Метод последовательного присоединения.

Построение модели регрессии в этом методе осуществляется с применением корреляционного анализа. Естественно, что при этом обязательным условием является формирование набора переменных методом случайной выборки из двумерной или многомерной случайной величины. Другими словами, в этом методе предполагается, что все факторные переменные являются случайными величинами.

Метод состоит из следующих шагов:

2.4.1.1. Вычисляются коэффициенты корреляции между всеми имеющимися переменными. На основе полученных коэффициентов корреляции составляется корреляционная матрица.

Примечание. При анализе корреляционной матрицы может обнаружиться явление мультиколлинеарности, т.е. тесной линейной зависимости между факторными признаками. Считается, что если коэффициент корреляции между факторными признаками не менее 0,8, то это свидетельствует о наличии мультиколлинеарности между этими факторами. Мультиколлинеарность плохо влияет на свойства модели. При наличии мультиколлинеарности матрица системы нормальных уравнений будет плохо обусловленной (ее определитель будет близок к нулю). Это соответственно повлияет на результаты тех расчетов в регрессионной модели, которые связаны с вычислением определителя. Так, могут быть велики по абсолютной величине оценки коэффициентов регрессии в модели, так как при их расчете используется определитель (правило Крамера). Кроме того, большими будут среднеквадратические ошибки коэффициентов регрессии, в частности. за счет величины b_jj, так как при ее определении используется определитель в обратной матрице. Коэффициент регрессии будет статистически незначим. Величины оценок коэффициентов регрессии становятся неустойчивыми, их величина существенно изменяется при незначительном изменении исходных данных. Это существенно затрудняет интерпретацию параметров модели.

При наличии мультиколлинеарности факторов используют другие методы обработки исходных данных, например, метод главных компонент. На практике часто один из мультиколлинеарных факторов включают в модель, а другой нет.

В качестве первой переменной, включаемой в модель, выбирается фактор, имеющий самый высокий коэффициент корреляции с Y. Пусть это будет Х₁.

Для модели вычисляются все статистические показатели качества модели (t –статистика, R² и F).

2.4.1.2. Вычисляются частные коэффициенты корреляции между всеми факторными переменными, не вошедшими в модель, и Y при исключении влияния выделенной переменной Х₁. В качестве следующего фактора, включаемого в модель, выбирается факторная переменная, имеющая наиболее высокий частный коэффициент корреляции (пусть это будет Х₂). Новая модель содержит две переменных . Также проверяется ее качество.

2.4.1.3. Вычисляются частные коэффициенты корреляции с Y для всех факторных переменных, не вошедших в модель на предыдущем шаге при исключении влияния уже включенных переменных Х₁ и Х₂. Переменная, имеющая наибольшую величину частного коэффициента корреляции, включается в модель.

Модель содержит уже три фактора. Осуществляется проверка ее качества. Процесс продолжается до тех пор, пока включение переменной улучшает качество модели. На каждом шаге одновременно с применением статистических методов оценки качества модели проверяется влияние включенной переменной на коэффициенты регрессии. Если добавление фактора в модель не изменяет существенно коэффициенты регрессии в модели, но увеличивает R², то он считается полезным; если добавление фактора в модель радикально изменяет все коэффициенты регрессии, но R² остается без заметного улучшения, то фактор считается вредным.

2.4.2. Общие сведения о корреляционном анализе.

Применение корреляционного анализа для отбора факторов при построении модели регрессии методом последовательного присоединенияпредполагает выполнение определенных условий и включает следующие операции:

- вычисление линейных парных коэффициентов корреляции и построение корреляционной матрицы;

- проверка статистической значимости парных коэффициентов корреляции;

- вычисление частных коэффициентов корреляции;

- проверка статистической значимости частных коэффициентов корреляции.

Данные должны быть представлены случайными величинами, имеющими нормальный закон распределения и получены методом случайной выборки. В этом случае линия регрессии является прямой линией, связь между переменными линейная, и коэффициент корреляции можно использовать как показатель тесноты связи между переменными.

Если же не известен характер распределения случайных величин или если проверить гипотезу о нормальности не представляется возможным, то для правомерности использования в анализе коэффициента корреляции необходимо проверить гипотезу о линейности связи.

Для того чтобы получить наглядное представление о тесноте и направлении связи целесообразно данные представить в виде специального графика, называемого полем корреляции.

Рис. 2.1

Анализ данного корреляционного поля дает возможность принять гипотезу о линейной корреляционной связи.

Рис. 2.2

Здесь может быть принята гипотеза о криволинейной корреляционной связи

Рис. 2.3

Это корреляционное поле иллюстрирует случай принятия гипотезы об отсутствии корреляционной связи.

При линейной зависимости двух переменных в качестве показателя для определения степени связи двух переменных используется парный (линейный) коэффициент корреляции.

Парный коэффициент корреляции принимает значения в интервале . Коэффициент корреляции со знаком «+» означает прямую (положительную) зависимость между x и y, т.е. зависимость, при которой с увеличением x увеличивается у (и наоборот), со знаком «-» обратную (отрицательную) зависимость, т.е. с увеличением х уменьшается у и наоборот. Коэффициент корреляции равный 0 означает отсутствие линейной зависимости между показателями. Чем ближе коэффициент корреляции к 1, тем теснее связь между показателями. В случае, когда коэффициент равен единице, можно говорить о наличии функциональной зависимости между у и х.

Анализ парных коэффициентов корреляции можно провести на основе таблицы Чеддока

Табл. 2.3

Диапазон изменения r	0,1-0,3	0,3-0,5	0,5-0,7	0,7-0,9	0.9-0.99
Характеристика связи	Слабая	Умеренная	Заметная	Высокая	Весьма высокая

Как правило, исследователь работает не с генеральной, а с выборочной совокупностью и, следовательно, рассчитанный коэффициент корреляции является выборочным аналогом теоретического коэффициента корреляции. В корреляционном анализе проверяется нулевая гипотеза об отсутствии корреляции в генеральной совокупности. Для проверки гипотезы используется критерий, рассчитываемый по формуле:

Статистика- t является случайной величиной, имеющей распределение Стьюдента с n - 2 степенями свободы.

Рассчитанное значение t -наблюдаемого сравнивается с критическим, определённым по таблице распределения Стьюдента. Если выполняется соотношение

|t_набл| ³ t_табл.(_a_{, n-2)}, то нулевая гипотеза об отсутствии корреляционной зависимости в генеральной совокупности отклоняется с заданным уровнем значимости, или коэффициент корреляции значимо отличен от нуля. В противном случае гипотеза принимается и отличие коэффициента корреляции от нуля будет статистически незначимым.

⇐ Предыдущая 2 3 4 5 6 7 8 910

Поделиться с друзьями:

Дата добавления: 2017-02-01; Просмотров: 48; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopediasu.com - Студопедия (2013 - 2026) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.009 сек.