КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Корреляционный анализ
Тема 4. Корреляционный и регрессионный анализ Различные явления и показатели в нашей жизни не являются независимыми, а связаны между собой (цена товара и спрос на него, рост человека и его вес и.т.д.). Эта зависимость может быть строго функциональной (детермированной) и статистической. Зависимость между В реальной действительности чаще встречается иная связь между явлениями, когда каждому значению одного признака могут соответствовать несколько значений другого (например, связь между возрастом детей и их ростом). Форма связи, при которой один или несколько взаимосвязанных показателей (факторов) оказывают влияние на другой показатель (результат) не однозначно, а с определенной долей вероятности, называется статистической. В частности, если при изменении одной из величин изменяется среднее значение другой, то в этом случае статистическую зависимость называют корреляционной. В зависимости от числа факторов, включаемых в модель, различают парную корреляцию (связь двух переменных) и множественную (зависимость результата от нескольких факторов). Мы будем рассматривать парную корреляцию (зависимость изучаемого признака Корреляционный анализ состоит в определении направления, формы и степени связи (тесноты) между двумя случайными признаками По направлению линейная корреляция бывает положительной (прямой), если при увеличении значений одной переменной увеличивается значение другой, и отрицательной (обратной), если при увеличении значений одной переменной, уменьшается значение другой. По форме корреляционная связь может быть линейной (прямолинейной), когда изменение значений одного признака приводит к равномерному изменению другого (математически описывается уравнением прямой Наиболее простым, приближенным способом выявления корреляционной связи является графический. При небольшом объеме выборки экспериментальные данные представляют в виде двух рядов связанных между собой значений Если корреляционное поле представляет собой эллипс, ось которого расположена слева направо и снизу вверх (рис.1в), то можно полагать, что между признаками существует линейная положительная связь. Если корреляционное поле вытянуто вдоль оси слева направо и сверху вниз (рис.1г), то можно полагать наличие линейной отрицательной связи. В случае же если точки наблюдений располагаются на плоскости хаотично, т.е корреляционное поле образует круг (рис.1а), то это свидетельствует об отсутствии связи между признаками. На рис.1б представлена строгая линейная функциональная связь. Под теснотой связи между двумя величинами понимают степень сопряженности между ними, которая обнаруживается с изменением изучаемых величин. Если каждому заданному значению Количественным критерием направления и тесноты линейной связи является коэффициент линейной корреляции. Коэффициенты корреляции, определяемый по выборочным данным, называются выборочным коэффициентом корреляции, который вычисляется по формуле:
где
Для вычисления коэффициента корреляции достаточно принять предположение о линейной связи между случайными признаками. Тогда вычисленный коэффициент корреляции и будет мерой этой линейной связи. Коэффициент линейной корреляции принимает значения от −1 в случае строгой линейной отрицательной связи, до +1 в случае строгой линейной положительной связи (т.е. Коэффициенту корреляции можно дать наглядную графическую интерпретацию. Если Если Если Также коэффициент линейной корреляции может быть близок (равен) нулю, когда между признаками есть связь, но она нелинейная (рис.2).
При оценке тесноты связи можно использовать следующую условную таблицу:
Пример 1. В таблице приведены значения абсолютной поверхности тела
Определить тесноту взаимосвязи между заданными признаками. Решение. Заметим вначале, что объем выборки Из рисунка видно, что точки Для определения тесноты взаимосвязи воспользуемся коэффициентом линейной корреляции. Для сокращения расчетов будем постепенно формировать таблицу.
1. Вычислим средние арифметические значения обоих признаков:
2. Найдем отклонения от средних арифметических 3. Умножим 4. Возведем отклонения в квадрат и сложим (последняя строка в 7-м и 8-м столбцах). 5. Найдем средние квадратические отклонения, пользуясь формулой:
6. Исходя из формулы коэффициента, получим:
7. Вывод: полученный коэффициент корреляции указывает на сильную линейную связь между абсолютной поверхностью тела и его массой. Эта связь положительная и означает, что увеличение абсолютной поверхности тела приводит к увеличению его массы и наоборот.
Встречаются задачи, в которых коэффициент линейной корреляции не применим. Это такие задачи, в которых значения признаков не распределены по нормальному закону. Например, такой признак, как место, занятое в данном соревновании, не распределен по нормальному закону. В таких случаях применяют ранговый коэффициент корреляции Спирмена:
где Напомним, что номер признака (в данном примере - место в соревновании) называется рангом.
Пример 2. Определить тесноту взаимосвязи между результатами, показанными легкоатлетами в беге на 100 м, и местом, занятым ими же в соревновании по тройному прыжку. Данные приведены в табл.
Решение. При решении этой задачи лучше все вычисления постепенно заносить в таблицу. 1. Результаты в беге ранжируем, то есть располагаем их в порядке возрастания: 10,3; 10,4; 10,5; 10,6; 10,7; 10,7; 10,7; 10,7; 10,9. Для тех результатов, которые повторяются несколько раз, ранг берем как среднее рангов этих результатов. Результат 10,7 повторяется четыре раза, занимая в ряду ранги 5, 6, 7, 8. Тогда
Для 2. Находим разность рангов: 3. Разность рангов возводим в квадрат и суммируем: 4. Находим: 5. Вывод: между исследуемыми признаками существует средне-выраженная отрицательная зависимость, показывающая, что при уменьшении признака
Дата добавления: 2014-01-04; Просмотров: 725; Нарушение авторских прав?; Мы поможем в написании вашей работы! |