КАТЕГОРИИ:

Главная
Случайная страница
Познавательное
Новые статьи
Контакты
Заказать работу

Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Вибір найближчого елемента в стовпці j матриці відстаней 2 страница

⇐ Предыдущая 3 4 5 678 9 10 11 Следующая ⇒

Звертає на себе увагу той факт, що у формулі (11) відсутня X⁽¹⁾. Справа в тому, що при вивченні різних властивостей моделі (11) зручно вважати, що X⁽¹⁾ тотожно дорівнює одиниці (Х⁽¹⁾ ≡ 1). Тому модель (11) часто записується у вигляді:

(12)

де і = 1, 2,..., n;

к ≥ 2.

При цьому, як уже сказано, Х_i⁽¹⁾ ≡ 1 для всіх і. Добавимо ще одну умову, яка формулюється наступним чином:

Ні одна із змінних Х⁽¹⁾, Х⁽²⁾,..., Х^(k) не являється лінійною комбінацією інших.

З (11) випливає, що E(Y_t) = β₁ + β₂X_i⁽²⁾+…+ β_kX_i^(k). Таким чином, так же, які увипадкуз одним регресором, модель лінійної регресії з довільним числом регресорів ми могли б визначити як лінійну залежність E(Y) від змінних Х⁽¹⁾, Х⁽²⁾,..., Х^(k) з параметрами β₁, β₂, …, β_k, що не залежать від і.

Запишемо формулу (11) у вигляді системи рівнянь:

(13)

Система рівнянь (13) може бути записана в матричній формі наступним чином:

(14)

де , — n- вимірні вектори;

— k -вимірний вектор;

— n×k матриця:

(15)

Змінні Х⁽²⁾,..., Х^(k) називаються пояснюючими, тому що при будь-якому i значення Y_i однозначно ними визначено з точністю до випадкового члена ε_i. У число пояснюючих можуть входити і змінні, які не є заданими функціями часу f(і). У цьому випадку модель називається каузальною.

Визначення оптимальної кількості пояснюючих змінних, що адекватно описують зміни залежної змінної Y, - одне з найбільш важливих завдань, що стоять перед прогнозистом. Завдання це, як ми побачимо надалі, зовсім не просте є скоріше процесом, ніж одноразовим рішенням. Крім чіткого розуміння виробничої діяльності свого підприємства і знання макроекономічних показників прогнозист повинен також добре розбиратися в статистичних властивостях моделі множинної регресії.

Відбір регресорів.

При підготовці даних прогнозист повинен першза все знайти набір регресорів, здатних вплинути на процес, що генерує величини Y₁, Y₂,..., Y_n. На наступному етапі він повинен вирішити, які з цих регресорів слід залишити в моделі, тобто визначити регресори, необхідні для прогнозування майбутніх значень Y. Важливим показником оцінки моделі лінійної регресії (11) є коефіцієнт детермінації:

(16)

Буде вірною також наступна формула:

Як і у випадку з одним регресором, , оскільки між коефіцієнтами детермінації та кореляції існує наступний зв’язок: , звідки випливає, що .

При додаванні нових регресорів коефіцієнт детермінації R²_k практично завжди зростає. Те, що коефіцієнт детермінації R²_k не може зменшитися, випливає з того факту, що при скороченні числа регресорів отримана модель є окремим випадком первісної, коли коефіцієнти при відсутніх регресорах дорівнюють нулю. Тому величина R²_k не може бути критерієм при вирішенні питання, чи потрібно вводити додаткові регресори в модель.

При визначенні числа регресорів в першу чергу намагаються позбавитися від регресорів, у яких 95%-і довірчі інтервали для відповідних коефіцієнтів можуть містити нулі.

95%-ний довірчий інтервал для коефіцієнта регресії β_j буде наступним:

(17)

де z_jj — j -й діагональний елемент матриці (М'М)^-1.

Так як b_j являється лінійною комбінацією нормальних випадкових величин Y₁, Y₂,..., Y_k, тоді b_j також буде нормальною випадковою величиною. Величина називається стандартною помилкою b_j, з тим же застереженням, що і для одного регресора.

Зазвичай замість 95%-ного довірчогоінтервалу для β_j застосовують інший спосіб, який заснований на розгляді випадкової величини:

Припустимо, що β_j = 0. В такому ипадку величина слідує t(n-k)-розподілу. Вона називається t-статистикою для коефіцієнта β_j.

Для вихідних даних визначають Р -значення t -статистики для коефіцієнта β_j. Воно дорівнює ймовірності того, що випадкова величина, яка слідує t(n-k)-розподілу, прийме значення, що по модулю перевищує абсолютне значення t-статистики. Тобто знаходять:

Якщо Р-значення менше 5%, тобто , то можна бути по крайній мірі на 95% впевненим, що β_j ≠ 0. Якщо ж , то коефіцієнт b_j не являється статистично значимим і регресор X^(j) виключають з рівняння лінійної регресії.

Як визначити, чи збільшився коефіцієнт детермінації на стільки, щоб можна було залишити нові регресори в моделі? Для цього замість r² розглядають скоригований коефіцієнт детермінації:

Скоригований коефіцієнт детермінації часто використовується, коли потрібно вирішити, чи слід додавати додаткові регресори в модель. Нові регресори додають за умови, що скоригований коефіцієнт детермінації збільшився. При практичному прогнозуваннізазвичай роблять навпаки. Спочатку вводять повний набір регресорів в комп'ютер і, після того як програма залишила тільки ті регресори, довірчі інтервали яких не містятьнулі, починають по черзі виключати регресори, у яких t-статистика не більше одиниці.

При порівнянні моделей з різним числом регресорівв прогнозуванні використовуються також два інших коефіцієнта – критерій Шварца:

та інформаційний критерій Акайка:

Як і скоригований коефіцієнт детермінації, обидва цих коефіцієнта призначені для того, щоб «карати»за включення в модель регресорів, що не призводять до значного підвищення здатності моделі описувати процес. Але на відміну від, рішення про те, щоб залишити нові регресори в рівнянні, приймають тільки при зменшенні SC або АIС.

Бета-уявлення

При вивченні рівняння регресії може виникнути також проблема, пов'язана з системами одиниць, в яких виражений той чи інший регресор. Наприклад, якщо ми представимо значення Y, Х⁽²⁾, Х⁽³ ⁾в доларах, то рівняння регресії буде виглядати наступним чином:

де і = 1, 2,..., 17.

Якщо порівняти отримане рівняння з рівнянням , то помітимо, що коефіцієнти b₂ і b₃ не змінились, а коефіцієнти b₁ та b₄ збільшились, кожний в 1000 разів. Для того щоб коефіцієнти регресії не залежали від масштабу, розглянемо рівняння регресії:

	(18)

де i =1, 2, …, n; y', x'⁽²⁾, …, x'⁽^k⁾ – стандартизовані значення змінних Y, X⁽²⁾, …,X⁽^k⁾, тобто ,

де σ_j – стандартне відхилення X^(j).

Коефіцієнти β*₂,..., β*_k називаються коефіцієнтами «бета». Коефіцієнти «бета» розраховуються в більшості статистичних пакетів при визначенні рівняння регресії.

Легко помітити, що .

Дійсно, при підстановці коефіцієнтів β*₂,..., β*_k в рівняння (18) ми знову отримаємо рівняння регресіїу формі відхилень від середніх. Так як стандартизовані значення у', х'⁽²⁾,..., х'^(k) не залежать від масштабу вихідних змінних, то звідси слідує, що коефіцієнти «бета» також не залежать від масштабу. Щоб зрозуміти важливість рівняння (18) для прогнозування, припустимо, що всі регресори є незалежними нормальними випадковими величинами. Ми зараз розглядаємо регресори як випадкові величини, тоді як при визначенні рівняння лінійної регресії було ясно сказано, що регресори являються константами. Справа в тому, що для кожного моменту часу і реалізація регресор X буде константою, в той час як сам регресор являється випадковою величиною і гіпотетично може приймати різні значення.

В такому випадку стандартизовані регресори х'⁽²⁾,..., х'^(к) будуть рівноцінними в тому сенсі, що всі вони слідують одному й тому ж t(n-1)-розподіл. Тому їх вплив на зміни в значеннях Y визначається виключно величинами відповідних коефіцієнтів «бета». В дійсності через випадковий фактор буде існувати невелика кореляція між регресорами, яка відіб’ється на значеннях коефіцієнтів «бета».

Мультиколінеарність

Так як коефіцієнти b₁, b₂,..., b_k являються лише статистичними оцінками істинних, хоча і не спостережуваних коефіцієнтів β₁, β₂, …, β_k, то через фактори випадковості перші можуть значно відрізнятися від других, що, в свою чергу, може стати причиною поганого прогнозу. Іншими словами, процес адекватно описується моделлю лінійної регресії навіть, можливо, з малою величиною σ_ε = σ, а прогноз виявляється поганим. Причина тут, як правило, чисто статистична, звана мультиколінеарністю.

При expost прогнозуванні коефіцієнт при регресорі значно змінювався. Для цьогоє дві основні причини. По-перше, бізнес-процес може взагалі не слідувати моделі лінійної регресії. По-друге, стандартнівідхилення коефіцієнтів b₁, b₂,..., b_k можуть бутидуже великими, що, в свою чергу, означає, що їх числові значення зважаючи на випадковий характер процесу здатні з досить високим ступенем ймовірності приймати значення, що істотно відрізняються від параметрів системи β₁, β₂, …, β_k. Основною причиною великих стандартних відхилень коефіцієнтів b₁, b₂,..., b_k являється мультиколінеарність.

Мультиколінеарністю називається вплив статистичної лінійної залежності між регресорами на стандартні відхилення коефіцієнтів регресії.

Так як зазвичай хоча б один із коефіцієнтів детермінації R(j)²_k-1 при j = 2, …, k, то мультиколінеарність в тій чи іншій мірі завжди присутня в моделі множинної регресії. Щоб зрозуміти, якої шкоди може завдати мультиколінеарність, припустимо, що у нас є модель, яка досить добре описує бізнес-процес. Що станеться, якщо прогнозист, який бажає вдосконалити модель, вирішить додати ще один регресор, який має значну статистичну лінійну залежність від початкових регресорів? Оскільки додавання нового регресора може тільки збільшити коефіцієнт детермінації, то він зробить помилковий висновок про те, що нова модель є більш точною.Однак через мультиколінеарність прогноз, швидше за все, виявиться абсолютно невірним.

Чи існують способи, що дозволяють позбутися від мультиколінеарності? Прогнозист може виключити з моделі регресори з невиправдано великими стандартними помилками. При цьому можуть бути виключені окремі регресори, вплив яких необхідно враховувати для розуміння процесу. Так що ми маємо тут дві тенденції з діаметрально протилежним ефектом. З економічної точки зору регресор може виявитися істотним для отримання більш адекватної моделі, але з суто статистичних причин його включення може створити проблеми, пов'язані з мультиколінеарністю. По всій видимості, кращим виходом з положення тут могло б стати застосування expost прогнозування, яке дозволить виявити модель, що забезпечує найкращі результати.

Існує тісний зв'язок між мультиколінеарністю, числом регресорів і кількістю спостережень, яку також потрібно враховувати при прогнозуванні. Розглянемо матрицю:

Якщо n < k, то ранг матриці М буде менше, ніж k. У такому випадку n-мірні вектори 1, Х⁽²⁾, Х⁽³⁾,..., Х^(k) будуть лінійнозалежні (тут 1- вектор, що складається з одиниць). Наприклад, якщо n = 2 і k = 3, це означає, що будь-які три вектори на площині будуть лінійно залежні. Тому при визначені моделі лінійної регресії має дотримуватися умова: n > k. Але при малих значеннях різниці (n - k) статистична залежність між векторами буде досить значна, що стане причиною мультиколінеарності. Звідси можна зробити два дуже важливих висновки:

- при малій кількості спостережень число регресорів має бути невеликим;

- по можливості слід збільшувати число спостережень.

Розбиття часових інтервалів на більш дрібні не гарантує підвищення точності прогнозу. Отримані значення представляють собою нові, хоча і тісно пов'язані з первісними, випадкові величини.

Тема 3. Застосування кореляційного та регресійного аналізу у фінансових розрахунках

Лекція 3.2. Очищення змінних. Нелінійний зв’язок між змінними

План

1. Очищення змінних

2. Нелінійний зв’язок між змінними

3. Функція еластичності

Мета:

надати приклади практичного використання регресійної моделі в економіці

Література:

Основна:

[2], [6], [8], [9]

Додаткова:

Питання для самоконтролю:

1. Навіщо потрібно очищення змінних?

2. Навіщо потрібно використовувати метод підгонки? Приведіть економічні приклади.

3. Які нелінійні зв’язки Ви знаєте?

4. Про що говорять значення функції еластичності?

Очищення змінних. Окремий коефіцієнт кореляції

Виникнення паразитного лінійного зв'язку між двома змінними часто можна пояснити тим, що хоча ці змінні і не зв'язані одна з одною причинно, зміна кожної з них досить добре пояснюється зміною значень деякої третьої змінної, "координуючої" динаміку зміни перших двох змінних. Проілюструємо це на прикладі даних.

При розгляданні зазначеного приклада підбиралася модель лінійного зв'язку між значеннями сумарного виробництва електроенергії в США (E) і світового рекорду на кінець року в стрибках у висоту із жердиною серед чоловіків (H). Коефіцієнт детермінації для цієї моделі виявився досить високим, рівним 0.900.

Оскільки динаміка зміни цих двох показників у періоді спостережень виявляє видимий додатний тренд. спробуємо наблизити кожний із них лінійною функцією від часу. Підбір методом найменших квадратів приводить до моделей:

Е = 613.333 + 59.539 t, Н = 459.067 + 7.461 t,

де t позначає t-й рік періоду спостережень. При цьому, у першому випадку коефіцієнт детермінації дорівнює 0.9812, а в другому коефіцієнт детермінації дорівнює 0.8705. Інакше кажучи, мінливість змінних Е і Н досить добре "пояснюється" зміною змінної t, що фактично є виразником "технічного і спортивного прогресу".

Аби знайти "об'єктивний" зв'язок між показниками Е і Н, "очищений" від впливу на ці показники фактора часу, природно поступити таким чином.

Візьмемо ряд залишків

е_Е(t) = Е_t - (613.333 + 59.539t),

одержаних при підборі першої моделі, і ряд залишків

е_H(t) = Н_t - (459.067 + 7.461t),

одержаних при підборі другої моделі. Тоді змінні е_Е і е_H які приймають значення е_Е(t) і е_H(t), t = 1,...,10 відповідно, можна інтерпретувати, як результат "очищення" змінних Е і Н від лінійного тренда в часі. Відповідно, "істинний" лінійний зв'язок між змінними Е і Н, якщо такий є, повинен, швидше за все, вимірюватися коефіцієнтом кореляції між "очищеними" змінними е_Е і е_Н.

Підібраний лінійний зв'язок між е_Е і е_Н має вигляд

е_Е = 0.0000 + 1.420 е_Н;

при цьому одержуємо значення R² = 0.2454 проти значення 0.900 в моделі з "неочищеними" змінними. Коефіцієнт кореляції між "очищеними" змінними е_Е і е_Н.

майже вдвічі менший від коефіцієнта кореляції між "неочищеними" змінними Е і Н.

Коефіцієнт кореляції між "очищеними" змінними е_Е і е_Н називається окремим коефіцієнтом кореляції між змінними Е і Н при виключенні впливу на них змінної t.

Надалі покажемо, що значення при п = 10 "занадто мале" для того, аби можна було відкинути гіпотезу про те, що коефіцієнт при е_Н в лінійній моделі зв'язку

е_Е = γ + δ* е_Н

дійсно дорівнює нулю.

Нелінійний зв’язок між змінними. Основні види кривих підгонки.

Метод підгонки входить до числа найвідоміших методів прогнозування. Він полягає в тому, щоб знайти криву або групу кривих, які з достатньою точністю описували б початкову інформацію. Розрізняють наступні види кривих підгонки: лінійна, параболічна, поліноміальна 3 ступеню, логарифмічна, експоненційна, ступенева, гіперболічна, логістична, S-образна. Існують і інші види кривих, але перелічені криві є найбільш поширеними і вживаними.

Рівняння прямої підгонки називається лінійним рівнянням регресії У по X (у прогнозуванні оцінене значення змінної прийнято позначати з кришкою вгорі: ) (див. рис. 1).

Рисунок 1 – Лінія регресії

Рівняння параболи має наступний вигляд На рис.2 зображений графік параболи.

Рисунок 2 – Крива підгонки – парабола

Рівняння третього ступеня має вигляд (див. рис. 3):

Рисунок 3 – Крива підгонки – графік многочлена третього ступеня

Рівняння логарифмічної функції має вигляд: (див. рис. 4).

Рисунок 4 – Крива підгонки – графік логарифмічної функції

Рівняння експоненціальної кривої має вигляд: = b₁ exp(b₂t).

Ми нагадаємо, що exp(z)= e ^z, де е ≈ 2,718. Зважаючи на важливість цього виду рівнянь для прогнозування, ми зупинимося на ньому докладніше. Розглянемо темп зростання у момент t.

Ми бачимо, що темпи зростання для експоненціальної кривої на даному інтервалі постійні. Оскільки e^z - 1 ≈ z при малих значеннях z, то b₂ × 100% приблизно рівно темпам приросту (див. рис. 2.5).

Рисунок 2.5 – Крива підгонки – експоненціальна крива

Рівняння ступеневої функції виглядає таким чином: = b₁ (t^b2) (див. рис. 6).

Рисунок 6 – Крива підгонки – графік ступеневої функції

Рівняння гіперболи має вигляд: (див. рис. 7).

Рисунок 7 – Крива підгонки – гіпербола

Рівняння S-образної кривої має вигляд: . Як видно з цього рівняння, S-образна крива виходить шляхом послідовного застосування гіперболічної і експоненціальної функцій (див. рис. 8).

Рисунок 8 – Крива підгонки – S-образна крива

Рівняння логістичної кривої має вигляд (див. рис. 9).

Рисунок 9 – Крива підгонки – логістична крива

2.2 Коефіцієнт детермінації та інші способи оцінки моделей

Середньо квадратична помилка (mean squared error, MSE) розраховується за формулою:

де: n – кількість спостережень;

е – залишок, який визначається, як ;

Yi – фактичне значення показника;

– теоретичне значення показника.

Коефіцієнт детермінації характеризує ступінь близькості змодельованих значень в їх сукупності до початкових даних. Нагадаємо, що коефіцієнт детермінації визначається виразом і позначається як R². Отже, коефіцієнт детермінації:

((1)

де: – середнє значення показника.

З визначення виходить, що R²≤ 1. Рівність R² = 1 можливо тоді і тільки тоді, коли всі залишки рівні нулю, тобто процес в точності описується моделлю; проте на практиці цього майже ніколи не трапляється. З (1) витікає, що для одного і того ж набору даних коефіцієнт детермінації R² буде ближчим до одиниці у моделі з меншою середньоквадратичною помилкою. Таким чином, R² дійсно характеризує ступінь близькості змодельованих даних в їх сукупності до початкових даних. З формули (1) також витікає, що значення коефіцієнта детермінації залежить від дисперсії початкових даних. Наприклад, моделі для двох різних рядів даних можуть мати одні і ті ж значення залишків е₁, е₂,..., е_n, але ряд даних з великим значенням дисперсії матиме і більше значення коефіцієнта детермінації.

У разі лінійної регресії невід’ємне число називається коефіцієнтом множинної кореляції і використовується набагато рідше, ніж коефіцієнт детермінації.

R² є часткою від ділення дисперсії з модельованих значень на дисперсію початкових. У ідеальному випадку, коли R² = 1, Var()= Var(Y). Всі крапки (Х₁, Y₁), (X₂, Y₂),..., (Х_n, Y_n) лежать на одній і тій же прямій тоді і тільки тоді, коли |р(Х, У)| = 1. р може приймати негативні значення, а R, за визначенням, повинен бути завжди більше або рівний нулю.

Коефіцієнт детермінації, безумовно, є важливим критерієм при виборі моделі. Якщо модель погано описує початкові дані, від неї не можна чекати добрих результатів при прогнозуванні. На жаль, зворотне невірне.

При порівнянні різних моделей крім коефіцієнта детермінації R² використовуються також дві інші характеристики – MAD і МАРЕ.

Вираз називається середнім абсолютним відхиленням (mean absolute deviation, MAD).

Вираз називається середньою абсолютною помилкою у відсотках (mean absolute percent error, МАРЕ).

На відміну від R², і MAD, і МАРЕ мають простий наочний сенс, що важливе для їх практичного застосування.

MAD і МАРЕ виявляються корисними при порівнянні залишків окремих значень моделі.

Еластичність функції

Під еластичністю функції у = f (x) розуміємо границю відношення відносного приросту функції до відносного приросту аргументу, коли приріст аргументу прямує до нуля:

Тема 4. Методи фінансового прогнозування.

Прогнозування за допомогою метода екстраполяції

План

1. Основні поняття

2. Процедурні етапи методу екстраполяції

⇐ Предыдущая 3 4 5 678 9 10 11 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2017-02-01; Просмотров: 77; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopediasu.com - Студопедия (2013 - 2026) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.01 сек.