КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Вибір найближчого елемента в стовпці j матриці відстаней 2 страница
Звертає на себе увагу той факт, що у формулі (11) відсутня X(1). Справа в тому, що при вивченні різних властивостей моделі (11) зручно вважати, що X(1) тотожно дорівнює одиниці (Х(1) ≡ 1). Тому модель (11) часто записується у вигляді:
де і = 1, 2,..., n; к ≥ 2. При цьому, як уже сказано, Хi(1) ≡ 1 для всіх і. Добавимо ще одну умову, яка формулюється наступним чином: Ні одна із змінних Х(1), Х(2),..., Х(k) не являється лінійною комбінацією інших. З (11) випливає, що E(Yt) = β1 + β2Xi(2) +…+ βkXi(k). Таким чином, так же, які увипадкуз одним регресором, модель лінійної регресії з довільним числом регресорів ми могли б визначити як лінійну залежність E(Y) від змінних Х(1), Х(2),..., Х(k) з параметрами β1, β2, …, βk, що не залежать від і. Запишемо формулу (11) у вигляді системи рівнянь:
Система рівнянь (13) може бути записана в матричній формі наступним чином:
де
Змінні Х(2),..., Х(k) називаються пояснюючими, тому що при будь-якому i значення Yi однозначно ними визначено з точністю до випадкового члена εi. У число пояснюючих можуть входити і змінні, які не є заданими функціями часу f(і). У цьому випадку модель називається каузальною. Визначення оптимальної кількості пояснюючих змінних, що адекватно описують зміни залежної змінної Y, - одне з найбільш важливих завдань, що стоять перед прогнозистом. Завдання це, як ми побачимо надалі, зовсім не просте є скоріше процесом, ніж одноразовим рішенням. Крім чіткого розуміння виробничої діяльності свого підприємства і знання макроекономічних показників прогнозист повинен також добре розбиратися в статистичних властивостях моделі множинної регресії.
Відбір регресорів. При підготовці даних прогнозист повинен першза все знайти набір регресорів, здатних вплинути на процес, що генерує величини Y1, Y2,..., Yn. На наступному етапі він повинен вирішити, які з цих регресорів слід залишити в моделі, тобто визначити регресори, необхідні для прогнозування майбутніх значень Y. Важливим показником оцінки моделі лінійної регресії (11) є коефіцієнт детермінації:
Буде вірною також наступна формула:
Як і у випадку з одним регресором, При додаванні нових регресорів коефіцієнт детермінації R2k практично завжди зростає. Те, що коефіцієнт детермінації R2k не може зменшитися, випливає з того факту, що при скороченні числа регресорів отримана модель є окремим випадком первісної, коли коефіцієнти при відсутніх регресорах дорівнюють нулю. Тому величина R2k не може бути критерієм при вирішенні питання, чи потрібно вводити додаткові регресори в модель. При визначенні числа регресорів в першу чергу намагаються позбавитися від регресорів, у яких 95%-і довірчі інтервали для відповідних коефіцієнтів можуть містити нулі. 95%-ний довірчий інтервал для коефіцієнта регресії βj буде наступним:
де zjj — j -й діагональний елемент матриці (М'М)-1. Так як bj являється лінійною комбінацією нормальних випадкових величин Y1, Y2,..., Yk, тоді bj також буде нормальною випадковою величиною. Величина Зазвичай замість 95%-ного довірчогоінтервалу для βj застосовують інший спосіб, який заснований на розгляді випадкової величини: Припустимо, що βj = 0. В такому ипадку величина Для вихідних даних визначають Р -значення t -статистики для коефіцієнта βj. Воно дорівнює ймовірності того, що випадкова величина, яка слідує t(n-k)-розподілу, прийме значення, що по модулю перевищує абсолютне значення t-статистики. Тобто знаходять:
Якщо Р-значення менше 5%, тобто Як визначити, чи збільшився коефіцієнт детермінації на стільки, щоб можна було залишити нові регресори в моделі? Для цього замість r2 розглядають скоригований коефіцієнт детермінації:
Скоригований коефіцієнт детермінації часто використовується, коли потрібно вирішити, чи слід додавати додаткові регресори в модель. Нові регресори додають за умови, що скоригований коефіцієнт детермінації збільшився. При практичному прогнозуваннізазвичай роблять навпаки. Спочатку вводять повний набір регресорів в комп'ютер і, після того як програма залишила тільки ті регресори, довірчі інтервали яких не містятьнулі, починають по черзі виключати регресори, у яких t-статистика не більше одиниці. При порівнянні моделей з різним числом регресорівв прогнозуванні використовуються також два інших коефіцієнта – критерій Шварца:
та інформаційний критерій Акайка:
Як і скоригований коефіцієнт детермінації, обидва цих коефіцієнта призначені для того, щоб «карати»за включення в модель регресорів, що не призводять до значного підвищення здатності моделі описувати процес. Але на відміну від, рішення про те, щоб залишити нові регресори в рівнянні, приймають тільки при зменшенні SC або АIС. Бета-уявлення При вивченні рівняння регресії може виникнути також проблема, пов'язана з системами одиниць, в яких виражений той чи інший регресор. Наприклад, якщо ми представимо значення Y, Х(2), Х(3 ) в доларах, то рівняння регресії буде виглядати наступним чином:
де і = 1, 2,..., 17. Якщо порівняти отримане рівняння з рівнянням
де i =1, 2, …, n; y', x'(2), …, x'(k) – стандартизовані значення змінних Y, X(2), …,X(k), тобто де σj – стандартне відхилення X(j). Коефіцієнти β*2,..., β*k називаються коефіцієнтами «бета». Коефіцієнти «бета» розраховуються в більшості статистичних пакетів при визначенні рівняння регресії. Легко помітити, що Дійсно, при підстановці коефіцієнтів β*2,..., β*k в рівняння (18) ми знову отримаємо рівняння регресіїу формі відхилень від середніх. Так як стандартизовані значення у', х'(2),..., х'(k) не залежать від масштабу вихідних змінних, то звідси слідує, що коефіцієнти «бета» також не залежать від масштабу. Щоб зрозуміти важливість рівняння (18) для прогнозування, припустимо, що всі регресори є незалежними нормальними випадковими величинами. Ми зараз розглядаємо регресори як випадкові величини, тоді як при визначенні рівняння лінійної регресії було ясно сказано, що регресори являються константами. Справа в тому, що для кожного моменту часу і реалізація регресор X буде константою, в той час як сам регресор являється випадковою величиною і гіпотетично може приймати різні значення. В такому випадку стандартизовані регресори х'(2),..., х'(к) будуть рівноцінними в тому сенсі, що всі вони слідують одному й тому ж t(n-1)-розподіл. Тому їх вплив на зміни в значеннях Y визначається виключно величинами відповідних коефіцієнтів «бета». В дійсності через випадковий фактор буде існувати невелика кореляція між регресорами, яка відіб’ється на значеннях коефіцієнтів «бета».
Мультиколінеарність Так як коефіцієнти b1, b2,..., bk являються лише статистичними оцінками істинних, хоча і не спостережуваних коефіцієнтів β1, β2, …, βk, то через фактори випадковості перші можуть значно відрізнятися від других, що, в свою чергу, може стати причиною поганого прогнозу. Іншими словами, процес адекватно описується моделлю лінійної регресії навіть, можливо, з малою величиною σε = σ, а прогноз виявляється поганим. Причина тут, як правило, чисто статистична, звана мультиколінеарністю. При expost прогнозуванні коефіцієнт при регресорі значно змінювався. Для цьогоє дві основні причини. По-перше, бізнес-процес може взагалі не слідувати моделі лінійної регресії. По-друге, стандартнівідхилення коефіцієнтів b1, b2,..., bk можуть бутидуже великими, що, в свою чергу, означає, що їх числові значення зважаючи на випадковий характер процесу здатні з досить високим ступенем ймовірності приймати значення, що істотно відрізняються від параметрів системи β1, β2, …, βk. Основною причиною великих стандартних відхилень коефіцієнтів b1, b2,..., bk являється мультиколінеарність. Мультиколінеарністю називається вплив статистичної лінійної залежності між регресорами на стандартні відхилення коефіцієнтів регресії. Так як зазвичай хоча б один із коефіцієнтів детермінації R(j)2k-1 при j = 2, …, k, то мультиколінеарність в тій чи іншій мірі завжди присутня в моделі множинної регресії. Щоб зрозуміти, якої шкоди може завдати мультиколінеарність, припустимо, що у нас є модель, яка досить добре описує бізнес-процес. Що станеться, якщо прогнозист, який бажає вдосконалити модель, вирішить додати ще один регресор, який має значну статистичну лінійну залежність від початкових регресорів? Оскільки додавання нового регресора може тільки збільшити коефіцієнт детермінації, то він зробить помилковий висновок про те, що нова модель є більш точною.Однак через мультиколінеарність прогноз, швидше за все, виявиться абсолютно невірним. Чи існують способи, що дозволяють позбутися від мультиколінеарності? Прогнозист може виключити з моделі регресори з невиправдано великими стандартними помилками. При цьому можуть бути виключені окремі регресори, вплив яких необхідно враховувати для розуміння процесу. Так що ми маємо тут дві тенденції з діаметрально протилежним ефектом. З економічної точки зору регресор може виявитися істотним для отримання більш адекватної моделі, але з суто статистичних причин його включення може створити проблеми, пов'язані з мультиколінеарністю. По всій видимості, кращим виходом з положення тут могло б стати застосування expost прогнозування, яке дозволить виявити модель, що забезпечує найкращі результати. Існує тісний зв'язок між мультиколінеарністю, числом регресорів і кількістю спостережень, яку також потрібно враховувати при прогнозуванні. Розглянемо матрицю:
Якщо n < k, то ранг матриці М буде менше, ніж k. У такому випадку n-мірні вектори 1, Х(2), Х(3),..., Х(k) будуть лінійнозалежні (тут 1- вектор, що складається з одиниць). Наприклад, якщо n = 2 і k = 3, це означає, що будь-які три вектори на площині будуть лінійно залежні. Тому при визначені моделі лінійної регресії має дотримуватися умова: n > k. Але при малих значеннях різниці (n - k) статистична залежність між векторами буде досить значна, що стане причиною мультиколінеарності. Звідси можна зробити два дуже важливих висновки: - при малій кількості спостережень число регресорів має бути невеликим; - по можливості слід збільшувати число спостережень. Розбиття часових інтервалів на більш дрібні не гарантує підвищення точності прогнозу. Отримані значення представляють собою нові, хоча і тісно пов'язані з первісними, випадкові величини.
Тема 3. Застосування кореляційного та регресійного аналізу у фінансових розрахунках Лекція 3.2. Очищення змінних. Нелінійний зв’язок між змінними
План 1. Очищення змінних 2. Нелінійний зв’язок між змінними 3. Функція еластичності
Мета: надати приклади практичного використання регресійної моделі в економіці
Література:
Основна:
[2], [6], [8], [9]
Додаткова:
Питання для самоконтролю: 1. Навіщо потрібно очищення змінних? 2. Навіщо потрібно використовувати метод підгонки? Приведіть економічні приклади. 3. Які нелінійні зв’язки Ви знаєте? 4. Про що говорять значення функції еластичності?
Очищення змінних. Окремий коефіцієнт кореляції
Виникнення паразитного лінійного зв'язку між двома змінними часто можна пояснити тим, що хоча ці змінні і не зв'язані одна з одною причинно, зміна кожної з них досить добре пояснюється зміною значень деякої третьої змінної, "координуючої" динаміку зміни перших двох змінних. Проілюструємо це на прикладі даних. При розгляданні зазначеного приклада підбиралася модель лінійного зв'язку між значеннями сумарного виробництва електроенергії в США (E) і світового рекорду на кінець року в стрибках у висоту із жердиною серед чоловіків (H). Коефіцієнт детермінації для цієї моделі виявився досить високим, рівним 0.900. Оскільки динаміка зміни цих двох показників у періоді спостережень виявляє видимий додатний тренд. спробуємо наблизити кожний із них лінійною функцією від часу. Підбір методом найменших квадратів приводить до моделей:
Е = 613.333 + 59.539 t, Н = 459.067 + 7.461 t,
де t позначає t-й рік періоду спостережень. При цьому, у першому випадку коефіцієнт детермінації дорівнює 0.9812, а в другому коефіцієнт детермінації дорівнює 0.8705. Інакше кажучи, мінливість змінних Е і Н досить добре "пояснюється" зміною змінної t, що фактично є виразником "технічного і спортивного прогресу". Аби знайти "об'єктивний" зв'язок між показниками Е і Н, "очищений" від впливу на ці показники фактора часу, природно поступити таким чином. Візьмемо ряд залишків
еЕ(t) = Еt - (613.333 + 59.539t),
одержаних при підборі першої моделі, і ряд залишків
еH(t) = Нt - (459.067 + 7.461t),
одержаних при підборі другої моделі. Тоді змінні еЕ і еH які приймають значення еЕ(t) і еH(t), t = 1,...,10 відповідно, можна інтерпретувати, як результат "очищення" змінних Е і Н від лінійного тренда в часі. Відповідно, "істинний" лінійний зв'язок між змінними Е і Н, якщо такий є, повинен, швидше за все, вимірюватися коефіцієнтом кореляції Підібраний лінійний зв'язок між еЕ і еН має вигляд
еЕ = 0.0000 + 1.420 еН; при цьому одержуємо значення R2 = 0.2454 проти значення 0.900 в моделі з "неочищеними" змінними. Коефіцієнт кореляції між "очищеними" змінними еЕ і еН.
майже вдвічі менший від коефіцієнта кореляції Коефіцієнт кореляції Надалі покажемо, що значення еЕ = γ + δ* еН дійсно дорівнює нулю.
Нелінійний зв’язок між змінними. Основні види кривих підгонки.
Метод підгонки входить до числа найвідоміших методів прогнозування. Він полягає в тому, щоб знайти криву або групу кривих, які з достатньою точністю описували б початкову інформацію. Розрізняють наступні види кривих підгонки: лінійна, параболічна, поліноміальна 3 ступеню, логарифмічна, експоненційна, ступенева, гіперболічна, логістична, S-образна. Існують і інші види кривих, але перелічені криві є найбільш поширеними і вживаними. Рівняння прямої підгонки
Рисунок 1 – Лінія регресії
Рівняння параболи має наступний вигляд
Рисунок 2 – Крива підгонки – парабола
Рівняння третього ступеня має вигляд
Рисунок 3 – Крива підгонки – графік многочлена третього ступеня
Рівняння логарифмічної функції має вигляд:
Рисунок 4 – Крива підгонки – графік логарифмічної функції
Рівняння експоненціальної кривої має вигляд: Ми нагадаємо, що exp(z)= e z, де е ≈ 2,718. Зважаючи на важливість цього виду рівнянь для прогнозування, ми зупинимося на ньому докладніше. Розглянемо темп зростання у момент t.
Ми бачимо, що темпи зростання для експоненціальної кривої на даному інтервалі постійні. Оскільки ez - 1 ≈ z при малих значеннях z, то b2 × 100% приблизно рівно темпам приросту (див. рис. 2.5).
Рисунок 2.5 – Крива підгонки – експоненціальна крива Рівняння ступеневої функції виглядає таким чином:
Рисунок 6 – Крива підгонки – графік ступеневої функції
Рівняння гіперболи має вигляд:
Рисунок 7 – Крива підгонки – гіпербола
Рівняння S-образної кривої має вигляд:
Рисунок 8 – Крива підгонки – S-образна крива Рівняння логістичної кривої має вигляд
Рисунок 9 – Крива підгонки – логістична крива
2.2 Коефіцієнт детермінації та інші способи оцінки моделей Середньо квадратична помилка (mean squared error, MSE) розраховується за формулою:
де: n – кількість спостережень; е – залишок, який визначається, як Yi – фактичне значення показника;
Коефіцієнт детермінації характеризує ступінь близькості змодельованих значень в їх сукупності до початкових даних. Нагадаємо, що коефіцієнт детермінації визначається виразом
де: З визначення виходить, що R2≤ 1. Рівність R2 = 1 можливо тоді і тільки тоді, коли всі залишки рівні нулю, тобто процес в точності описується моделлю; проте на практиці цього майже ніколи не трапляється. З (1) витікає, що для одного і того ж набору даних коефіцієнт детермінації R2 буде ближчим до одиниці у моделі з меншою середньоквадратичною помилкою. Таким чином, R2 дійсно характеризує ступінь близькості змодельованих даних в їх сукупності до початкових даних. З формули (1) також витікає, що значення коефіцієнта детермінації залежить від дисперсії початкових даних. Наприклад, моделі для двох різних рядів даних можуть мати одні і ті ж значення залишків е1, е2,..., еn, але ряд даних з великим значенням дисперсії матиме і більше значення коефіцієнта детермінації. У разі лінійної регресії невід’ємне число R2 є часткою від ділення дисперсії з модельованих значень на дисперсію початкових. У ідеальному випадку, коли R2 = 1, Var( Коефіцієнт детермінації, безумовно, є важливим критерієм при виборі моделі. Якщо модель погано описує початкові дані, від неї не можна чекати добрих результатів при прогнозуванні. На жаль, зворотне невірне. При порівнянні різних моделей крім коефіцієнта детермінації R2 використовуються також дві інші характеристики – MAD і МАРЕ. Вираз Вираз На відміну від R2, і MAD, і МАРЕ мають простий наочний сенс, що важливе для їх практичного застосування. MAD і МАРЕ виявляються корисними при порівнянні залишків окремих значень моделі. Еластичність функції Під еластичністю функції у = f (x) розуміємо границю відношення відносного приросту функції до відносного приросту аргументу, коли приріст аргументу прямує до нуля:
Тема 4. Методи фінансового прогнозування. Прогнозування за допомогою метода екстраполяції
План 1. Основні поняття 2. Процедурні етапи методу екстраполяції
Дата добавления: 2017-02-01; Просмотров: 77; Нарушение авторских прав?; Мы поможем в написании вашей работы! |