КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Вибір найближчого елемента в стовпці j матриці відстаней 1 страница
Побудова оптимального дендрита полягає у встановленні зв'язків між одиницями, які найменш відрізняються один від одного. З цією метою з складеної матриці відстаней вибираються одиниці з близькими значеннями ознак. Пошук таких одиниць проводиться шляхом знаходження найменших чисел у кожному стовпці (або рядку) матриці. Шукані найближчі одиниці позначені номерами рядків (або стовпчиків), в яких знаходяться найменші числа. Якщо, наприклад, треба знайти одиницю, яка найменш відрізняється від j, то досить відшукати найменше число в стовпці j. Нехай цим числом буде елемент сij, що знаходиться в рядку i. Тоді найближчій до одиниці j буде одиниця i. Даний приклад вибору найближчого елемента ілюструється табл. 2.4. Запропонований авторами вроцлавської таксономії спосіб побудови оптимального дендрита складається з декількох етапів. На першому етапі встановлюються зв'язку кожної з досліджуваних одиниць з найближчими одиницями. Для зручності опису виконуваних операцій припустимо, що у нас є набір одиниць, позначених символами 1, 2, 3, 4, 5, 6, 7, 8, 9. Далі, припустимо, що в цій множині з дев'яти елементів отримано такі поєднання найближчих одиниць (рис. 2.3).
Рис. 2.3. Сполучення найближчих одиниць
Неважко помітити, що деякі зв'язки зустрічаються двічі, наприклад 1-3 і 3-1 (тобто до одиниці 1 найближче стоїть одиниця 3, а до одиниці 3 найближче розташована одиниця 1). Оскільки при побудові дендрита черговість встановлення зв'язків не грає ролі, одне з повторюваних поєднань завжди виключається. Подібне проводиться для всіх виділених пар зв'язків. Це призводить до того, що залишаються зв'язку 2-7 і 8-9, а зв'язки 7-2 і 9-8 відкидаються. Для решти двох зв'язків характерна наявність одиниці, означеної номером 5, тому зв'язки 4-5 і 5-6 можна об'єднати в один загальний набір. У результаті вийдуть чотири окремі конструкції, звані скупченнями (об’єднаннями) 1-го порядку (рис. 2.4).
Рис. 2.4. Скупчення 1-го порядку
Отримані скупчення не задовольняють основним умовам дендрита, а саме вони не пов'язані в єдине ціле. Для виконання цієї вимоги вибирається найменша відстань між одиницями, що входять в різні скупчення 1-го порядку. Відповідний відрізок стає зв'язком між двома скупченнями. У результаті виходять скупчення 2-го порядку. (Якщо ці скупчення також виявляються ізольованими, то вищезазначена операція повторюється, що призводить до отримання скупчення 3-го, а потім і вищих порядків. Процес побудови дендрита закінчується, коли будь-які дві точки досліджуваної множини виявляються зв'язаними один з одним. Чергова процедура, яку належить тепер виконати, полягає в знаходженні найменшої відстані кожної одиниці одного скупчення від одиниць інших скупчень. Потім з цих відстаней вибирається найменше, яке стає зв'язком, що з'єднує окремі скупчення. Припустимо, що шуканими виявилися відстані між одиницями 5 і 3, а також одиницями 2 і 8 (див. рис. 2.5).
Рис. 2.5. Скупчення 2-го порядку
Знаходження найменшої відстані між скупченнями 2-го порядку і об'єднання їх в одне загальне ціле - остання операція в розглянутому прикладі, якою завершується процедура побудови дендрита. Припустимо, що таким зв'язком виявився зв'язок між одиницями 5 і 8, тоді дендрит дев'ятиелементного набору виглядає так, як показано на рис. 2.6.
Рис. 2.6. Дендрит, побудований на одиницях досліджуваної множини
3. Розбиття ЕЛЕМЕНТІВ КІНЦЕВОЇ МНОЖИНИ НА ГРУПИ
3.1. ДІАГРАМА Чекановського: ВИДІЛЕННЯ ГРУП
Метод Чекановського найчастіше використовується для розбиття множини елементів на однорідні підмножини, звані групами. До складу однорідних підмножин входять подібні елементи, що володіють близькими значеннями ознак. Таким чином, це метод, яким користуються в дослідженнях, що мають на меті виділення груп з елементами, які мало відрізняються один від одного з точки зору значень ознак, які їх характеризують. Групи однорідних елементів виявляються на основі впорядкованої діаграми. На головній діагоналі такої діаграми знаходяться групи знаків, що позначають найменшу різницю між досліджуваними одиницями. Саме ці групи знаків вказують на виділені групи елементів. Кожна група знаків (відповідних найменшим відмінностям), яка розміщена на головній діагоналі діаграми, визначає групу елементів зі значеннями ознак, які їх характеризують і мало відрізняються між собою. Як приклад, що ілюструє виділення груп схожих елементів, може служити упорядкована діаграма, представлена в табл. 2.3. Легко помітити, що перші сім елементів досліджуваного набору утворили одну групу з трьох елементів (2-5-6), одну групу з двох елементів (1-4) і дві групи по одному елементу (3 і 7).
3.2. ОптимальнЕ розбиття ДендритА
Метод дендритів служить перш за все для впорядкування елементів. Його також можна застосовувати для розбиття множини на однорідні підмножини. У цьому випадку автори вроцлавської таксономії пропонують два варіанти дій. Перший варіант належить випадку, коли заздалегідь відомо число частин, на які слід розділити досліджувану множину. Він полягає в тому, що з дендрита, побудованого на одиницях розбиваємої множини, видаляється n -1 найдовших зв'язків. Тим самим виходить розбиття дендрита (а отже, і одиниць безлічі) на n заздалегідь заданих частин. Отримане розбиття є в певному сенсі найкраще, тому що дендрити, побудовані на елементах виділених n частин, характеризуються мінімальною сумою відрізків, які їх утворюють. Отримані підмножини, отже, включають елементи з близькими значеннями ознак. Другий варіант пов'язаний з природним способом визначення числа частин, на які ділиться досліджувана множина. Щоб справити подібне природне розбиття, необхідно виконати наступні дії. Перш за все, зв'язки дендриту, побудованого на одиницях досліджуваної множини, упорядковують за спаданням їх довжини. Потім будуються відношення довжин сусідніх зв'язків:
(3.1)
де d1, d2,..., dω-1 – впорядковані довжини зв'язків, i2, i3, …, iω-1 – відношення довжин зв'язків. Наступна операція полягає в знаходженні значення k, для якого виконується співвідношення, що є підставою розбиття множини природним чином. Цій меті служить нерівність:
(3.2) Може виявитися, що в ряду обчислених відносин наведене нерівність буде виконуватися кілька разів. У цьому випадку вводиться ще одна додаткова умова. Ця додаткова умова визначається співвідношенням
(3.3)
Якщо воно виконується, то можна стверджувати, що кращим є розбиття на k частин.
4 ФОРМУВАННЯ НАБОРУ ДІАГНОСТИЧНИХ ОЗНАК
4.1 ГРУПУВАННЯ І ВИБІР репрезентантів
У багатьох економічних дослідженнях виникає потреба у зменшенні кількості ознак, що описують досліджувану область діяльності. Однак при зменшенні числа змінних необхідно дотримуватися деяких вимог, з тим щоб опис, що вийшов, не спотворював дійсності. Цій меті відповідає метод виділення так званих діагностичних ознак. При цьому методі прагнуть отримати ознаки, які найбільш повно характеризували б досліджувані об'єкти, але при цьому утворювали б якомога менш чисельний набір. Наведені вимоги виконуються тоді, коли діагностичні ознаки мають наступні властивості: - некорельованості або слабка корельованість між собою; - сильна корельованість з ознаками, що не входять в діагностичний набір; - дозволяють розділяти досліджувані одиниці, тобто характеризуються високою варіацією по всіх одиницях множини і досить низькою варіацією по одиницях всередині виділених груп; - не зазнають зовнішніх впливів. Найважливішу роль відіграють, звичайно, дві перші властивості, оскільки вони виключають ознаки, що повторюють одну і ту ж інформацію, а також забезпечують вибір ознак, які найкращим чином представляють усі ті елементи, які не входять в даний набір. Для того щоб виконувалась перша з цих властивостей, використовують методи розбиття на групи, описані в розділі 3. У свою чергу, використання методів вибору репрезентантів (описаних у розділі 4) рівнозначно виконанню другої умови. Тому якщо в сукупності ознак, що характеризують досліджувані одиниці, виділити групи подібних ознак, а потім вибрати репрезентанти в кожній групі, то отримані таким чином ознаки задовольняють двом першим умовам, що накладаються на діагностичні ознаки. Перевірка третьої умови полягає в порівнянні коефіцієнта варіації для всіх одиниць досліджуваної множини з коефіцієнтами варіації, обчисленими для одиниць виділених груп. Виконання зазначеної умови має місце тоді, коли спостерігається істотна різниця між значеннями цих коефіцієнтів. Перевірка четвертого властивості досить важка. Її не можна зробити за допомогою математико-статистичних методів. Упевнитися в тому, що вона виконується, можна шляхом відповідного якісного аналізу. Процедура угруповання ознак виконується таким же чином, як і описаний раніше метод угрупування одиниць. Різниця полягає лише в тому, що для його проведення необхідно розташовувати в матриці відстані між ознаками. Елементи цієї матриці знаходять шляхом обчислення відстаней між окремими точками-ознаками. Таким чином, тут ми маємо справу не з точками-одиницями n -мірного простору, а з точками-ознаками, що знаходяться в ω -мірному просторі. Тому розглянута процедура являє собою завдання, в деякому сенсі двоїсту по відношенню до методу виділення груп схожих одиниць. Двоїстість полягає в тому, що набір n ознак характеризується ω одиницями. Цей набір ознак можна описати таким чином:
(4.1)
де хik – значення ознаки k для одиниці i. При розрахунку елементів матриці відстаней між ознаками використовуються формули, наведені в розділі 1. Можна, однак (в даний час все частіше так і робиться), скористатися формулами [5], до числа яких входить: коефіцієнт кореляції
(4.2)
причому
(4.3) (4.4-4.7)
і коефіцієнт кореляції рангів
(4.8)
причому
(4.9)
де υr – порядковий номер значення ознаки r у ранжированному ряду значень ознаки, υs – порядковий номер значення ознаки s в ранжированному ряду значень ознаки, ω - число значень ознаки.
4.2. ПРИСВОЄННЯ КОЕФІЦІЄНТІВ ІЄРАРХІЇ
Операцією, що передує кожній таксономічній процедурі, є стандартизація ознак. Вона необхідна, оскільки всі ознаки повинні бути порівнянні шляхом виключення одиниць виміру. Стандартизація має, однак, і негативні наслідки, які полягають в тому, що кожен з стандартизованих ознак надає в середньому однаковий вплив на відстань між досліджуваними об'єктами. Пом'якшення цього небажаного явища можна домогтися введенням коефіцієнтів ієрархії, що розділяють ознаки по їх важливості. Ці коефіцієнти відображають становище кожної ознаки, його значення і роль у проведеному дослідженні. Тому їх використання є необхідністю також і у випадку виділення досить великого набору діагностичних змінних, оскільки вони сприяють зростанню значення декількох ознак при одночасному зменшенні впливу інших. Розглянемо два способи розрахунку коефіцієнтів ієрархії для діагностичних ознак. При першому способі використовуються відстані, що фігурують у дендрит, побудованому на елементах набору діагностичних змінних. Як відомо, елементи дендрита пов'язані найкоротшим шляхом нелінійним чином. Це нелінійне впорядкування характеризується крім усього іншого тим, що зазвичай спостерігається неоднакове число зв'язків між окремими ознаками. У розглянутому методі за основу побудови коефіцієнтів ієрархії взята сума відстаней даної ознаки від сусідніх, тобто від ознак, з'єднаних з ним дугою. Очевидно, що кожен елемент дендрита має принаймні одного сусіда і сам є сусідом принаймні однієї ознаки. З розглянутого вище випливає, що ознака має тим більше значення коефіцієнта ієрархії, чим більше сума його відстаней від сусідів. Значення, рівне 1, має та ознака, у якої в дендриті вийшла найбільша сума відстаней від сусідніх ознак. Послідовність операцій, виконуваних при розрахунку коефіцієнтів ієрархії, наступна: 1) розраховується сума відстаней окремих ознак від сусідів:
(4.10)
де 2) вибирається найбільша величина:
(4.11)
3)розраховується коефіцієнт ієрархії:
(4.12)
При другому способі використовується так звана критична відстань. Нею може бути найбільша відстань між сусідніми ознаками
(4.13)
або ж сама довга дуга дендриту, побудованого на елементах набору діагностичних ознак. Після вибору одного з запропонованих варіантів знаходження критичної відстані приступають до виконання дій, пов'язаних з розрахунком коефіцієнтів ієрархії. Вони наступні: для кожної ознаки діагностичного набору знаходяться всі відстані, що не перевищують критичного відстані,
(4.14)
підсумовуються отримані відстані для кожного з елементів
(4.15)
вибирається ознака, для якої обчислена сума відстаней найбільша
(4.16)
розраховуються коефіцієнти ієрархії
(4.17) Видається, що з описаних вище методів розрахунку коефіцієнтів ієрархії в деякому сенсі «кращим» є другий, оскільки в ньому фігурують всі відстані, які менше встановленої певним чином критичної відстані. Внаслідок цього обраними виявляються відстані між ознаками, які найближче лежать одна до одної, і, отже, ці відстані відображають найбільш сильні зв'язки між ознаками. На практиці зручніше застосовувати той метод, в якому критична відстань визначається шляхом знаходження найменших відстаней в кожному стовпці (або рядку) матриці і потім вибору з них найбільшої величини, У першому ж варіанті для обчислення коефіцієнтів використовуються тільки відстані, що зустрічаються в дендриті, побудованому на ознаках діагностичного набору. При цьому часто виходить, що не беруться до уваги багато відстаней, які менше критичного, оскільки не всі вони зустрічаються в побудованому дендриті.
Тема 3. Застосування кореляційного та регресійного аналізу у фінансових розрахунках Лекція 3.1. Лінійна регресія
План 1. Лінійна парна регресія 2. Метод найменших квадратів 3. Вибірковий коефіцієнт регресії. Коефіцієнт детермінації 4. Оцінювання якості рівняння регресії
Мета: нагадати основні поняття регресійного та кореляційного аналізу, метод найменших квадратів, критерії Фішера і Ст’юдента
Література:
Основна: [2], [6], [8], [10]
Питання для самоконтролю: 1. Що таке лінійна модель спостережень? 2. Сенс методу найменших квадратів. 3. Як змінюються коефіцієнти регресії і детермінації і як їх значення пов’язані з адекватністю моделі? 4. Як пов’язані значення F-критерію Фішера і t-критерію Ст’юдента? Лінійна парна регресія:
де
Побудова рівняння регресії опирається на оцінки її параметрів. Для оцінки параметрів регресії використовується метод найменших квадратів (МНК). МНК дозволяє отримати такі оцінки параметрів, при яких сума квадратів відхилень фактичних значень
де сума включає доданки з Для знаходження невідомих параметрів
Рішення цієї системи визначає параметри
Щільність зв’язку явищ (
де Оцінка якості побудованої моделі дає коефіцієнт детермінації, який дорівнює R2. Задача дисперсійного аналізу складається з аналізу дисперсії залежної змінної:
де
(n-m-1) Доля дисперсії, яка пов’язана з регресією, у загальній дисперсії
Якщо R наближається до 1, то це означає, що існує дуже міцний лінійний зв’язок змінних F-тест оцінювання якості рівняння регресії пов’язаний з перевіркою гіпотези Н0 про статистичну незначимість рівняння регресії та показника щільності зв’язку змінних. Для цього проводиться порівняння Fфакт і критичного Fтабл (з таблиці) значення F- критерію Фішера. Fфакт для парної регресії визначається із співвідношення значень факторної та залишкової дисперсій, розрахованих на одну степінь свободи:
Fтабл – це максимально можливе значення критерію під впливом випадкових факторів при наявних степенях свободи і заданому рівні значимості. Рівень значимості α – це ймовірність відвести вірну гіпотезу при умові, що вона вірна. Якщо Fфакт ≥ Fтабл, то Н0- гіпотеза про випадковий зв’язок Оцінка значимості коефіцієнтів регресії і кореляції проводиться за допомогою t-критерію Ст’юдента шляхом їх порівняння з величинами випадкового відхилень (помилок): tb=b/mb, ta=a/ma, tr=r/mr. (9) Випадкові відхилення параметрів
У випадку, коли модуль tфакт відповідних параметрів за розрахунками за формулами (9)-(10) перевищує tтабл (|tфакт| ≥ tтабл), то гіпотеза Н0 (a=0, b=0, rxy=0 при відповідних порівняннях) відхиляється. Таким чином, a, b, rxy не дорівнюють нулям невипадково, а сформувалися під впливом систематично діючого фактора Нагадаємо зв’язок між F- критерієм Фішера і t-статистикою Ст’юдента: tr=tb=
Основні властивості множинної регресії Статистична модель
де i = 1, 2,..., n; к ≥ 2; Yi — випадкова величина; Хi(m), при 2 ≤ m ≤ k, — константа; ε1, ε2, …, εn — незалежні нормальні випадкові величини з одним і тим же середнім, рівним 0, і стандартним відхиленням σ; β1, β2, …, βk — не залежать від і константи моделі, називається моделлю лінійної регресії з k – 1 регресорами. Якщо к > 2, то модель (11) називається моделлю множинної регресії. Хоча і = 1, 2,..., n являються просто індексами нумерації, в прогнозуванні вони зазвичай відповідають моментам часу, взятихз однаковим кроком, при цьому допускається, щоб деякі значення і були опущені. Регресор вважається константою при фіксованому і. Це зауваження справедливе не тільки для випадку з одним регресором, а й при множинній регресії. Таким чином, при різних і значення кожного з регресорів можуть відрізнятися. Якщо і ≠ j, тоді Yi і Yj будуть різними випадковими величинами, які мають математичні очікування, рівні β1 + β2Xi(2) +…+ βkXi(k) і β1 + β2Xj(2) +…+ βkXj(k) відповідно, і однакові стандартні відхилення, рівні σ.
Дата добавления: 2017-02-01; Просмотров: 78; Нарушение авторских прав?; Мы поможем в написании вашей работы! |