Клас буде діяти до 11 квітня 2024 року, після чого буде буде відкрито наступний потік.
Слідкуйте за оновленнями.
Кореляція
Поняття кореляції
Коефіцієнт кореляції у своєму статистичному сенсі позначає силу і характер взаємозв’язку між двома кількісними змінними.
Коваріація
Коваріація - це міра взаємозв’язку між двома змінними, яка визначається як очікуване значення добутку відхилень від середніх значень.
Припустимо, нам потрібно розрахувати коефіцієнт кореляції для двох кількісних величин \(X\) і \(Y\). Відповідно, середнє за вибіркою для кожної з цих величин буде \(\bar{X}\) і \(\bar{Y}\). Тоді коефіцієнт коваріації:
У підручниках зі статистики часто зустрічається термін кореляційний коефіцієнт Пірсона, який є частним випадком коефіцієнта кореляції. Це той самий коефіцієнт кореляції, який ми розглядаємо в цьому курсі.
Перевірка гіпотези про кореляцію
Ідея перевірки гіпотези про кореляцію полягає в тому, що ми перевіряємо, чи відрізняється коефіцієнт кореляції від нуля. Якщо нульова гіпотеза відхиляється, то ми можемо стверджувати, що між змінними існує взаємозв’язок.
Основна гіпотеза: \(H_0: r = 0\) Альтернативна гіпотеза: \(H_1: r \neq 0\)
Статистика критерію:
\[
t = \frac{r \sqrt{n-2}}{\sqrt{1 - r^2}}
\]
де \(r\) - коефіцієнт кореляції Пірсона; \(n\) - кількість спостережень у вибірці.
Важливо
Критичне значення критерію Стьюдента для рівня значущості \(\alpha = 0.05\) і \(n-2\) ступенів свободи: \(t_{\alpha/2, n-2} = 2.045\)
Якщо \(|t| > t_{\alpha/2, n-2}\), то нульову гіпотезу відхиляють.
Умови застосування критерію Стьюдента
Взаємозв’язок між змінними має бути лінійним і монотонним (зростає або спадає у одному напрямку).
Відсутність викидів
Нормальний розподіл змінних
У разі порушення цих припущень можуть бути корисними коефіцієнти кореляції Спірмена і Кендалла, які замість реальних значень аналізують їхні ранги.
Примітка
Ні те, ні інше не є панацеєю, і за особливо сильних порушень припущень (особливо першого) вони також можуть бути неадекватними. Уважно вивчайте свої дані та їхній характер!
Квартер Енскомба
Один із класичних прикладів необхідності перевірки припущень (і візуалізації даних перед аналізом) - квартет Енскомба.
У всіх чотирьох наборів даних однаковий коефіцієнт кореляції Пірсона, хоча їхній характер очевидно різний.
Datasaurus Dozen
Ще один класичний приклад - Datasaurus Dozen.
У всіх даних однаковий коефіцієнт кореляції Пірсона, хоча їхній характер очевидно різний.
Питання: Чому ми співставляємо генеральну сукупність і вибірку?
Генеральна сукупність
Зв’язок у генеральній сукупності
\[ y_i = 0.05 + 0.72 x_i + u_i \]
Зв’язок у вибірці
\[ \hat{y_i} = 0.18 + 0.73 x_i \]
Генеральна сукупність і вибірка
Питання: Чому ми співставляємо генеральну сукупність і вибірку?
Генеральна сукупність
Зв’язок у генеральній сукупності
\[ y_i = 0.05 + 0.72 x_i + u_i \]
Зв’язок у вибірці
\[ \hat{y_i} = 0.05 + 0.76 x_i \]
Генеральна сукупність і вибірка
Питання: Чому ми співставляємо генеральну сукупність і вибірку?
Генеральна сукупність
Зв’язок у генеральній сукупності
\[ y_i = 0.05 + 0.72 x_i + u_i \]
Зв’язок у вибірці
\[ \hat{y_i} = 0.0 + 0.78 x_i \]
Давайте повторимо це 10 000 разів.
Ця називається моделюванням (Монте-Карло).
Генеральна сукупність і вибірка
Генеральна сукупність і вибірка
Питання: Чому ми співставляємо генеральну сукупність і вибірку?
У середньому наші лінії регресії дуже добре відповідають лінії генеральної сукупності
Однак окремі лінії (зразки) можуть промахнутися.
Відмінності між окремими вибірками та генеральною сукупністю призводять до невизначеності.
Генеральна сукупність і вибірка
Питання: Чому ми співставляємо генеральну сукупність і вибірку?
Відповідь: Невизначеність має значення.
\(\hat{\beta}\) сама по собі є випадковою змінною, яка залежить від випадкової вибірки. Коли ми беремо зразок і запускаємо регресію, ми не знаємо, чи це «хороший» зразок (\(\hat{\beta}\) близький до \(\beta\)) чи «поганий зразок» (наш зразок сильно відрізняється від генеральної сукупності).
Оцінювання параметрів регресії
Оцінювання параметрів регресії
Ми можемо оцінити лінію регресії в Python:
lm = sm.OLS(y, sm.add_constant(x)).fit()
Але звідки такі оцінки?
Кілька слайдів назад:
\[ \hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i \] що дає нам найкращий рядок через наш набір даних.
Але що ми маємо на увазі під «найкращою лінією»?
Бути «найкращим»
Питання: Що ми маємо на увазі під найкращою лінією?
Відповіді:
Загалом (у економетриці), найкраща лінія означає лінію, яка мінімізує суму квадратичних помилок (ESS):
\[ \text{ESS} = \sum_{i = 1}^{n} e_i^2\quad \]
де \(\quad e_i = y_i - \hat{y}_i\)
Звичайний метод найменших квадратів (OLS) мінімізує суму квадратів помилок.
На основі низки (здебільшого прийнятних) припущень, OLS
Є незміщенним
Це найкращий (мінімальна дисперсія) лінійний незміщений оцінювач
МНК
Давайте розглянемо набір даних, який ми згенерували раніше.
МНК
Для будь-якої лінії \(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x\)
МНК
Для будь-якої лінії \(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x\) ми можемо обчислити помилки: \(e_i = y_i - \hat{y}_i\)
МНК
Для будь-якої лінії \(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x\) ми можемо обчислити помилки: \(e_i = y_i - \hat{y}_i\)
МНК
Для будь-якої лінії \(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x\) ми можемо обчислити помилки: \(e_i = y_i - \hat{y}_i\)
МНК
ESS зводить помилки в квадрат \(\sum e_i^2\): більші помилки отримують більші штрафи.
МНК
Оцінка МНК — це комбінація \(\hat{\beta}_0\) і \(\hat{\beta}_1\), які мінімізують ESS.
МНК
У простій лінійній регресії оцінювач МНК виходить із вибору \(\hat{\beta}_0\) і \(\hat{\beta}_1\), які мінімізують суму квадратів помилок (ESS), тобто,
Ми наближаємось. Нам потрібно мінімізувати ESS. Ми показали, як ESS пов’язано з нашою вибіркою (наші дані: \(x\) і \(y\)) і нашими оцінками (тобто, \(\hat{\beta}_0\) і \(\hat{\beta}_1\)).
Тепер ми повернемося до припущень і властивостей OLS.
МНК: властивості та припущення
Властивості
Згадуємо: Функції щільності
Пам’ятайте, що ми використовуємо функції щільності ймовірності (PDF) для опису ймовірності того, що неперервна випадкова змінна приймає діапазон значень. (Площа = 1.)
Ці PDF-и характеризують розподіли ймовірностей, а найпоширеніші/відомі/популярні розподіли мають назви (наприклад, нормальний, t, Гамма).
Властивості
Згадуємо: Функції щільності
Імовірність того, що стандартна нормальна випадкова змінна набуває значення від -2 до 0: \(\mathop{\text{P}}\left(-2 \leq X \leq 0\right) = 0,48\)
Властивості
Ймовірність того, що стандартна нормальна випадкова змінна набуває значення від -1,96 до 1,96: \(\mathop{\text{P}}\left(-1,96 \leq X \leq 1,96\right) = 0,95\)
Властивості
Імовірність того, що стандартна нормальна випадкова змінна набуває значення більше 2: \(\mathop{\text{P}}\left(X > 2\right) = 0,023\)
Властивості
Уявіть, що ми намагаємося оцінити невідомий параметр \(\beta\), і нам відомі розподіли трьох конкуруючих оцінювачів.
Який би ми обрали?
Властивості
Питання: Які властивості можуть бути важливі для оцінювача?
Відповідь перша: зміщення (Bias)
Чи в середньому (після багатьох вибірок) оцінювач наближається до правильного значення?
Більш формально: Чи дорівнює середнє значення розподілу оцінювача параметру, який він оцінює?
Чи готові ми прийняти зміщення, щоб зменшити дисперсію?
В економетриці/статистиці ми зазвичай дотримуємося незміщених оцінок. Але інші дисципліни (особливо у сфері ML) більше думають про цей компроміс.
The bias-variance tradeoff.
Властивості
Як ви вже могли здогадатися,
МНК є незміщеною оцінкою.
МНК має мінімальне відхилення серед усіх незміщених лінійних оцінювачів.
Властивості
Але… ці (дуже гарні) властивості залежать від ряду припущень:
Зв’язок генеральної сукупності є лінійним.
Наша змінна \(X\) є екзогенною, тобто, \(\mathop{\boldsymbol{E}}\left[ u \mid X \right] = 0\).
Змінна \(X\) має варіацію. І якщо існує кілька пояснювальних змінних, вони не є абсолютно колінеарними.
Збурення генеральної сукупності \(u_i\) незалежно та однаково розподілені за нормальним законом розподілу із середнім в нулі \(\left( \mathop{\boldsymbol{E}}\left[ u \right] = 0 \right)\) та дисперсією \(\sigma^2\) (тобто, \(\mathop{\boldsymbol{E}}\left[ u^2 \right] = \sigma^2\)).
Припущення
Різні припущення гарантують різні властивості:
Припущення (1), (2) і (3) роблять OLS незміщеним.
Припущення (4) дає нам незміщену оцінку для дисперсії наших оцінок МНК.
Умовне сподівання
Для багатьох випадків, нашим найважливішим припущенням є екзогенність, тобто, \[
\begin{align}
\mathop{E}\left[ u \mid X \right] = 0
\end{align}
\] але що це насправді означає?
Один із способів подумати про це визначення:
Для будь-якого значення \(X\) середнє значення залишків має дорівнювати нулю.
Наприклад, \(\mathop{E}\left[ u \mid X=1 \right]=0\)і\(\mathop{E}\left[ u \mid X=100 \right]= 0\)
Наприклад, \(\mathop{E}\left[ u \mid X_2=\text{Жінка} \right]=0\)і\(\mathop{E}\left[ u \mid X_2=\text{Чоловік} \right]=0\)
Графічно…
Дійсна екзогенність, тобто, \(\mathop{E}\left[ u \mid X \right] = 0\)
Недійсна екзогенність, i.e., \(\mathop{E}\left[ u \mid X \right] \neq 0\)
Невизначеність та помилки
Щось ще?
До цього моменту ми знаємо, що МНК має деякі хороші властивості, і ми знаємо, як оцінити перетин і коефіцієнт нахилу за допомогою МНК.
Наш поточний робочий процес:
Отримати дані (точки зі значеннями \(x\) і \(y\))
Побудувати модель \(y\) на \(x\)
Побудуйте лінію МНК (тобто, \(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1\))
Готово?
Але чого ми навчимося з цієї вправи?
Щось ще? Так!
Але чого ми навчимося з цієї вправи?
Наскільки ми повинні бути впевнені в точності наших оцінок?
Наскільки добре наша модель пояснює зміну \(y\)?
Ми повинні вміти справлятися з невизначеністю.
Вчимося на помилках
Як показало наше попереднє моделювання, наша проблема з невизначеністю полягає в тому, що ми не знаємо, чи наша вибіркова оцінка близька чи далека від невідомого параметра генеральної сукупності.
Проте ще не все втрачено. Ми можемо використовувати помилки \(\left(e_i = y_i - \hat{y}_i\right)\), щоб зрозуміти, наскільки добре наша модель пояснює варіацію \(y\).
Коли здається, що наша модель виконує «гарну» роботу, ми можемо з більшою впевненістю використовувати її, щоб дізнатися про зв’язок між \(y\) і \(x\).
Тепер нам просто потрібно формалізувати вищезазначене.
Вчимося на помилках
Спочатку ми оцінимо дисперсію \(u_i\) (нагадаємо: \(\mathop{\text{Var}} \left( u_i \right) = \sigma^2\)), використовуючи наші квадрати помилок, тобто,
\[ s^2 = \dfrac{\sum_i e_i^2}{n - k} \]
де \(k\) дає кількість параметрів моделі, яку ми оцінюємо (наприклад, \(\beta_0\) і \(\beta_1\) дадуть \(k=2\)).
\(s^2\) є незміщеною оцінкою \(\sigma^2\).
Вчимося на помилках
Дисперсія \(\hat{\beta}_1\) (для простої лінійної регресії) дорівнює
Ми використовуємо стандартну помилку \(\hat{SE_{\hat{\beta}_1}}\) разом із самим \(\hat{\beta}_1\), щоб дізнатися про параметр \(\beta_1\).
Після отримання розподілу \(\hat{\beta}_1\), у нас є два (пов’язаних) варіанти формального статистичного висновку щодо нашого невідомого параметра \(\beta_1\):
Довірчі інтервали: Використовуйте оцінку та її стандартну помилку, щоб створити інтервал, який при повторенні зазвичай міститиме справжній параметр.
Перевірка гіпотези: Визначте, чи є статистично значущі докази відхилення гіпотетичного значення або діапазону значень.
Довірчі інтервали
Довірчі інтервали
Будуємо довірчі інтервали рівня \((1-\alpha)\) для \(\beta_1\)\[ \hat{\beta_1}\ \pm t_{\alpha/2,\text{df}} \, \mathop{\hat{\text{SE}}} \left( \hat{\beta_1} \right) \]
\(t_{\alpha/2,\text{df}}\) позначає \(\alpha/2\) квантиль \(t\) розподілу з \(n-k\) ступенями свободи.
Довірчі інтервали
Будуємо довірчі інтервали рівня \((1-\alpha)\) для \(\beta_1\)\[ \hat{\beta_1}\ \pm t_{\alpha/2,\text{df}} \, \mathop{\hat{\text{SE}}} \left( \hat{\beta_1} \right) \]
Наприклад, 100 спостережень, два коефіцієнти (тобто, \(\hat{\beta}_0\) і \(\hat{\beta}_1 \implies k = 2\)), і \(\alpha = 0,05\) ( для 95% довірчого інтервалу) дає нам \(t_{0,025,\,98} = -1.98\)
Довірчі інтервали
Будуємо довірчі інтервали рівня \((1-\alpha)\) для \(\beta_1\)
Отже, наш 95% довірчий інтервал становить \(0.7216 \pm 1.98 \times 0.067 = \left[ 0.589,\, 0.854 \right]\)
Довірчі інтервали
Отже, ми маємо довірчий інтервал для \(\beta_1\), тобто, \(\left[ 0.589,\, 0.854 \right]\).
Що це означає?
Неофіційно: Довірчий інтервал дає нам область (інтервал), в якій ми можемо певною мірою довіряти щодо вмісту параметра.
Більш формально: Якщо неодноразово робити вибірку з нашої сукупності та будувати довірчі інтервали для кожної з цих вибірок, \((1-\alpha)\) відсотків наших інтервалів (наприклад, 95%) міститиме параметр генеральної сукупності десь в інтервалі.
Тепер повернемося до нашої симуляції…
Довірчі інтервали
Ми відібрали 10 000 вибірок (кожна розміром \(n = 30\)) із нашої сукупності та оцінили нашу регресійну модель для кожної з цих симуляцій:
Тепер давайте оцінимо 95% довірчі інтервали для кожного з цих інтервалів…
Довірчі інтервали
З нашого попереднього моделювання: 97.5% 95% довірчих інтервалів містять справжнє значення параметра \(\beta_1\).
Тестування гіпотез
Тестування гіпотез
У багатьох дослідженнях ми хочемо знати більше, ніж точкову оцінку або діапазон значень. Ми хочемо знати, що наші статистичні дані говорять про існуючі теорії.
Ми хочемо перевірити гіпотези, висунуті чиновниками, політиками, економістами, науковцями, друзями, дивними сусідами тощо.
Приклади
Збільшення присутності поліції зменшує злочинність?
Будівництво гігантської стіни зменшує злочинність?
Розпуск уряду згубно впливає на економіку?
Чи легальний канабіс зменшує водіння в нетверезому стані або зменшує вживання опіоїдів?
Чи стандарти якості повітря покращують здоров’я та/або зменшують кількість робочіх місць?
Тестування гіпотез
Перевірка гіпотез спирається на дуже схожі результати та інтуїцію.
Хоча невизначеність, звичайно, існує, ми все ще можемо побудувати надійні статистичні тести (відкидаючи або не відхиляючи висунуту гіпотезу).
МНК t тест: Наша (нульова) гіпотеза стверджує, що \(\beta_1\) дорівнює значенню \(c\), тобто, \(H_o:\: \beta_1 = c\)
З властивостей МНК ми можемо показати, що тестова статистика
це означає, що наша тестова статистика є більш екстремальною, ніж критичне значення.
Крім того, ми можемо обчислити p-значення, яке супроводжує нашу тестову статистику, що фактично дає нам імовірність побачити нашу тестову статистику або більш екстремальну тестову статистику, якщо нульова гіпотеза вірна.
Дуже малі p-значення (зазвичай < 0,05) означають, що ми навряд чи побачимо наші результати, якби нульова гіпотеза дійсно була вірною — ми схильні відхиляти нуьлову гіпотезу для p-значень нижче 0,05.
Тестування гіпотез
import statsmodels.formula.api as smfresults = smf.ols('y ~ x', pop_df).fit()print(results.summary())
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.544
Model: OLS Adj. R-squared: 0.539
Method: Least Squares F-statistic: 116.9
Date: Mon, 22 Jan 2024 Prob (F-statistic): 2.12e-18
Time: 18:40:23 Log-Likelihood: -87.291
No. Observations: 100 AIC: 178.6
Df Residuals: 98 BIC: 183.8
Df Model: 1
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
Intercept 0.0490 0.059 0.833 0.407 -0.068 0.166
x 0.7216 0.067 10.811 0.000 0.589 0.854
==============================================================================
Omnibus: 0.377 Durbin-Watson: 1.976
Prob(Omnibus): 0.828 Jarque-Bera (JB): 0.538
Skew: 0.006 Prob(JB): 0.764
Kurtosis: 2.641 Cond. No. 1.18
==============================================================================
Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
Повертаємося до нашої симуляції! Давайте подивимося, що насправді робить наша \(t\) статистика.
У цій ситуації ми фактично можемо знати (і забезпечити) нульову гіпотезу, оскільки ми згенерували дані.
Для кожного з 10 000 зразків ми обчислимо статистику \(t\), а потім побачимо, скільки статистичних даних \(t\) перевищує наше критичне значення ({python} round(t.ppf(0.025, df=98), 2), як вище).
Відповідь має бути приблизно 5 відсотків — наш рівень \(\alpha\).
Тестування гіпотез
У нашому моделюванні 2.1% нашої статистики \(t\) відхиляє нульову гіпотезу.
Розподіл нашої статистики \(t\) (заштрихування областей відхилення).
Відповідно, 2.1% наших значень \(p\) відхиляє нульову гіпотезу.
Розподіл наших значень \(p\) (заштрихування значень \(p\) нижче 0,05).
F-тест
Іноді можна зустріти \(F\)-тести.
Ми використовуємо \(F\)-тести для перевірки гіпотез, які включають кілька випадків (наприклад, \(\beta_1 = \beta_2\) або \(\beta_3 + \beta_4 = 1\)),
а не одна проста гіпотеза (наприклад, \(\beta_1 = 0\), для якого ми просто використаємо тест \(t\)).
F-тест
Приклад
Економісти люблять казати: «Гроші взаємозамінні».
Уявіть собі, що ми можемо захотіти перевірити, чи дійсно гроші, отримані як дохід, мають такий же вплив на споживання, як гроші, отримані від податкових знижок.
Щоб перевірити нульову гіпотезу \(H_o :\: \beta_1 = \beta_2\) проти \(H_a :\: \beta_1 \neq \beta_2\), ми використовуємо статистику \(F\)\[
\begin{align}
F_{q,\,n-k-1} = \dfrac{\left(\text{ESS}_r - \text{ESS}_u\right)/q}{\text{ESS}_u/(n-k-1)}
\end{align}
\] який (як випливає з назви) відповідає розподілу \(F\) із ступенями свободи в чисельнику \(q\) і ступенями свободи в знаменнику \(n-k-1\).
Тут \(q\) — це кількість обмежень, які ми накладаємо через \(H_o\).
F-тест
Приклад, продовження
\(\text{ESS}_r\) – це сума квадратів помилок (ESS) з нашої обмеженої моделі\[ \text{Споживання}_i = \beta_0 + \beta_1 \left( \text{Дохід}_{i} + \text{Знижка}_i \right) + u_i \]
а \(\text{ESS}_u\) – це сума квадратів помилок (ESS) з нашої необмеженої моделі\[ \text{Споживання}_i = \beta_0 + \beta_1 \text{Дохід}_{i} + \beta_2 \text{Знижка}_i + u_i \]
Тест \(F\) порівнює ефективність необмеженої моделі з ефективність обмеженої моделі, використовуючи їхні \(\text{ESS}\).