Множинна регресія

Прикладний статистичний аналіз

Ігор Мірошниченко

КНУ імені Тараса Шевченка | ФІТ

Основні положення

Більше пояснювальних змінних

Ми переходимо від простої лінійної регресії (одна незалежна змінна та одна залежна)

\[ \color{#e64173}{y_i} = \beta_0 + \beta_1 \color{#6A5ACD}{x_i} + u_i \]

до множинної лінійної регресії (декілька незалежних та одна залежна змінні)

\[ \color{#e64173}{y_i} = \beta_0 + \beta_1 \color{#6A5ACD}{x_{1i}} + \beta_2 \color{#6A5ACD}{x_{2i}} + \cdots + \beta_k \color{#6A5ACD}{x_{ki}} + u_i \]

Чому?

Ми можемо краще пояснити варіацію \(y\), покращити прогнози, уникнути зміщення пропущених змінних …

Множинна регресія

\(y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + u_i\), де \(x_1\) є неперервним, а \(x_2\) є категоріальним

Множинна регресія

\(\beta_0\) та категоріальна змінна \(x_2\) керують середніми значеннями груп.

Множинна регресія

Якщо прибрати середнє значення груп:

Множинна регресія

\(\hat{\beta}_1\) оцінює співвідношення між \(y\) і \(x_1\) після врахування \(x_2\).

Множинна регресія

Інший варіант поглянути на це:

Множинна регресія

Поглянемо на оцінювання параметрів моделі…

Для простої лінійної регресії \(y_i = \beta_0 + \beta_1 x_i + u_i\)

\[ \begin{aligned} \hat{\beta}_1 &= \\[0.3em] &= \dfrac{\sum_i \left( x_i - \overline{x} \right) \left( y_i - \overline{y} \right)}{\sum_i \left( x_i -\overline{x} \right)} \\[0.3em] &= \dfrac{\sum_i \left( x_i - \overline{x} \right) \left( y_i - \overline{y} \right)/(n-1)}{\sum_i \left( x_i -\overline{x} \right) / (n-1)} \\[0.3em] &= \dfrac{\mathop{\hat{\text{Cov}}}(x,\,y)}{\mathop{\hat{\text{Var}}} \left( x \right)} \end{aligned} \]

Множинна регресія

Проста лінійна регресія:

\[ \hat{\beta}_1 = \dfrac{\mathop{\hat{\text{Cov}}}(x,\,y)}{\mathop{\hat{\text{Var}}} \left( x \right)} \]

при переході до множинної лінійної регресії оцінка трохи змінюється:

\[ \hat{\beta}_1 = \dfrac{\mathop{\hat{\text{Cov}}}(\color{#e64173}{\tilde{x}_1},\,y)}{\mathop{\hat{\text{Var}}} \left( \color{#e64173}{\tilde{x}_1} \right)} \]

де \(\color{#e64173}{\tilde{x}_1}\) — залишкова змінна \(x_1\) — зміна, що залишається в \(x\) після врахуівння інших пояснювальних змінних.

Множинна регресія

Більш формально розглянемо модель множинної регресії

\[ y_i = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + u_i \]

Наша залишкова \(x_{1}\) (яку ми назвали \(\color{#e64173}{\tilde{x}_1}\)) походить від регресії \(x_1\) з intercept та всіх інших пояснювальних змінних і збирає залишки, тобто,

\[ \begin{aligned} \hat{x}_{1i} &= \hat{\gamma}_0 + \hat{\gamma}_2 \, x_{2i} + \hat{\gamma}_3 \, x_{3i} \\ \color{#e64173}{\tilde{x}_{1i}} &= x_{1i} - \hat{x}_{1i} \end{aligned} \]

що дозволяє нам краще зрозуміти нашу оцінку МНК множинної регресії

\[ \hat{\beta}_1 = \dfrac{\mathop{\hat{\text{Cov}}}(\color{#e64173}{\tilde{x}_1},\,y)}{\mathop{\hat{\text{Var}}} \left( \color{#e64173}{\tilde{x}_1} \right)} \]

Оцінювання моделі

Показники хорошої відповідності (анг. goodness of fit) намагаються проаналізувати, наскільки добре наша модель описує (відповідає) даним.

Популярний показник: \(R^2\) [R-квадрат] (він же коефіцієнт детермінації)

\[ R^2 = \dfrac{\sum_i (\hat{y}_i - \overline{y})^2}{\sum_i \left( y_i - \overline{y} \right)^2} = 1 - \dfrac{\sum_i \left( y_i - \hat{y}_i \right)^2}{\sum_i \left( y_i - \overline{y} \right)^2} \]

Зверніть увагу на нашого старого друга ESS: \(\sum_i \left( y_i - \hat{y}_i \right)^2 = \sum_i e_i^2\).

\(R^2\) буквально вказує нам частку дисперсії в \(y\), яку враховує наша модель. Таким чином \(0 \leq R^2 \leq 1\).

Множинна регресія

Проблема: коли ми додаємо змінні до нашої моделі, \(R^2\) постійно збільшується.

Щоб побачити цю проблему, ми можемо змоделювати набір даних із 10 000 спостережень за \(y\) і 1000 випадкових змінних \(x_k\). Немає зв’язку між \(y\) і \(x_k\)!

Псевдокод симуляції:

Згенеруйте 10 000 спостережень \(y\)
Згенеруйте 10 000 спостережень за змінними від \(x_1\) до \(x_{1000}\)
Регресія:
- LM₁: регресія \(y\) на \(x_1\); запис R²
- LM₂: регресія \(y\) на \(x_1\) і \(x_2\); запис R²
- LM₁₀₀₀: регресія \(y\) на \(x_1\), \(x_2\) і \(x_3\); запис R²
- …
- LM₁₀₀₀: регресія \(y\) на \(x_1\), \(x_2\), …, \(x_{1000}\); запис R²

Множинна регресія

Проблема: коли ми додаємо змінні до нашої моделі, \(R^2\) постійно збільшується.

Python код для симуляції:

import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from joblib import Parallel, delayed

np.random.seed(1234)

n = 10000
k = 1000

y = np.random.normal(size=n)
x = np.random.normal(size=(n, k))

def calculate_r2(i):
    model = LinearRegression()
    model.fit(x[:, :i+2], y)
    r2 = model.score(x[:, :i+2], y)
    adj_r2 = 1 - (1 - r2) * (len(y) - 1) / (len(y) - (i+2))
    return pd.DataFrame({'k': [i+2], 'r2': [r2], 'r2_adj': [adj_r2]})

result = Parallel(n_jobs=-1)(delayed(calculate_r2)(i) for i in range(k))

r_df = pd.concat(result, ignore_index=True)

Множинна регресія

Проблема: коли ми додаємо змінні до нашої моделі, \(R^2\) постійно збільшується.

Множинна регресія

Що робити? Рішення перше: Скоригований \(\color{#e64173}{R^2}\)

Множинна регресія

Проблема: коли ми додаємо змінні до нашої моделі, \(R^2\) постійно збільшується.

Рішення перше: Штрафувати за кількість змінних, наприклад, скорегований \(R^2\):

\[ \overline{R}^2 = 1 - \dfrac{\sum_i \left( y_i - \hat{y}_i \right)^2/(n-k-1)}{\sum_i \left( y_i - \overline{y} \right)^2/(n-1)} \]

Примітка

Скоригований \(R^2\) не обов’язково повинен бути від 0 до 1.

Компроміси

Є компроміси, про які слід пам’ятати, коли ми додаємо/видаляємо змінні:

Менше змінних

Пояснює менше варіації \(y\)
Простота інтерпретації та візуалізації
Можливо, доведеться потурбуватися про зміщення пропущених змінних

Більше змінних

Більша ймовірність знайти хибні зв’язки (статистично значущі через випадковість — не відображають справжнього зв’язку на рівні генеральної сукупності)
Складніше проводити інтерпретацію та візуалізацію
Ви все ще можете пропустити важливі змінні — зміщення пропущених змінних

Зміщення при неврахуванні впливової змінної

Зміщення при неврахуванні впливової змінної (анг. omitted-variable bias, OVB) виникає, коли ми пропускаємо змінну, яка

впливає на нашу змінну \(y\)
корелює з пояснювальною змінною \(x_j\)

Як випливає з назви, ця ситуація призводить до зміщення нашої оцінки \(\beta_j\).

Примітка

OVB притаманна не тільки множинній регресії, але вимагає, щоб кілька змінних впливали на \(y\).

Приклад

Уявімо просту модель доходу, яку отримує окремий \(i\)

\[ \text{Pay}_i = \beta_0 + \beta_1 \text{School}_i + \beta_2 \text{Male}_i + u_i \]

де

\(\text{School}_i\) - роки навчання \(i\)
\(\text{Male}_i\) - змінна-індикатор того, чи є \(i\) чоловіком.

таким чином

\(\beta_1\): дохід від додаткового року навчання (за інших рівних умов)
\(\beta_2\): «премія» за те, що ти чоловік (за інших рівних умов)
Якщо \(\beta_2 > 0\), то існує дискримінація жінок — вони отримують меншу зарплату.

Приклад, продовження

З нашої моделі

\[ \text{Pay}_i = \beta_0 + \beta_1 \text{School}_i + \beta_2 \text{Male}_i + u_i \]

Якщо дослідження зосереджено на зв’язку між оплатою праці та освітою, тобто,

\[ \text{Pay}_i = \beta_0 + \beta_1 \text{School}_i + \left(\beta_2 \text{Male}_i + u_i\right) \]

\[ \text{Pay}_i = \beta_0 + \beta_1 \text{School}_i + \varepsilon_i \]

де \(\varepsilon_i = \beta_2 \text{Male}_i + u_i\).

Ми використали наше припущення про екзогенність, щоб отримати неупередженість OLS.

Але навіть якщо \(\mathop{\boldsymbol{E}}\left[ u | X \right] = 0\), це невірно, що \(\mathop{\boldsymbol{E}}\left[ \varepsilon | X \right] = 0\), якщо \(\beta_2 \neq 0\).

Приклад, продовження

З нашої моделі

\[ \text{Pay}_i = \beta_0 + \beta_1 \text{School}_i + \beta_2 \text{Male}_i + u_i \]

Якщо дослідження зосереджено на зв’язку між оплатою праці та освітою, тобто,

\[ \text{Pay}_i = \beta_0 + \beta_1 \text{School}_i + \left(\beta_2 \text{Male}_i + u_i\right) \]

\[ \text{Pay}_i = \beta_0 + \beta_1 \text{School}_i + \varepsilon_i \]

де \(\varepsilon_i = \beta_2 \text{Male}_i + u_i\).

Зокрема, екзогенність вимагає, щоб \(\text{School}\) і \(\text{Male}\) не були пов’язані.
Інакше OLS є зміщенним.

Приклад, продовження

Спробуємо візуалізувати…

Модель ГС:

\[ \text{Pay}_i = 20 + 0.5 \times \text{School}_i + 10 \times \text{Male}_i + u_i \]

Наша регресійна модель, яка страждає від зміщення пропущених змінних:

\[ \text{Pay}_i = \hat{\beta}_0 + \hat{\beta}_1 \times \text{School}_i + e_i \]

Уявіть, що жінки в середньому навчаються більше, ніж чоловіки.