Лабораторна робота №2

Прикладний статистичний аналіз

Застосуємо лінійну регресію на практиці - спробуємо передбачити вартість машин і зрозуміти, від яких чинників залежить ціноутворення на автомобілі. Крім цього дізнаємося, які змінні важливі для прогнозування і наскільки добре отримана модель описує дані.

Завдання:

  1. Завантажте дані, перевірте правильність, наявність пропущених значень, типи даних.
  2. Створіть нову ознаку - марку автомобіля (company). Машини яких виробників зустрічаються в датасеті? Далі виправте назви та перевірте зміни.
  3. Залиште тільки частину предикторів, після чого порахуйте кореляцію між price та іншими змінними.
  4. Перетворіть категоріальні змінні за допомогою pd.get_dummies() для Python і fastDummies::dummy_cols() для R.
  5. Побудуйте модель з одним предиктором ціни - horsepower. Який відсоток мінливості пояснює отримана модель? (\(R^2\))
  6. Далі - дві моделі (з усіма предикторами і з усіма, крім марок машин). Зверніть увагу на зміни в \(R^2\), коефіцієнтах та їх значущості. Яку модель краще залишити?
  7. Заповніть пропуски в наступному тексті:

Обрана модель пояснює приблизно ВИБРАТИ% дисперсії (окр. до цілого). Серед предикторів, ВИБРАТИ з 27 виявилися не значущими (p > 0.05). Приклад інтерпретації: при одиничній зміні показника horsepower, ціна ВИБРАТИ на ВИБРАТИ (без округлення).

Важливо
  • Дедлайн здачі робіт: 08.02.2024
Порада