Лабораторна робота №2
Прикладний статистичний аналіз
Застосуємо лінійну регресію на практиці - спробуємо передбачити вартість машин і зрозуміти, від яких чинників залежить ціноутворення на автомобілі. Крім цього дізнаємося, які змінні важливі для прогнозування і наскільки добре отримана модель описує дані.
Завдання:
- Завантажте дані, перевірте правильність, наявність пропущених значень, типи даних.
- Створіть нову ознаку - марку автомобіля (
company
). Машини яких виробників зустрічаються в датасеті? Далі виправте назви та перевірте зміни. - Залиште тільки частину предикторів, після чого порахуйте кореляцію між
price
та іншими змінними. - Перетворіть категоріальні змінні за допомогою
pd.get_dummies()
для Python іfastDummies::dummy_cols()
для R. - Побудуйте модель з одним предиктором ціни -
horsepower
. Який відсоток мінливості пояснює отримана модель? (\(R^2\)) - Далі - дві моделі (з усіма предикторами і з усіма, крім марок машин). Зверніть увагу на зміни в \(R^2\), коефіцієнтах та їх значущості. Яку модель краще залишити?
- Заповніть пропуски в наступному тексті:
Обрана модель пояснює приблизно
ВИБРАТИ
% дисперсії (окр. до цілого). Серед предикторів,ВИБРАТИ
з 27 виявилися не значущими (p > 0.05). Приклад інтерпретації: при одиничній зміні показникаhorsepower
, цінаВИБРАТИ
наВИБРАТИ
(без округлення).
Важливо
- Дедлайн здачі робіт: 08.02.2024
Порада
- Звіт бажано оформити з використанням Quarto. Підтримує R, Python. Можна використовувати Jupyter Notebook. Мої відео-інструкції:
- на прикладі VS Code: https://www.youtube.com/watch?v=pe4At0eaC4Q
- на прикладі RStudio: https://www.youtube.com/watch?v=Vdw3WQ4iE0o