Лабораторна робота №5
Прикладний статистичний аналіз
Є дані про таксі-компанію, яка хоче вивчити відтік водіїв і подивитися, які є відмінності між водіями, що залишають сервіс, і які залишаються. Потрібно сформулювати і протестувати гіпотези, виділити групи водіїв, які найбільш схильні до “відтоку”. На основі результатів зробити висновки про те, що можна поліпшити в сервісі, щоб надалі внести зміни.
Опис даних
city
- містоphone
- основний пристрій, який використовує водійsignup_date
- дата реєстрації акаунта (YYYYMMDD)last_trip_date
- дата останньої поїздки (YYYYMMDD)avg_dist
- середня відстань (у милях) за поїздку в перші 30 днів після реєстраціїavg_rating_by_driver
- середня оцінка поїздок водіємvg_rating_of_driver
- середня оцінка поїздок водіяsurge_pct
- відсоток поїздок, здійснених з множником > 1 (здається коли велика завантаженість і тд)avg_surge
- середній множник сплеску за всі поїздки цього водіяtrips_in_first_30_days
- кількість поїздок, які здійснив водій у перші 30 днів після реєстраціїluxury_car_user
-TRUE
, якщо користувач у перші 30 днів використовував преміум-автомобільweekday_pct
- відсоток поїздок користувача, здійснених у будні дні
Якщо з моменту останньої поїздки пройшло більше 30 днів, вважається, що водій перестав користуватися сервісом (нова змінна churn
): дні рахуються від максимальної дати останньої поїздки в даних (last_trip_date
).
Питання які потрібно вирішити:
- Перевірте, чи є відмінності в розмірах відтоку клієнтів у різних містах (
churn
,city
) - Чи є різниця в активності в перші 30 днів з моменту реєстрації між водіями з різних міст? (
city
,trips_in_first_30_days
) - Чи може відтік бути пов’язаний з активністю в перші 30 днів після реєстрації? (
churn
,trips_in_first_30_days
)
Перед проведенням тестів перевірте розподіли змінних, а також чи задовольняються параметричні умови. Залежно від цього оберіть правильний метод (схема вибору - тут). Можливо стануть у пригоді:
from scipy.stats import chi2_contingency, chi2, mannwhitneyu, shapiro, kruskal
import statsmodels.api as sa
import scikit_posthocs as sp # sp.posthoc_dunn() для непараметричного аналога anova
- Дедлайн здачі роботи: 29.02.2024
- Звіт бажано оформити з використанням Quarto. Підтримує R, Python. Можна використовувати Jupyter Notebook. Мої відео-інструкції:
- на прикладі VS Code: https://www.youtube.com/watch?v=pe4At0eaC4Q
- на прикладі RStudio: https://www.youtube.com/watch?v=Vdw3WQ4iE0o