Лабораторна робота №5
Прикладний статистичний аналіз
Є дані про таксі-компанію, яка хоче вивчити відтік водіїв і подивитися, які є відмінності між водіями, що залишають сервіс, і які залишаються. Потрібно сформулювати і протестувати гіпотези, виділити групи водіїв, які найбільш схильні до “відтоку”. На основі результатів зробити висновки про те, що можна поліпшити в сервісі, щоб надалі внести зміни.
Опис даних
city- містоphone- основний пристрій, який використовує водійsignup_date- дата реєстрації акаунта (YYYYMMDD)last_trip_date- дата останньої поїздки (YYYYMMDD)avg_dist- середня відстань (у милях) за поїздку в перші 30 днів після реєстраціїavg_rating_by_driver- середня оцінка поїздок водіємvg_rating_of_driver- середня оцінка поїздок водіяsurge_pct- відсоток поїздок, здійснених з множником > 1 (здається коли велика завантаженість і тд)avg_surge- середній множник сплеску за всі поїздки цього водіяtrips_in_first_30_days- кількість поїздок, які здійснив водій у перші 30 днів після реєстраціїluxury_car_user-TRUE, якщо користувач у перші 30 днів використовував преміум-автомобільweekday_pct- відсоток поїздок користувача, здійснених у будні дні
Якщо з моменту останньої поїздки пройшло більше 30 днів, вважається, що водій перестав користуватися сервісом (нова змінна churn): дні рахуються від максимальної дати останньої поїздки в даних (last_trip_date).
Питання які потрібно вирішити:
- Перевірте, чи є відмінності в розмірах відтоку клієнтів у різних містах (
churn,city) - Чи є різниця в активності в перші 30 днів з моменту реєстрації між водіями з різних міст? (
city,trips_in_first_30_days) - Чи може відтік бути пов’язаний з активністю в перші 30 днів після реєстрації? (
churn,trips_in_first_30_days)
Перед проведенням тестів перевірте розподіли змінних, а також чи задовольняються параметричні умови. Залежно від цього оберіть правильний метод (схема вибору - тут). Можливо стануть у пригоді:
from scipy.stats import chi2_contingency, chi2, mannwhitneyu, shapiro, kruskal
import statsmodels.api as sa
import scikit_posthocs as sp # sp.posthoc_dunn() для непараметричного аналога anova- Дедлайн здачі роботи: 29.02.2024
- Звіт бажано оформити з використанням Quarto. Підтримує R, Python. Можна використовувати Jupyter Notebook. Мої відео-інструкції:
- на прикладі VS Code: https://www.youtube.com/watch?v=pe4At0eaC4Q
- на прикладі RStudio: https://www.youtube.com/watch?v=Vdw3WQ4iE0o