Лабораторна робота №5

Прикладний статистичний аналіз

Є дані про таксі-компанію, яка хоче вивчити відтік водіїв і подивитися, які є відмінності між водіями, що залишають сервіс, і які залишаються. Потрібно сформулювати і протестувати гіпотези, виділити групи водіїв, які найбільш схильні до “відтоку”. На основі результатів зробити висновки про те, що можна поліпшити в сервісі, щоб надалі внести зміни.

Опис даних

  • city - місто
  • phone - основний пристрій, який використовує водій
  • signup_date - дата реєстрації акаунта (YYYYMMDD)
  • last_trip_date - дата останньої поїздки (YYYYMMDD)
  • avg_dist - середня відстань (у милях) за поїздку в перші 30 днів після реєстрації
  • avg_rating_by_driver - середня оцінка поїздок водієм
  • vg_rating_of_driver - середня оцінка поїздок водія
  • surge_pct - відсоток поїздок, здійснених з множником > 1 (здається коли велика завантаженість і тд)
  • avg_surge - середній множник сплеску за всі поїздки цього водія
  • trips_in_first_30_days - кількість поїздок, які здійснив водій у перші 30 днів після реєстрації
  • luxury_car_user - TRUE, якщо користувач у перші 30 днів використовував преміум-автомобіль
  • weekday_pct - відсоток поїздок користувача, здійснених у будні дні
Важливо

Якщо з моменту останньої поїздки пройшло більше 30 днів, вважається, що водій перестав користуватися сервісом (нова змінна churn): дні рахуються від максимальної дати останньої поїздки в даних (last_trip_date).

Питання які потрібно вирішити:

  • Перевірте, чи є відмінності в розмірах відтоку клієнтів у різних містах (churn, city)
  • Чи є різниця в активності в перші 30 днів з моменту реєстрації між водіями з різних міст? (city, trips_in_first_30_days)
  • Чи може відтік бути пов’язаний з активністю в перші 30 днів після реєстрації? (churn, trips_in_first_30_days)

Перед проведенням тестів перевірте розподіли змінних, а також чи задовольняються параметричні умови. Залежно від цього оберіть правильний метод (схема вибору - тут). Можливо стануть у пригоді:

from scipy.stats import chi2_contingency, chi2, mannwhitneyu, shapiro, kruskal
import statsmodels.api as sa 
import scikit_posthocs as sp  # sp.posthoc_dunn() для непараметричного аналога anova
Важливо
  • Дедлайн здачі роботи: 29.02.2024
Порада