Лабораторна робота №1

Машинне навчання

Завдання

1. Огляд даних.

Завантажте дані з файлу taxi_dataset.csv.

Опис даних:

  • id - ID поїздки
  • vendor_id - ID компанії, що здійснює перевезення
  • pickup_datetime - Таймкод початку поїздки
  • dropoff_datetime - Таймкод кінця поїздки
  • passenger_count - Кількість пасажирів
  • pickup_longitude - Довгота точки, в якій почалася поїздка
  • pickup_latitude - Широта точки, в якій почалася поїздка
  • dropoff_longitude - Довгота точки, в якій закінчилася поїздка
  • dropoff_latitude - Широта точки, в якій закінчилася поїздка
  • store_and_fwd_flag - Yes/No: Чи була інформація збережена в пам’яті транспортного засобу через втрату з’єднання із сервером

2. Залежна змінна

Створіть новий стовпчик trip_duration - тривалість поїздки в секундах.

Знаючи тайм-коди часу початку та кінця поїздок, можемо обчислити позначений цільовий стовпчик. Домовимося, що робимо обчислення в секундах.

3. Видалення зайвого

Прогнозуючи таргет для нових об’єктів у майбутньому, ми не будемо заздалегідь знати dropoff_datetime - видаліть цей стовпчик з датасету.

4. Створення нових ознак

Будемо в майбутньому будувати модель. На яких ознаках? Розгляньте показники. Які найпростіші ознаки можна витягнути з решти колонок? Створіть нові ознаки на основі наявних.

  • Подумайте про перекодування наявних ознак.
  • Як можна використати теорему Піфагора для витягнення нових ознак? (ознайомтесь з цим матеріалами за посиланням: https://www.datafix.com.au/BASHing/2018-11-07.html)
  • Не забудьте прибрати все зайве.
  • Можливо щось ще?