Лабораторна робота №1
Машинне навчання
Завдання
1. Огляд даних.
Завантажте дані з файлу taxi_dataset.csv.
Опис даних:
id- ID поїздкиvendor_id- ID компанії, що здійснює перевезенняpickup_datetime- Таймкод початку поїздкиdropoff_datetime- Таймкод кінця поїздкиpassenger_count- Кількість пасажирівpickup_longitude- Довгота точки, в якій почалася поїздкаpickup_latitude- Широта точки, в якій почалася поїздкаdropoff_longitude- Довгота точки, в якій закінчилася поїздкаdropoff_latitude- Широта точки, в якій закінчилася поїздкаstore_and_fwd_flag- Yes/No: Чи була інформація збережена в пам’яті транспортного засобу через втрату з’єднання із сервером
2. Залежна змінна
Створіть новий стовпчик trip_duration - тривалість поїздки в секундах.
Знаючи тайм-коди часу початку та кінця поїздок, можемо обчислити позначений цільовий стовпчик. Домовимося, що робимо обчислення в секундах.
3. Видалення зайвого
Прогнозуючи таргет для нових об’єктів у майбутньому, ми не будемо заздалегідь знати dropoff_datetime - видаліть цей стовпчик з датасету.
4. Створення нових ознак
Будемо в майбутньому будувати модель. На яких ознаках? Розгляньте показники. Які найпростіші ознаки можна витягнути з решти колонок? Створіть нові ознаки на основі наявних.
Порада
- Подумайте про перекодування наявних ознак.
- Як можна використати теорему Піфагора для витягнення нових ознак? (ознайомтесь з цим матеріалами за посиланням: https://www.datafix.com.au/BASHing/2018-11-07.html)
- Не забудьте прибрати все зайве.
- Можливо щось ще?