Лабораторна робота №1
Машинне навчання
Завдання
1. Огляд даних.
Завантажте дані з файлу taxi_dataset.csv
.
Опис даних:
id
- ID поїздкиvendor_id
- ID компанії, що здійснює перевезенняpickup_datetime
- Таймкод початку поїздкиdropoff_datetime
- Таймкод кінця поїздкиpassenger_count
- Кількість пасажирівpickup_longitude
- Довгота точки, в якій почалася поїздкаpickup_latitude
- Широта точки, в якій почалася поїздкаdropoff_longitude
- Довгота точки, в якій закінчилася поїздкаdropoff_latitude
- Широта точки, в якій закінчилася поїздкаstore_and_fwd_flag
- Yes/No: Чи була інформація збережена в пам’яті транспортного засобу через втрату з’єднання із сервером
2. Залежна змінна
Створіть новий стовпчик trip_duration
- тривалість поїздки в секундах.
Знаючи тайм-коди часу початку та кінця поїздок, можемо обчислити позначений цільовий стовпчик. Домовимося, що робимо обчислення в секундах.
3. Видалення зайвого
Прогнозуючи таргет для нових об’єктів у майбутньому, ми не будемо заздалегідь знати dropoff_datetime
- видаліть цей стовпчик з датасету.
4. Створення нових ознак
Будемо в майбутньому будувати модель. На яких ознаках? Розгляньте показники. Які найпростіші ознаки можна витягнути з решти колонок? Створіть нові ознаки на основі наявних.
Порада
- Подумайте про перекодування наявних ознак.
- Як можна використати теорему Піфагора для витягнення нових ознак? (ознайомтесь з цим матеріалами за посиланням: https://www.datafix.com.au/BASHing/2018-11-07.html)
- Не забудьте прибрати все зайве.
- Можливо щось ще?