Лабораторна робота №2

Машинне навчання

Завдання

  1. Використовуючи оброблені дані з ЛР №1 сформувати тестову та навчальну вибірки.
  2. Побудувати лінійні моделі для прогнозування ціни на автомобіль (з різними наборами ознак).
  3. Оцінити якість моделі за допомогою метрик:
  • \(MSE = \frac{1}{n} \sum_i^n (a(x_i)-y_i)^2\)
  • \(RMSE = \sqrt{MSE} = \sqrt{\frac{1}{n} \sum_i^n (a(x_i)-y_i)^2}\)
  • \(MAE = \frac{1}{n} \sum_i^n |a(x_i)-y_i|\)
  • \(\text{RMSLE}(X, y, a) = \sqrt{\frac{1}{\ell}\sum_{i=1}^{\ell} \big(\log{(y_i + 1)} - \log{(a(x_i) + 1)}\big)^2}\)
RMSLE

Часто, щоб вибрати серед усього різноманіття моделей, ми можемо використовувати несиметричні метрики.

MSE і MAE належать до симетричних. Вони однаково штрафують модель як за перепрогнозування, так і за недопрогнозування. Помилки +2 і -2 переводяться MSE і MAE в однакову міру: 4 у першому випадку і 2 у другому.

Насправді ж, можна придумати цілу низку задач, коли краще вибирати несиметричну метрику.

Уявіть, що ми - дистриб’ютор інсуліну, і нам потрібно побудувати модель, яка оптимізує постачання. У такому разі здається, що поставити ліки на 2 одиниці більше і на 2 одиниці менше - абсолютно різні сценарії.

У першому випадку ми можемо втратити трохи прибутку, а в другому - позбавити пацієнта життєво важливих ліків. Тому хотілося б навчитися ще й по-різному оцінювати недо- і перепрогнозування. Для цього і використовують несиметричні метрики!

P.S. Очевидно, що для деяких від’ємних прогнозів формула не працюватиме, оскільки логарифм від від’ємних значень узяти не можна. Тому давайте підкоригуємо наші прогнози: всі від’ємні числа переведемо в нулі (краще вже в нашому завданні передбачити нуль секунд, ніж мінус 100 секунд)

  1. Які висновки можна зробити про якість побудованих моделей?