Modele predykcyjne
Wybór algorytmu zależy od struktury problemu, rodzaju zmiennej celu, dostępności danych i wymagań wobec interpretowalności wyniku. Nie istnieje jeden najlepszy algorytm — każda klasa modeli ma charakterystyczny zakres zastosowań i ograniczenia.
Articles published on this website summarize publicly available information, industry research and educational materials.
Typy zmiennych celu
Charakter zmiennej celu determinuje klasę algorytmu:
- Numeryczna ciągła — regresja (przewidywanie wartości: przychód, temperatura, czas do awarii)
- Kategoryczna binarna — klasyfikacja binarna (prawdopodobieństwo zdarzenia: zakup/brak zakupu)
- Kategoryczna wieloklasowa — klasyfikacja multi-class (przypisanie do kategorii)
- Szereg czasowy — modele czasowe (prognoza wartości w przyszłych okresach)
Modele regresyjne
Regresja liniowa i logistyczna to modele fundamentalne — interpretowalne, szybkie w trenowaniu i działające dobrze przy liniowych relacjach. Regresja logistyczna pozostaje benchmarkiem w zadaniach klasyfikacji binarnej ze względu na interpretowalność współczynników i kalibrację wynikowego prawdopodobieństwa.
Modele regresyjne z regularyzacją (Ridge, Lasso, ElasticNet) radzą sobie z dużą liczbą predyktorów i potencjalną wielokoliniarnością, automatycznie selekcjonując istotne zmienne.
Drzewa decyzyjne i metody zespołowe
Drzewa decyzyjne są intuicyjnie interpretowalną reprezentacją reguł klasyfikacyjnych, ale podatne na overfitting przy dużej głębokości. Metody zespołowe (ensemble) poprawiają generalizację przez łączenie wielu słabszych modeli:
- Random Forest — bagging wielu drzew na próbach bootstrap z losową selekcją cech; redukuje wariancję
- Gradient Boosting — sekwencyjne trenowanie drzew korygujących błędy poprzednich; wysokie wyniki na danych tabelarycznych
- Voting / Stacking — łączenie prognoz modeli różnych klas; zwiększa odporność na specyficzne słabości jednego algorytmu
Ocena jakości modelu
Metryki oceny zależą od klasy problemu. Dla klasyfikacji binarnej: AUC-ROC (zdolność dyskryminacyjna), F1-score (balans precyzji i czułości), Brier Score (kalibracja prawdopodobieństwa). Dla regresji: RMSE, MAE, MAPE.
Kluczowe: metrykę oceny należy wybrać przed budową modelu, wychodząc z wymagań biznesowych — nie z tego, jaką wartość jest najłatwiej zmaksymalizować.
Kryteria wyboru algorytmu
- Liczba obserwacji i wymiarów danych
- Wymagany poziom interpretowalności
- Obecność nieliniowych relacji i interakcji zmiennych
- Ograniczenia czasowe na trenowanie i wnioskowanie
- Stabilność modelu przy zmianie danych wejściowych