Strona główna Wprowadzenie Dane wejściowe Modele Wdrożenie Etyka analityki O nas Kontakt
Sekcja 03

Modele predykcyjne

Wybór algorytmu zależy od struktury problemu, rodzaju zmiennej celu, dostępności danych i wymagań wobec interpretowalności wyniku. Nie istnieje jeden najlepszy algorytm — każda klasa modeli ma charakterystyczny zakres zastosowań i ograniczenia.

Articles published on this website summarize publicly available information, industry research and educational materials.

Typy zmiennych celu

Charakter zmiennej celu determinuje klasę algorytmu:

  • Numeryczna ciągła — regresja (przewidywanie wartości: przychód, temperatura, czas do awarii)
  • Kategoryczna binarna — klasyfikacja binarna (prawdopodobieństwo zdarzenia: zakup/brak zakupu)
  • Kategoryczna wieloklasowa — klasyfikacja multi-class (przypisanie do kategorii)
  • Szereg czasowy — modele czasowe (prognoza wartości w przyszłych okresach)

Modele regresyjne

Regresja liniowa i logistyczna to modele fundamentalne — interpretowalne, szybkie w trenowaniu i działające dobrze przy liniowych relacjach. Regresja logistyczna pozostaje benchmarkiem w zadaniach klasyfikacji binarnej ze względu na interpretowalność współczynników i kalibrację wynikowego prawdopodobieństwa.

Modele regresyjne z regularyzacją (Ridge, Lasso, ElasticNet) radzą sobie z dużą liczbą predyktorów i potencjalną wielokoliniarnością, automatycznie selekcjonując istotne zmienne.

Drzewa decyzyjne i metody zespołowe

Drzewa decyzyjne są intuicyjnie interpretowalną reprezentacją reguł klasyfikacyjnych, ale podatne na overfitting przy dużej głębokości. Metody zespołowe (ensemble) poprawiają generalizację przez łączenie wielu słabszych modeli:

  • Random Forest — bagging wielu drzew na próbach bootstrap z losową selekcją cech; redukuje wariancję
  • Gradient Boosting — sekwencyjne trenowanie drzew korygujących błędy poprzednich; wysokie wyniki na danych tabelarycznych
  • Voting / Stacking — łączenie prognoz modeli różnych klas; zwiększa odporność na specyficzne słabości jednego algorytmu

Ocena jakości modelu

Metryki oceny zależą od klasy problemu. Dla klasyfikacji binarnej: AUC-ROC (zdolność dyskryminacyjna), F1-score (balans precyzji i czułości), Brier Score (kalibracja prawdopodobieństwa). Dla regresji: RMSE, MAE, MAPE.

Kluczowe: metrykę oceny należy wybrać przed budową modelu, wychodząc z wymagań biznesowych — nie z tego, jaką wartość jest najłatwiej zmaksymalizować.

Kryteria wyboru algorytmu

  • Liczba obserwacji i wymiarów danych
  • Wymagany poziom interpretowalności
  • Obecność nieliniowych relacji i interakcji zmiennych
  • Ograniczenia czasowe na trenowanie i wnioskowanie
  • Stabilność modelu przy zmianie danych wejściowych

FAQ

Czym jest overfitting i jak go wykryć?
Overfitting to nadmierne dopasowanie modelu do danych treningowych — model zapamiętuje szum zamiast uczyć się regularności. Objawia się dużą różnicą między metrykami na zbiorze treningowym a walidacyjnym. Zapobieganie: regularyzacja, wcześniejsze zatrzymanie trenowania (early stopping), walidacja krzyżowa.
Kiedy stosować modele proste, a kiedy złożone?
Modele proste są preferowane, gdy: dane są skalarne i mało liczne, wymagana jest interpretowalność, problem jest liniowy, wdrożenie w środowisku z ograniczonymi zasobami obliczeniowymi. Złożone modele (gradient boosting, sieci neuronowe) uzasadnione są przy nieliniowych relacjach, dużych zbiorach i akceptowalnej czarnej skrzynce.