Sekcja 03

Modele predykcyjne

Wybór algorytmu zależy od struktury problemu, rodzaju zmiennej celu, dostępności danych i wymagań wobec interpretowalności wyniku. Nie istnieje jeden najlepszy algorytm — każda klasa modeli ma charakterystyczny zakres zastosowań i ograniczenia.

Spis treści

Typy zmiennych celu
Modele regresyjne
Drzewa decyzyjne i metody zespołowe
Ocena jakości modelu
Kryteria wyboru algorytmu
FAQ

Articles published on this website summarize publicly available information, industry research and educational materials.

Typy zmiennych celu

Charakter zmiennej celu determinuje klasę algorytmu:

Numeryczna ciągła — regresja (przewidywanie wartości: przychód, temperatura, czas do awarii)
Kategoryczna binarna — klasyfikacja binarna (prawdopodobieństwo zdarzenia: zakup/brak zakupu)
Kategoryczna wieloklasowa — klasyfikacja multi-class (przypisanie do kategorii)
Szereg czasowy — modele czasowe (prognoza wartości w przyszłych okresach)

Modele regresyjne

Regresja liniowa i logistyczna to modele fundamentalne — interpretowalne, szybkie w trenowaniu i działające dobrze przy liniowych relacjach. Regresja logistyczna pozostaje benchmarkiem w zadaniach klasyfikacji binarnej ze względu na interpretowalność współczynników i kalibrację wynikowego prawdopodobieństwa.

Modele regresyjne z regularyzacją (Ridge, Lasso, ElasticNet) radzą sobie z dużą liczbą predyktorów i potencjalną wielokoliniarnością, automatycznie selekcjonując istotne zmienne.

Drzewa decyzyjne i metody zespołowe

Drzewa decyzyjne są intuicyjnie interpretowalną reprezentacją reguł klasyfikacyjnych, ale podatne na overfitting przy dużej głębokości. Metody zespołowe (ensemble) poprawiają generalizację przez łączenie wielu słabszych modeli:

Random Forest — bagging wielu drzew na próbach bootstrap z losową selekcją cech; redukuje wariancję
Gradient Boosting — sekwencyjne trenowanie drzew korygujących błędy poprzednich; wysokie wyniki na danych tabelarycznych
Voting / Stacking — łączenie prognoz modeli różnych klas; zwiększa odporność na specyficzne słabości jednego algorytmu

Ocena jakości modelu

Metryki oceny zależą od klasy problemu. Dla klasyfikacji binarnej: AUC-ROC (zdolność dyskryminacyjna), F1-score (balans precyzji i czułości), Brier Score (kalibracja prawdopodobieństwa). Dla regresji: RMSE, MAE, MAPE.

Kluczowe: metrykę oceny należy wybrać przed budową modelu, wychodząc z wymagań biznesowych — nie z tego, jaką wartość jest najłatwiej zmaksymalizować.

Kryteria wyboru algorytmu

Liczba obserwacji i wymiarów danych
Wymagany poziom interpretowalności
Obecność nieliniowych relacji i interakcji zmiennych
Ograniczenia czasowe na trenowanie i wnioskowanie
Stabilność modelu przy zmianie danych wejściowych

FAQ

Czym jest overfitting i jak go wykryć?

Overfitting to nadmierne dopasowanie modelu do danych treningowych — model zapamiętuje szum zamiast uczyć się regularności. Objawia się dużą różnicą między metrykami na zbiorze treningowym a walidacyjnym. Zapobieganie: regularyzacja, wcześniejsze zatrzymanie trenowania (early stopping), walidacja krzyżowa.

Kiedy stosować modele proste, a kiedy złożone?

Modele proste są preferowane, gdy: dane są skalarne i mało liczne, wymagana jest interpretowalność, problem jest liniowy, wdrożenie w środowisku z ograniczonymi zasobami obliczeniowymi. Złożone modele (gradient boosting, sieci neuronowe) uzasadnione są przy nieliniowych relacjach, dużych zbiorach i akceptowalnej czarnej skrzynce.

Modele predykcyjne

Typy zmiennych celu

Modele regresyjne

Drzewa decyzyjne i metody zespołowe

Ocena jakości modelu

Kryteria wyboru algorytmu

FAQ

Powiązane sekcje

Dane wejściowe

Wdrożenie

Etyka analityki