Dane wejściowe
Jakość modelu predykcyjnego jest bezpośrednią funkcją jakości danych, na których był trenowany. Etap przygotowania danych pochłania typowo 60–80% czasu projektu analitycznego i determinuje granicę możliwej do osiągnięcia dokładności.
Articles published on this website summarize publicly available information, industry research and educational materials.
Wymagania wobec danych historycznych
Dane treningowe powinny spełniać cztery podstawowe kryteria: reprezentatywność (próba odzwierciedla populację docelową), kompletność (brak wartości NULL w kluczowych predyktorach), spójność (te same pojęcia mierzone tą samą metodyką w czasie) i właściwy horyzont historyczny (obejmujący pełen cykl zjawiska, w tym epizody ekstremalne).
Rozmiar próby jest funkcją złożoności modelu i liczby predyktorów. Jako ogólna heurystyka — co najmniej 10 obserwacji na jeden parametr modelu — stanowi punkt wyjścia, ale nie zastępuje walidacji krzyżowej.
Podział na zbiory
Standardowy podział danych w projekcie predykcyjnym:
Przy danych szeregów czasowych standardowy losowy podział jest niewłaściwy — stosuje się podział chronologiczny, aby zapobiec wyciekowi danych z przyszłości do przeszłości (data leakage).
Obsługa brakujących wartości
Brakujące wartości są normą w danych organizacyjnych. Możliwe strategie:
- Usunięcie rekordów — tylko przy małym odsetku braków losowych (MCAR)
- Imputacja prostą statystyką — mediana/moda dla zmiennych z rozkładem niesymetrycznym
- Imputacja modelowa — przewidywanie brakujących wartości na podstawie innych zmiennych
- Flaga brakującej wartości — dodanie zmiennej binarnej wskazującej brak danych jako osobnej cechy
Inżynieria cech
Inżynieria cech (feature engineering) to tworzenie nowych zmiennych wejściowych na podstawie posiadanych danych surowych. Dobre cechy kodują wiedzę domenową: różnice między datami (staż klienta), agregaty okna czasowego (sprzedaż w ostatnich 30 dniach), interakcje zmiennych i transformacje (logarytmizacja przychodów dla modeli liniowych).
Stronniczość próby
Stronniczość próby (sample bias) pojawia się, gdy dane treningowe nie reprezentują populacji docelowej. Typowe przypadki: model trenowany tylko na zaakceptowanych wnioskach kredytowych nie potrafi prawidłowo ocenić odrzuconych kandydatów (selection bias), model oparty na danych sprzed zmiany regulacyjnej może być nieskalibrowany po wejściu w życie nowych przepisów.