Sekcja 02

Dane wejściowe

Jakość modelu predykcyjnego jest bezpośrednią funkcją jakości danych, na których był trenowany. Etap przygotowania danych pochłania typowo 60–80% czasu projektu analitycznego i determinuje granicę możliwej do osiągnięcia dokładności.

Spis treści

Wymagania wobec danych historycznych
Podział na zbiory
Obsługa brakujących wartości
Inżynieria cech
Stronniczość próby
FAQ

Articles published on this website summarize publicly available information, industry research and educational materials.

Wymagania wobec danych historycznych

Dane treningowe powinny spełniać cztery podstawowe kryteria: reprezentatywność (próba odzwierciedla populację docelową), kompletność (brak wartości NULL w kluczowych predyktorach), spójność (te same pojęcia mierzone tą samą metodyką w czasie) i właściwy horyzont historyczny (obejmujący pełen cykl zjawiska, w tym epizody ekstremalne).

Rozmiar próby jest funkcją złożoności modelu i liczby predyktorów. Jako ogólna heurystyka — co najmniej 10 obserwacji na jeden parametr modelu — stanowi punkt wyjścia, ale nie zastępuje walidacji krzyżowej.

Podział na zbiory

Standardowy podział danych w projekcie predykcyjnym:

70%

Zbiór treningowy

15%

Zbiór walidacyjny

15%

Zbiór testowy

Przy danych szeregów czasowych standardowy losowy podział jest niewłaściwy — stosuje się podział chronologiczny, aby zapobiec wyciekowi danych z przyszłości do przeszłości (data leakage).

Obsługa brakujących wartości

Brakujące wartości są normą w danych organizacyjnych. Możliwe strategie:

Usunięcie rekordów — tylko przy małym odsetku braków losowych (MCAR)
Imputacja prostą statystyką — mediana/moda dla zmiennych z rozkładem niesymetrycznym
Imputacja modelowa — przewidywanie brakujących wartości na podstawie innych zmiennych
Flaga brakującej wartości — dodanie zmiennej binarnej wskazującej brak danych jako osobnej cechy

Inżynieria cech

Inżynieria cech (feature engineering) to tworzenie nowych zmiennych wejściowych na podstawie posiadanych danych surowych. Dobre cechy kodują wiedzę domenową: różnice między datami (staż klienta), agregaty okna czasowego (sprzedaż w ostatnich 30 dniach), interakcje zmiennych i transformacje (logarytmizacja przychodów dla modeli liniowych).

Stronniczość próby

Stronniczość próby (sample bias) pojawia się, gdy dane treningowe nie reprezentują populacji docelowej. Typowe przypadki: model trenowany tylko na zaakceptowanych wnioskach kredytowych nie potrafi prawidłowo ocenić odrzuconych kandydatów (selection bias), model oparty na danych sprzed zmiany regulacyjnej może być nieskalibrowany po wejściu w życie nowych przepisów.

FAQ

Co to jest data leakage i dlaczego jest problemem?

Data leakage (wyciek danych) to sytuacja, gdy informacja z przyszłości dostaje się do danych treningowych. Model uczy się predykować na podstawie danych, które w rzeczywistości nie byłyby dostępne w momencie predykcji. Skutkuje to zawyżonymi metrykami na etapie trenowania i złą wydajnością na danych produkcyjnych.

Ile danych historycznych jest potrzebnych do modelu?

Minimalna wymagana liczba obserwacji zależy od liczby predyktorów, klasy algorytmu i częstości zjawisk docelowych. Dla modeli binarnych z rzadkim zdarzeniem docelowym (np. < 1% przypadków pozytywnych) wymagana może być znacznie większa próba niż wskazuje prosta heurystyka.

Dane wejściowe

Wymagania wobec danych historycznych

Podział na zbiory

Obsługa brakujących wartości

Inżynieria cech

Stronniczość próby

FAQ

Powiązane sekcje

Wprowadzenie

Modele predykcyjne

Wdrożenie