Strona główna Wprowadzenie Dane wejściowe Modele Wdrożenie Etyka analityki O nas Kontakt
Sekcja 02

Dane wejściowe

Jakość modelu predykcyjnego jest bezpośrednią funkcją jakości danych, na których był trenowany. Etap przygotowania danych pochłania typowo 60–80% czasu projektu analitycznego i determinuje granicę możliwej do osiągnięcia dokładności.

Articles published on this website summarize publicly available information, industry research and educational materials.

Wymagania wobec danych historycznych

Dane treningowe powinny spełniać cztery podstawowe kryteria: reprezentatywność (próba odzwierciedla populację docelową), kompletność (brak wartości NULL w kluczowych predyktorach), spójność (te same pojęcia mierzone tą samą metodyką w czasie) i właściwy horyzont historyczny (obejmujący pełen cykl zjawiska, w tym epizody ekstremalne).

Rozmiar próby jest funkcją złożoności modelu i liczby predyktorów. Jako ogólna heurystyka — co najmniej 10 obserwacji na jeden parametr modelu — stanowi punkt wyjścia, ale nie zastępuje walidacji krzyżowej.

Podział na zbiory

Standardowy podział danych w projekcie predykcyjnym:

70%
Zbiór treningowy
15%
Zbiór walidacyjny
15%
Zbiór testowy

Przy danych szeregów czasowych standardowy losowy podział jest niewłaściwy — stosuje się podział chronologiczny, aby zapobiec wyciekowi danych z przyszłości do przeszłości (data leakage).

Obsługa brakujących wartości

Brakujące wartości są normą w danych organizacyjnych. Możliwe strategie:

  • Usunięcie rekordów — tylko przy małym odsetku braków losowych (MCAR)
  • Imputacja prostą statystyką — mediana/moda dla zmiennych z rozkładem niesymetrycznym
  • Imputacja modelowa — przewidywanie brakujących wartości na podstawie innych zmiennych
  • Flaga brakującej wartości — dodanie zmiennej binarnej wskazującej brak danych jako osobnej cechy

Inżynieria cech

Inżynieria cech (feature engineering) to tworzenie nowych zmiennych wejściowych na podstawie posiadanych danych surowych. Dobre cechy kodują wiedzę domenową: różnice między datami (staż klienta), agregaty okna czasowego (sprzedaż w ostatnich 30 dniach), interakcje zmiennych i transformacje (logarytmizacja przychodów dla modeli liniowych).

Stronniczość próby

Stronniczość próby (sample bias) pojawia się, gdy dane treningowe nie reprezentują populacji docelowej. Typowe przypadki: model trenowany tylko na zaakceptowanych wnioskach kredytowych nie potrafi prawidłowo ocenić odrzuconych kandydatów (selection bias), model oparty na danych sprzed zmiany regulacyjnej może być nieskalibrowany po wejściu w życie nowych przepisów.

FAQ

Co to jest data leakage i dlaczego jest problemem?
Data leakage (wyciek danych) to sytuacja, gdy informacja z przyszłości dostaje się do danych treningowych. Model uczy się predykować na podstawie danych, które w rzeczywistości nie byłyby dostępne w momencie predykcji. Skutkuje to zawyżonymi metrykami na etapie trenowania i złą wydajnością na danych produkcyjnych.
Ile danych historycznych jest potrzebnych do modelu?
Minimalna wymagana liczba obserwacji zależy od liczby predyktorów, klasy algorytmu i częstości zjawisk docelowych. Dla modeli binarnych z rzadkim zdarzeniem docelowym (np. < 1% przypadków pozytywnych) wymagana może być znacznie większa próba niż wskazuje prosta heurystyka.