Co jest nadpróbkowaniem w Pythonie?
Losowe nadpróbkowanie obejmuje losowe wybór przykładów z klasy mniejszościowej, z wymianą i dodaniem ich do zestawu danych szkoleniowych. Losowe podkład obejmuje losowe wybór przykładów z klasy większości i usuwanie ich z zestawu danych szkoleniowych.
Jak przewyższasz dane?
Aby wówczas przewyższyć, weź próbkę z zestawu danych i rozważ jej K najbliższych sąsiadów (w przestrzeni cech). Aby utworzyć syntetyczny punkt danych, weź wektor między jednym z tych są sąsiadów i bieżącego punktu danych. Pomnóż ten wektor przez losową liczbę x, która leży między 0 a 1.
Jak zwiększyć próbkę danych w Python?
Możesz zwiększyć liczbę zestawów danych, po prostu kopiując rekordy z klas mniejszościowych. Możesz to zrobić metodą resample () ze sklearn. Moduł Utils, jak pokazano w poniższym skrypcie. Widać, że w tym przypadku pierwszym argumentem, który przekazujemy metodą resample (), jest nasza klasa mniejszościowa, i.mi. Nasz zestaw danych SPAM.