Nierówne dane są powszechnym problemem w uczeniu maszynowym, co stanowi wyzwania w zakresie korelacji, separacji i oceny klas oraz wynika z słabej wydajności modelu.
- Jaka jest wada niezrównoważonych danych?
- Dlaczego nierównowaga klasy jest problemem?
- Jaki jest problem z niezrównoważonymi zestawami danych w problemach z klasyfikacją?
- Jak nierównowaga klasowa wpłynęłaby na Twój model?
Jaka jest wada niezrównoważonych danych?
Wady: może odrzucić użyteczne informacje o samych danych, które mogą być konieczne do budowania klasyfikatorów opartych na regułach, takich jak losowe lasy. Próbka wybrana przez losowe under próbka może być stronniczką próbką. I w takim przypadku nie będzie to dokładna reprezentacja populacji.
Dlaczego nierównowaga klasy jest problemem?
Wiele praktycznych problemów klasyfikacyjnych jest niezrównoważonych. Problem z brakiem równowagi klas zwykle występuje, gdy istnieje o wiele więcej przypadków niektórych klas niż inne. W takich przypadkach standardowe klasyfikatory są zwykle przytłoczani dużymi klasami i ignorują małe.
Jaki jest problem z niezrównoważonymi zestawami danych w problemach z klasyfikacją?
Oznacza to, że model nie identyfikuje klasy mniejszości, ale wynik dokładności modelu wyniesie 95%. Zatem nasze tradycyjne podejście do klasyfikacji i obliczenia dokładności modelu nie jest przydatne w przypadku niezrównoważonego zestawu danych.
Jak nierównowaga klasowa wpłynęłaby na Twój model?
Gdy nierównowaga klas istnieje w danych szkoleniowych, modele uczenia maszynowego zazwyczaj przesadzają większą klasę (ES) ze względu na ich zwiększone wcześniejsze prawdopodobieństwo. W rezultacie przypadki należące do mniejszych klas (ES) są zwykle błędnie klasyfikowane częściej niż te należące do większej klasy (ES).