Dlaczego problem są niezrównoważone dane

Nierówne dane są powszechnym problemem w uczeniu maszynowym, co stanowi wyzwania w zakresie korelacji, separacji i oceny klas oraz wynika z słabej wydajności modelu.

Jaka jest wada niezrównoważonych danych?
Dlaczego nierównowaga klasy jest problemem?
Jaki jest problem z niezrównoważonymi zestawami danych w problemach z klasyfikacją?
Jak nierównowaga klasowa wpłynęłaby na Twój model?

Jaka jest wada niezrównoważonych danych?

Wady: może odrzucić użyteczne informacje o samych danych, które mogą być konieczne do budowania klasyfikatorów opartych na regułach, takich jak losowe lasy. Próbka wybrana przez losowe under próbka może być stronniczką próbką. I w takim przypadku nie będzie to dokładna reprezentacja populacji.

Dlaczego nierównowaga klasy jest problemem?

Wiele praktycznych problemów klasyfikacyjnych jest niezrównoważonych. Problem z brakiem równowagi klas zwykle występuje, gdy istnieje o wiele więcej przypadków niektórych klas niż inne. W takich przypadkach standardowe klasyfikatory są zwykle przytłoczani dużymi klasami i ignorują małe.

Jaki jest problem z niezrównoważonymi zestawami danych w problemach z klasyfikacją?

Oznacza to, że model nie identyfikuje klasy mniejszości, ale wynik dokładności modelu wyniesie 95%. Zatem nasze tradycyjne podejście do klasyfikacji i obliczenia dokładności modelu nie jest przydatne w przypadku niezrównoważonego zestawu danych.

Jak nierównowaga klasowa wpłynęłaby na Twój model?

Gdy nierównowaga klas istnieje w danych szkoleniowych, modele uczenia maszynowego zazwyczaj przesadzają większą klasę (ES) ze względu na ich zwiększone wcześniejsze prawdopodobieństwo. W rezultacie przypadki należące do mniejszych klas (ES) są zwykle błędnie klasyfikowane częściej niż te należące do większej klasy (ES).