Problem z MFCC i GMM dla rozpoznawania audio

Dlaczego MFCC jest ważne w rozpoznawaniu mowy?
Jak wyodrębniane są funkcje MFCC do rozpoznawania mowy?
Dlaczego MFCC jest tak popularny?
Jakie są zalety MFCC?

Dlaczego MFCC jest ważne w rozpoznawaniu mowy?

MFCC są popularnymi funkcjami wyodrębnionymi z sygnałów mowy do użytku w zadaniach rozpoznawalnych. W modelu mowy z filtrem źródłowym MFCC reprezentuje filtr (przewód głosowy). Odpowiedź częstotliwości przewodu głosowego jest stosunkowo płynna, podczas gdy źródło mowy głosowej można modelować jako pociąg impulsowy.

Jak wyodrębniane są funkcje MFCC do rozpoznawania mowy?

Technika ekstrakcji funkcji MFCC obejmuje zasadniczo okno sygnału, zastosowanie DFT, przyjmowanie dziennika wielkości, a następnie wypaczenie częstotliwości w skali MEL, a następnie zastosowanie odwrotnego DCT.

Dlaczego MFCC jest tak popularny?

Technika MFCC jest najpopularniejszą, ma ogromne osiągnięcie i szeroko stosowane w systemach rozpoznawania głośników i mowy [35, 36]. Opiera się na skali logarytmicznej i jest w stanie oszacować ludzką odpowiedź słuchową w lepszy sposób niż inne techniki ekstrakcji cech cepstralnych [37,38]. ...

Jakie są zalety MFCC?

Zaletą MFCC jest to, że jest on dobry w redukcji błędów i jest w stanie uzyskać solidną funkcję, gdy na sygnał wpływa szum. Technika SVD/PCA służy do wyodrębnienia ważnych cech z reprezentacji dystrybucji B.