- Co to jest MFCC w rozpoznawaniu mowy?
- Do czego służy MFCC?
- Jakie są funkcje MFCC?
- Dlaczego MFCC jest tak popularny?
Co to jest MFCC w rozpoznawaniu mowy?
Mel-częstotliwość współczynników cepstrum (MFCC)
W modelu mowy z filtrem źródłowym MFCC reprezentuje filtr (przewód głosowy). Odpowiedź częstotliwości przewodu głosowego jest stosunkowo płynna, podczas gdy źródło mowy głosowej można modelować jako pociąg impulsowy.
Do czego służy MFCC?
MFCC są powszechnie używane jako funkcje w systemach rozpoznawania mowy, takie jak systemy, które mogą automatycznie rozpoznać liczby wypowiadane w telefonie. MFCC coraz częściej znajdują zastosowania w aplikacjach wyszukiwania informacji muzycznych, takich jak klasyfikacja gatunku, miary podobieństwa audio itp.
Jakie są funkcje MFCC?
Technika ekstrakcji funkcji MFCC obejmuje zasadniczo okno sygnału, zastosowanie DFT, przyjmowanie dziennika wielkości, a następnie wypaczenie częstotliwości w skali MEL, a następnie zastosowanie odwrotnego DCT. Szczegółowy opis różnych kroków związanych z ekstrakcją funkcji MFCC wyjaśniono poniżej.
Dlaczego MFCC jest tak popularny?
Technika MFCC jest najpopularniejszą, ma ogromne osiągnięcie i szeroko stosowane w systemach rozpoznawania głośników i mowy [35, 36]. Opiera się na skali logarytmicznej i jest w stanie oszacować ludzką odpowiedź słuchową w lepszy sposób niż inne techniki ekstrakcji cech cepstralnych [37,38]. ...