Ulepszenie mowy za pomocą głębokiego uczenia się

Jest głębokie uczenie się używane do rozpoznawania mowy?
Czy sieci neuronowe można wykorzystać do rozpoznawania mowy?
Jakie są techniki zwiększania mowy?
Czy możemy użyć RNN do rozpoznawania mowy?

Jest głębokie uczenie się używane do rozpoznawania mowy?

W erze głębokiego uczenia się sieci neuronowe wykazały znaczną poprawę zadania rozpoznawania mowy. Zastosowano różne metody, takie jak splotowe sieci neuronowe (CNN), nawracające sieci neuronowe (RNN), podczas gdy ostatnio sieci transformatorów osiągnęły doskonałą wydajność.

Czy sieci neuronowe można wykorzystać do rozpoznawania mowy?

Sieci neuronowe są bardzo potężne do uznania mowy. Istnieją różne sieci tego procesu. RNN, LSTM, głęboka sieć neuronowa i hybrydowa HMM-LSTM są używane do rozpoznawania mowy.

Jakie są techniki zwiększania mowy?

W literaturze opisano szereg technik wzmocnienia mowy [32]. Obejmują one odejmowanie widmowe [33, 34, 41], filtrowanie Wienera i Kalmana [35], oszacowanie MMSE [36], filtrowanie grzebienia [32], metody podprzestrzeni [37, 38] oraz kompensację widma fazowego [39, 40].

Czy możemy użyć RNN do rozpoznawania mowy?

RNN wydaje się być bardziej naturalny dla rozpoznawania mowy niż MLP, ponieważ pozwala na zmienność długości wejściowej [17]. Motywacją do zastosowania nawracającej sieci neuronowej do tej domeny jest wykorzystanie ich zdolności do przetwarzania krótkoterminowych cech spektralnych, ale jednak reaguje na długoterminowe zdarzenia czasowe.