Dynamiczne wypaczanie czasu o rozpoznawanie głosu

Co to jest w rozpoznawaniu mowy?
Dlaczego dynamiczne wypaczanie czasu jest przydatne?
Jak działa algorytm DTW?

Co to jest w rozpoznawaniu mowy?

DTW jest metodą pomiaru podobieństwa wzoru o różnych strefach czasowych. Im mniejsza wytworzona odległość, tym bardziej podobna między dwoma wzorami dźwiękowymi. Oba wzorce dźwięku są podobne, dlatego mówi się, że dwa głosy są takie same.

Dlaczego dynamiczne wypaczanie czasu jest przydatne?

Dynamiczne wypaczanie czasu służy do porównania podobieństwa lub obliczenia odległości między dwiema tablicami lub szeregami czasowymi o różnej długości. Jak to zrobić? Jednym oczywistym sposobem jest dopasowanie A i B w modzie 1 do 1 i podsumowanie całkowitej odległości każdego komponentu.

Jak działa algorytm DTW?

Dynamic Time Warping (DTW) to algorytm wyrównania szeregów czasowych opracowany pierwotnie do rozpoznawania mowy⁽¹⁾. Ma na celu wyrównanie dwóch sekwencji wektorów cech poprzez iteracyjne wypaczenie osi czasu, aż do optymalnego dopasowania (zgodnie z odpowiednimi wskaźnikami) między dwiema sekwencjami.