Technologia rozpoznawania mowy Microsoftu zanotowała rekordowy wskaźnik WER

Technologia rozpoznawania mowy Microsoftu zanotowała rekordowy wskaźnik WER

Autor: Amadeusz Labuda

Opublikowano: 8/21/2017, 2:30 PM

Liczba odsłon: 2575

Wiele spośród technologii Microsoftu stale rozwijanych jest w z grubsza jednym celu – by prześcignąć lub dogonić konkurencję. Podobnie jest w przypadku usprawniania mechanizmów rozpoznawania mowy, w przypadku którego Microsoft dzięki swoim badaniom idzie obecnie łeb w łeb z konkurencją, jaką stanowi na tym polu dla niego Google.

Wybór języka dyktowania w PowerPoint

Skuteczność rozpoznawania mowy mierzy się prostym wskaźnikiem, noszącym nazwę Word Error Rate (WER). Określa on, jaki odsetek ze słów rozpoznany został błędnie. W sierpniu zeszłego roku technologia opracowana przez Microsoft mogła pochwalić się tym współczynnikiem na poziomie 6,3%, teraz zaś wynik ten udało się poprawić do 5,1%. Dla porównania minimalnie lepszymi osiągami pochwalić może się Google, w tym przypadku WER wynosi obecnie 4,9%. Oznacza to w praktyce, że rozpoznawanie przez komputer naszej mowy sięgnęło praktycznie ludzkiego poziomu. Oczywiście w praktyce nie sprawdza się to już tak pięknie, jednakże warto zwrócić uwagę na fakt, że często wypowiadanym przez nas słowom towarzyszą zakłócenia tła, zaś każdy mówi z indywidualnym akcentem. To właśnie to często wystarczy, by spowodować potencjalne błędy. Microsoft nadal będzie pracował nad ulepszeniem technologii rozpoznawania mowy, co zresztą ma teraz nabrać jeszcze większego tempa.

Konkurencja w przypadku opracowywania tego typu stanowi zdecydowanie dobre zjawisko z perspektywy przeciętnego użytkownika. Sprawia ona, że żadna ze stron nie ustaje w próbach udoskonalenia oferowanych przez siebie produktów. Dalsze prace Microsoftu powinny przyczynić się do jeszcze lepszych osiągów rozpoznawania mowy w systemie Windows, Cortanie, Office oraz innych.