Szeptane polecenia głosowe. Microsoft prezentuje moduł SilentVoice

Dziś jeszcze nadal dominującą formą interakcji z oprogramowaniem jest klawiatura/mysz lub ekran dotykowy. Przyszłość jednak - jeśli wierzyć prognozom Microsoftu - należy do głosu. Boty konwersacyjne czy wszechobecne interfejsy głosowe (np. w wyszukiwarkach internetowych) mają jednak pewną wadę, a mianowicie trzeba do nich przemawiać w miarę głośno i wyraźnie. To z kolei męczy i naraża użytkownika na to, ze ktoś go podsłucha. Microsoft Research stara się temu zapobiec i odniósł już nawet na tym polu pewne sukcesy.

Stukanie w klawiaturę lub ekran dotykowy ma jednak pewne zalety: nie męczy tak szybko jak mówienie (chyba że ktoś jest zawodowym mówcą) i jest raczej bezpieczniejsze. Wypowiadając na głos wrażliwe informacje, dyktując prywatne lub służbowe wiadomości czy wprowadzając hasła, stajemy się dużo bardziej narażeni na niepowołany dostęp do tych danych. Łatwiej bowiem coś podsłuchać niż podejrzeć na ekranie czy klawiaturze. Rozwiązanie tych i paru innych problemów odnalazł Microsoft Research, który pracuje nad projektem SilentVoice.

SilentVoice nie wymaga głośnego mówienia. Przechwytuje on powietrze wydobywające się z ust i rozpoznaje mowę, która nie przeszkadza ludziom dookoła. Moduł odfiltrowuje również dźwięki i głosy z otoczenia, przez co użytkownik może być pewien, że tylko jego głos będzie mógł wydawać polecenia. Zobaczmy, co o projekcie pisze Microsoft:

SilentVoice to nowe urządzenie interfejsu wejścia głosowego, które przenika do opartego na mowie, naturalnego interfejsu użytkownika (NUI). Proponowana metoda "ingresywnej mowy" umożliwia umieszczenie mikrofonu bardzo blisko przedniej części jamy ustnej bez niekorzystnego efektu pop-noise [spółgłoski zwarto-wybuchowe typu "p" - przyp. red.] i przechwytywanie bardzo cichych dźwięków mowy z dobrym współczynnikiem sygnału do szumu. Realizuje on ultracichy (poniżej 39dB (A)) wycinek głosu, co pozwala nam używać głosu bez przeszkadzania ludziom dookoła w sytuacjach publicznych i mobilnych, a także w biurach i domach. Mierząc kierunek przepływu powietrza, SilentVoice może być łatwo oddzielony od normalnych wypowiedzi z dokładnością do 98,8% i nie są potrzebne żadne słowa aktywujące. Może on być używany w systemach aktywowanych głosem i rozpoznających [konkretny] głos. Oceniono, że rezultaty cechuje współczynnik błędu rozpoznawania słów (WER) na poziomie 1,8% (stan zależny od mówiącego) i 7,0% (stan niezależny od mówiącego) z ograniczonym słownikiem 85 zdań-poleceń. Zbliżony do szeptu naturalny głos może być również używany do komunikacji głosowej w czasie rzeczywistym.

Jak widzimy, Microsoft pomyślał o wielu niedomaganiach współczesnych systemów rozpoznawania mowy i komunikacji głosowej. SilentVoice wydaje się być ich pozbawiony. Czy czeka go implementacja w urządzeniach konsumenckich, takich jak telefony? Na to liczymy.

Szeptane polecenia głosowe. Microsoft prezentuje moduł SilentVoice

Autor: Krzysztof Sulikowski

Opublikowano: 10/16/2018, 6:08 PM

Liczba odsłon: 650

Aktualności z kategorii

Aktualności

Artykuły

Wydarzenia