Windows Vista Speech Recognition

Windows Vista Speech Recognition

Autor: Marcin Pacyna

Opublikowano: 10/9/2008, 12:00 AM

Liczba odsłon: 17292

Windows Speech Recognition jest aplikacją służącą do komunikacji z komputerem, a dokładnie z systemem operacyjnym. Jej podstawowym zadaniem jest zwiększenie efektywności tworzenia dokumentów i zmniejszenie do minimum korzystania z myszki i klawiatury. Używając wyłącznie własnego głosu jesteśmy w stanie obsługiwać ulubione aplikacje, przeglądać strony internetowe jak również dyktować treść maili. Nigdy wcześniej pisanie do znajomych nie było tak proste i wygodne. Aby wysłać wiadomość do przyjaciela możemy siedzieć w fotelu i podawać jej zawartość przy pomocy mikrofonu. Mówiąc, wprowadzamy różnego typu korekty do edytowanej wiadomości. Ciekawym rozwiązaniem jest umożliwienie użytkownikom dodawanie słów, których nie ma w słowniku poprzez dyktowanie 'literka po literce', co znacznie rozszerza potencjał Windows Speech Recognition. Jednym słowem - kontrolujemy komputer za pomocą głosu. Czy to krok w przyszłość, czy kolejna nieprzydatna zabawka? Postaramy się o tym przekonać w artykule.

Na początek...

Żeby móc korzystać z dobrodziejstw, jakie oferuje Windows Speech Recognition, musimy zaopatrzyć się w mikrofon. To niestety podstawa, bez której ani rusz.

Kolejnym krokiem jest sama aplikacja Windows Speech Recognition. Gdzie ją znajdziemy? Podamy trzy metody uruchomienia jej.

Z menu Start wybieramy Search i wpisujemy: "Windows Speech Recognition" w okno wyszukiwarki, która znajdzie skrót do tego programu:

Możemy również z menu Start wybrać Control Panel, przełączyć się na widok klasyczny używając ikony Classic View znajdującej się po lewej stronie okna, aby wyświetlić wszystkie dostępne opcje panelu sterowania.

Następnie wybieramy  Start Speech Recognition i do dzieła...

Ostatnią metodą, jaką przedstawimy jest wybór Programs z klasycznego menu Start , następnie Accessories. Kolejnym krokiem jest wskazanie Easy of Access, a na końcu docieramy do celu naszej podróży, czyli Window Speech Recognition.

Przy pierwszym uruchomieniu polecamy skorzystać z Control Panel. Aby skonfigurować mikrofon wybierzmy Set up microphone.

Kolejnym krokiem jest sama aplikacja Windows Speech Recognition. Gdzie ją znajdziemy? Podamy trzy metody uruchomienia jej.

Po wybraniu tej opcji przechodzimy do bardzo intuicyjnego menu, w którym mamy do wyboru rodzaj mikrofonu. Tam również możemy zmienić jego głośność. Jest to bardzo proste, więc nie będziemy się już dłużej tym zajmować. Jedyne na co zwrócimy uwagę, to czy podczas testu mikrofonu widzimy poruszający się zielony pasek (ten u dołu) obrazujący działanie sprzętu, którym będziemy się posługiwać.

Samouczek

Pracę z programem zaczynamy od Take Speech Tutorial. Samouczek jest intuicyjny, nie wymaga szerszego komentarza. Włączamy przewodnik po aplikacji. Po chwili usłyszymy przyjemny akcent muzyczny i zobaczymy konsultantkę, która na pewno umili zapoznanie się z programem. Nauka jest podzielona na etapy, które widzimy u dołu ekranu. Cały trening jest interaktywny, polega na wykonaniu poleceń narzuconych przez Windows Speech Recognition. Efekt jest od razu widoczny na ekranie, co znacznie wpływa na efektywność uczenia.

Dzięki samouczkowi w przystępny sposób zapoznamy się z możliwościami programu. Przyswoimy sobie komendy którymi obsługiwać będziemy system operacyjny.

Wspomnimy jeszcze o przedostatniej opcji dostępnej w Panelu sterowania. Jest to zestaw porad, które pomogą efektywniej korzystać z Windows Speech Recognition. Poza tym gdy czytamy tekst, komputer zbiera informacje o tym, w jaki sposób wypowiadamy dane słowa, co pozwala na trafniejszą interpretacje komend użytkownika.

Na zakończenie przejdźmy do Open the Speech Reference Card. Jest to kompilacja całej pomocy w formie zakładek tematycznych:

  • How do I use Speech Recognition?
  • Common Speech Recognition commands
  • Dictation
  • Keyboard keys
  • Punctuation marks and special characters
  • Controls
  • Windows
  • Click anywhere on the screen

Mamy do wyboru między innymi: Common Speech Recognition commands - jest to spis komend wraz z opisem ich działania; Dictation dotyczy tych, które są używane do dyktowania dokumentów. Punctuation marks and special characters to spis wszystkich znaczników i znaków interpunkcji, jakich możemy używać w dokumentach.

Przydatne skróty

Na początek dla usystematyzowania paragrafu przyjmijmy, że słowa ujęte w cudzysłów "xxx" będziemy traktować jako komendę wypowiadaną do mikrofonu. Komendy słowne potwierdzamy "OK". Pierwszą bardzo interesującą i zarazem przydatną funkcją jest podział okna na sektory, do których odwołujemy się poprzez podanie numeru i potwierdzenie słowem "OK". Wywołujemy go komendą "Show numbers".

Edycji podawanego tekstu dokonujemy poprzez podanie komendy "Correct", w tym momencie pojawia się okienko z zaproponowanymi korektami numerowanymi od 1-9. Wybieramy interesującą podpowiedź np. "four" i potwierdzamy "OK". W przypadku braku interesującego słowa możemy przeliterować używając opcji "Spell it" i dodać je do słownika aplikacji. Operację potwierdzamy "OK":

Windows Speech Recognition pozwala  na sterowanie i manipulację kursorem myszki. Procedura jest następująca: mówimy "Mousegrid", ekran monitora zostanie podzielony na sekcje przypominające planszę do gry w Sudoku, czyli 9 pól. Siatka ta ma za zadanie precyzyjnie wybrać żądany element. Wybieramy sektor, w którym znajduje się obiekt na który chcemy zadziałać kursorem myszki. Selekcja odbywa się przez podanie numeru sektora np. "six". Efektem działania instrukcji jest zawężenie obszaru do pola, jakie miał kwadrat o numerze jaki podaliśmy. Operację powtarzamy tak długo, aż interesujący obiekt będzie porównywalny z rozmiarem pola, którego używaliśmy do wyboru obszaru ekranu. Uwieńczeniem jest intuicyjne "Double Click" lub "Click" gdy chcemy np. tylko zaznaczyć obiekt lub zminimalizować otwarte okno programu.

Po zawężeniu obszaru proces możemy powtórzyć jeszcze raz, by sektor jednoznacznie wskazywał na Computer i potwierdzamy "Double Click". Efektem operacji będzie otwarcie okna Computer.

Coś praktycznego

Na przykładzie pokażemy, jak wybrać stronę internetową.

Prace zaczynamy od uruchomienia Windows Speech Recognition, włączamy ją mówiąc "Start Listeninig". Gdy aplikacja jest gotowa to działania, komendą "Internet Explorer" uruchamiamy przeglądarkę.

Aby wybrać pasek adresu posłużymy się podziałem okna na sektory "Show numbers":

Wybieramy sektor numer sześć "Six", wybór potwierdzamy "OK", następnie dwukrotnie "Address" i podajemy adres np." microsoft.com". Jeżeli adres zostanie rozpoznany, to nastąpi wpisanie go w pole, jeśli nie, pojawi się okno z propozycjami. Jeśli i tu go nie ma, musimy posłużyć się "Spell it"

Specjalnie skorzystamy z opcji "Spell it" żeby przyjrzeć się jej bliżej, potwierdzamy "OK".

Po podyktowaniu całego adresu "OK", na koniec skorzystamy z kursora myszki, by zatwierdzić adres. Mówimy "Mousegrid" i kierujemy się na małą niebieską strzałkę po prawej stronie pola adresu i zatwierdzamy "Click".

Kompatybilność Windows Speech Recognition

Niewiele programów obsługuje technologię Text Services Framework, czyli system wykorzystywany w Windows Speech Recognition. Do aplikacji, które są zgodne z tą technologią należą:

  • Microsoft Word
  • Microsoft Outlook
  • Microsoft PowerPoint
  • Microsoft Excel
  • WordPad
  • WordPerfect
  • Eudora
  • Lotus Notes
  • Właściwie wszystkie aplikacje, które są częścią Windows Vista

Na zakończenie...

Pierwsze co się nasuwa po lekturze artykułu, to że musimy mieć pojecie o języku angielskim, a dokładnie jego wymowie. Starajmy się mówić powoli i wyraźnie, co pozwoli uniknąć żmudnych powtórzeń. Podczas dyktowania system rozpoznawania mowy bierze pod uwagę oprócz fonetyki również i logikę zdania, co nie zawsze jest na rękę. Przykładem jest "Telephone is xxx" - gdy w miejsce xxx mówimy "green" to system użyje słowa "ringing". Kolejną rzeczą jaka przychodzi do głowy to szybkość działania. Posługiwanie się głosem jest wolniejsze w porównaniu do klasycznej myszki i klawiatury. Jeszcze jednym minusem jest to, że system obsługuje tylko wybrane programy. Nie mniej jednak, jest to bardzo ciekawa i innowacyjna metoda komunikacji z komputerem. Plusem Windows Speech Recognition jest bardzo przyjemny interfejs, dobre zaplecze dokumentacyjne. Jest to kolejny krok, aby praca z komputerem była jeszcze łatwiejsza i przyjemniejsza. Program jest skierowany przede wszystkim do użytkowników niepełnosprawnych, którym obsługa myszki i klawiatury może nastręczać problemów. Jednak na pewno warto, aby każdy się z nią zapoznał.

Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży
Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży

Wydarzenia