System rozpoznawania mowy Microsoftu dorównał człowiekowi

System rozpoznawania mowy Microsoftu dorównał człowiekowi

Autor: Krzysztof Sulikowski

Opublikowano: 10/19/2016, 11:22 PM

Liczba odsłon: 2681

Microsoft przeszedł samego siebie. W zeszłym miesiącu system rozpoznawania mowy Microsoft uzyskał najlepszy jak dotąd wynik w branży, co przekłada się na najniższy współczynnik błędu (word error rate). W standardowym dla tego segmentu badaniu Switchboard osiągnięto WER rzędu 6,3%. Rekord ten został właśnie pobity. Wyniki ostatnich badań wskazują na WER zbliżony do ludzkiego. Jest to przełom w dziedzinie komputerowego rozpoznawania mowy ludzkiej.

Inżynierowie z grupy Microsoft Artificial Intelligence and Research opublikowali dokument zatytułowany Achieving Human Parity in Conversational Speech Recognition, z którego treści wynika, że ich system rozpoznawania mowy poczynił tyle samo lub mniej błędów, niż wynosi średnia wśród profesjonalnych transkryptorów. Współczynnik błędnie zrozumianych/napisanych słów (WER) wynosił 5,9%, a więc o 0,4 pkt proc. mniej niż wynosił poprzedni rekord z września. "Współczynnik błędu wynoszący 5,9% jest praktycznie równy temu, który występuje wśród ludzi poproszonych o zapisanie tej samej konwersacji. Jest też najniższy, jaki odnotowano w historii w badaniu rozpoznawania mowy Switchboard, będącym standardem w branży" - czytamy na The Official Microsoft Blog.

Geoffrey Zweig, lider zespołu badawczego Speech & Dialog, nie może ukryć swojej radości z dokonania tego przełomu. Są to według niego historyczne rezultaty, będące "kulminacją ponad dwudziestu lat pracy". Jak dodaje Harry Shum z grupy Microsoft Artificial Intelligence and Research, jest to wręcz niewiarygodny wynik: "Jeszcze pięć lat temu nie pomyślałbym, że możemy to osiągnąć. Nie sądziłem, że okaże się to możliwe". Inżynierowie z Microsoft zapowiadają, że to nie koniec, i zamierzają kontynuować rozwój komputerowych systemów rozpoznawania mowy, zapoczątkowanych przez amerykańską agencję rządową DARPA w latach 70' ubiegłego wieku. Przez blisko cztery dekady wiele firm włożyło sporo wysiłku w tę niełatwą pod względem technicznym gałąź komputeryzacji (zob. historyczne wyniki WER), jednakże to Microsoft jako pierwszy osiągnął poziom typowy dla człowieka.

Co to oznacza z punktu widzenia konsumenta? System rozpoznawania mowy już teraz odgrywa istotną rolę choćby w interakcji z cyfrową asystentką Cortaną, a w nieodległej przyszłości także z botami, działającymi za pośrednictwem Skype, stron internetowych lub aplikacji. Jak dodaje Microsoft, "Ten kamień milowy odbije się szerokim echem w produktach konsumenckich i biznesowych, które mogą zostać istotnie rozszerzone przez rozpoznawanie mowy. Mowa choćby o urządzeniach z segmentu rozrywkowego, takich jak Xbox, dostępności narzędzi do błyskawicznej transkrypcji mowy na tekst [speech-to-text] i cyfrowych asystentach, takich jak Cortana".

Źródło: https://blogs.microsoft.com/next/2016/10/18/historic-achievement-microsoft-researchers-reach-human-parity-conversational-speech-recognition/

Warsztaty: Bezpieczna praca w chmurze z Microsoft 365 Business Premium
Warsztaty: Bezpieczna praca w chmurze z Microsoft 365 Business Premium

Wydarzenia