Microsoft poinformował dziś o dodaniu wsparcia dla 6 nowych języków w Bing Speech API, a dokładniej rzecz biorąc w jego usłudze zamiany tekstu na mowę Text-to-speech (TTS). Dzięki temu Bing i korzystające z jego API usługi przemówią do nas w 34 językach, w tym oczywiście po polsku. Jakie to dokładnie języki, jaka technologia się za tym kryje i w jakich aplikacjach będzie można z tego korzystać? O tym poniżej.
Głos staje się coraz powszechniejszym sposobem interakcji z wszelkiego rodzaju urządzeniami i usługami. Działa to w obu kierunkach - systemy, takie jak Microsoft Cognitive Services zarówno rozpoznają głos, jak i przemawiają nim za pomocą syntezatora mowy. Zamiana tekstu na mowę, tak samo jak zamiana mowy na tekst, opiera się na sztucznej inteligencji. Jak pisze Qinying Liao z Microsoft, Cognitive Services oferują teraz łącznie 34 języki, "obsługiwane przez najnowszą technologię AI" i dostępne z poziomu pojedynczego API, z którego deweloperzy mogą sięgać po "najnowszej generacji modele rozpoznawania mowy i TTS". Sześć nowych języków to:
- Bułgarski (kod języka: bg-BG)
- Chorwacki (hr-HR)
- Malajski (ms-MY)
- Słoweński (sl-SI)
- Tamilski (ta-IN)
- Wietnamski (vi-VN)
W sumie Bing Speech API obsługuje mowę w 34 językach, dostępnych w 48 wersjach lokalnych i 78 czcionkach głosowych. "Te API Text-to-Speech może zostać zintegrowane przez deweloperów w szerokim wachlarzu scenariuszów użycia. Można go używać samodzielnie, zapewniając [aplikacjom] ułatwienia dostępu, komunikację bez użycia rąk, wykorzystanie go multimediach lub innych interakcjach maszyna-człowiek. Można go również łączyć z innymi API Cognitive Services, takimi jak Speech to Text lub Language Understanding, by tworzyć kompleksowe rozwiązania sterowane głosem, działające online lub na urządzeniu" - dodaje Liao.
Nowe języki na liście TTS będą również dostępne w Microsoft Translator Speech API i aplikacji Tłumacz Microsoft (Microsoft Translator) do końca lutego tego roku. Pełną listę 34 obsługiwanych języków można przjrzeć na stronie dokumentacji Bing text to speech API.