Zamiana tekstu na mowę i inteligentne odpowiedzi w aplikacji Bing

Zamiana tekstu na mowę i inteligentne odpowiedzi w aplikacji Bing

Autor: Krzysztof Sulikowski

Opublikowano: 3/20/2019, 9:25 PM

Liczba odsłon: 1289

Wydajność chmury obliczeniowej w specyficznych dziedzinach (jak np. deep learning czy computer vision) drastycznie wzrasta, gdy korzysta się z maszyn opartych na zoptymalizowanych pod ich kątem podzespołach sprzętowych. Przykładami w Azure są maszyny wirtualne oparte na GPU od Nvidii i CPU od Intela. Z tych pierwszych korzyści czerpie Bing. W tym tygodniu na konferencji Nvidii, GPU Technology Conference, Microsoft zademonstrował naturalnie brzmiącą zamianę tekstu na mowę w inteligentnej "konwersacji" z Bing, ulepszone inteligentne odpowiedzi oraz szybkie rozpoznawanie wielu obiektów na obrazie, które Bing wykorzystuje do wyszukiwania opartego na podobieństwie. Wszystkie te funkcje obsługiwane są przez maszyny wirtualne w Azure, działające na procesorach graficznych Nvidii i zoptymalizowane przy użyciu bibliotek Nvidia CUDA-X AI.

Zamiana tekstu na mowę

Zaktualizowana aplikacja Bing może teraz zamieniać tekst na mowę (text-to-speech). Pozwala to Bingowi odpowiadać na nasze zapytania (również zadane głosowo) mową, która jest prawie nie do odróżnienia od głosu ludzkiego. Ten postęp był możliwy dzięki przełomom w pracach nad głębokimi sieciami neuronowymi, które poprawiają intonację i artykulację słów w syntezowanej mowie. Microsoft podkreśla, że ta funkcjonalność, działająca jako usługa w czasie rzeczywistym, nie byłaby możliwa bez wydajnych układów graficznych Nvidia.

BING

Jak wspomnieliśmy, Bing wspiera również interakcję głosową ze strony użytkownika. Znaczy to, że ​​możemy rozmawiać z wyszukiwarką bardziej naturalnie, a Bing zamieni naszą wypowiedź na tekst i wyszuka ją w Sieci. Wystarczy nacisnąć przycisk mikrofonu na głównym ekranie aplikacji i wypowiedzieć swoje pytanie. Przypomina to nieco komunikację z Cortaną czy innym asystentem głosowym. Nie spodziewajmy się jednak, by taka możliwość w szybkim czasie trafiła do polskiej wersji aplikacji.

Inteligentne odpowiedzi

Inteligentne odpowiedzi serwowane przez Bing pozwalają uzyskać na zadany temat wyczerpujące, podsumowujące informacje, pochodzące z kilku źródeł. Microsoft ogłosił, że uczynił kolejny krok naprzód w rozwoju inteligentnych odpowiedzi, rozwijając modele deep learningowe. Modele te wymagają dużej mocy obliczeniowej, za którą w tym przypadku odpowiadają układy GPU.

BING

GPU pozwala silnikowi Bing przetwarzać całe strony internetowe znacznie szybciej i wydajniej niż z tradycyjnymi modelami opartymi na CPU. Postęp ten pozwala nam udzielać odpowiedzi na pytania trudniejsze niż kiedykolwiek wcześniej - wyjaśnia Microsoft. Na przykład zamiast stosunkowo prostej odpowiedzi na pytanie "jaka jest stolica Bangladeszu" Bing może teraz dostarczyć odpowiedzi na bardziej złożone pytania, np. "jakie są różne rodzaje oświetlenia w salonie", robiąc to szybciej niż wcześniej.

Wyszukiwanie wizualne

Wyszukiwanie wizualne to kolejny obszar, na który pozytywnie wpłynęły niedawne osiągnięcia. Wyszukiwanie wizualne to nic innego jak wyszukiwanie za pomocą obrazu. Jeśli więc na przykład zobaczymy na zdjęciu lampę, która nam się podoba, to Bing może pokazać podobne wizualnie lampy, a nawet dostarczyć opcje zakupu w różnych przedziałach cenowych, jeśli taki sam lub podobny przedmiot jest dostępny w sprzedaży online. Aby zaoszczędzić nasz czas, wyszukiwanie wizualne automatycznie wykrywa i umieszcza klikalne punkty nad ważnymi obiektami, które możemy chcieć wyszukać.

BING

Zaawansowane funkcje wyszukiwania wizualnego, takie jak wykrywanie obiektów, działają szybko i automatycznie również dzięki układom GPU od Nvidii, zoptymalizowanymi pod kątem wnioskowania, co - jak twierdzi Microsoft - dało ogromną wydajność przetwarzania w porównaniu z wnioskowaniem opartym na procesorze, a tym samym odblokowało ten scenariusz dla naszych klientów.