Aplikacja Microsoftu widzi nasze otoczenie i o nim rozmawia

Aplikacja Microsoftu widzi nasze otoczenie i o nim rozmawia

Autor: Krzysztof Sulikowski

Opublikowano: 11/5/2018, 10:55 PM

Liczba odsłon: 878

Co może wyjść z połączenia komputerowego rozpoznawania obrazów, sztucznej inteligencji i bota konwersacyjnego? Odpowiedź na te pytanie zawiera się w pojęciu Empathy Vision Model. Microsoft użył kilku swoich technologii do stworzenia aplikacji na telefon, z którą można pogadać o otaczającej nas rzeczywistości i która potrafi tę rzeczywistość komentować w całkiem naturalny sposób.

Sztuczna inteligencja, wyposażona w zdolności widzenia i prowadzenia konwersacji, wkrótce stanie się nam bliższa za sprawą aplikacji mobilnej rozwijanej przez Microsoft. Aplikacja jako podstawowy interfejs wykorzystuje japońskiego czatbota, Rinnę, oraz szereg usług poznawczych (znanych też jako Cognitive Services), takich jak widzenie, słyszenie i używanie mowy. Pozwalają one aplikacji rozpoznawać obiekty w zasięgu widzenia kamery i rozmawiać o nich z użytkownikiem, który nota bene widzi to samo. Z drugiej strony Rinna może też komentować widziane otoczenie na wzór Seeing AI - innej aplikacji, która pomaga niewidomym. Sercem aplikacji jest wspomniany Empathy Vision Model, czyli połączenie konwencjonalnego rozpoznawania obrazów (computer vision) z bardziej emocjonalną odpowiedzią.

Rinna, dysponując widzeniem za pośrednictwem kamery, nie tylko rozpoznaje obiekty i ludzi, ale też w czasie rzeczywistym opisuje i komentuje werbalnie to, co widzi. Jak wyjaśnia Microsoft:

Używając technologii przetwarzania języka naturalnego, rozpoznawania mowy i syntezowania mowy - rozwijanych przez naukowców w Microsoft Research - może ona uczestniczyć w niemalże naturalnych rozmowach z człowiekiem, używającym telefonu.

W przeciwieństwie do pozostałych aplikacji, rozpoznających zawartość obrazu, Rinna nie tyle charakteryzuje i opisuje obiekty, co raczej opowiada o swoich wrażeniach. Konwencjonalna AI, widząc przykładowe zdjęcie, powiedziałaby Widzę ludzi. Widzę dziecko. Widzę samochód. Widzę psa. Rinna, działając w modelu Empathy Vision, powie raczej coś w stylu Wow, fajna rodzinka! Cieszą się pewnie z weekendu. O, nadjeżdża samochód, uważaj! Microsoft dodaje, że czatbot posiada zdolność komunikacji "full duplex", co oznacza rozmowę bez przerw, przypominającą naturalną rozmowę telefoniczną, a nie urywaną wymianę komunikatów w stylu walkie-talkie. Rinna potrafi przewidywać następną odpowiedź użytkownika, a nawet wcinać mu się w słowo.

Aplikacja nadal jest rozwijana i nie jest jasne, kiedy trafi do użytkowników końcowych. Microsoft przypomina tymczasem, że funkcja czatu głosowego jest już dostępna pod nazwą Voice Chat with Rinna na oficjalnym koncie Rinny w LINE dla użytkowników z Japonii.

Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży
Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży

Wydarzenia