Jak powstało Seeing AI i dokąd prowadzi ta ewolucja?

Jak powstało Seeing AI i dokąd prowadzi ta ewolucja?

Autor: Krzysztof Sulikowski

Opublikowano: 1/30/2019, 10:38 PM

Liczba odsłon: 1020

Seeing AI to aplikacja Microsoftu ułatwiająca życie i stanowiąca "cyfrowe oczy" dla osób niewidomych lub słabowidzących. Użytkownik kieruje kamerę telefonu na dowolny obiekt, osobę lub scenę, by uzyskać opis tego, co inteligentny program "widzi". Tę innowacyjną funkcjonalność doceniono już w kilku prestiżowych konkursach, a z biegiem czasu została ona rozszerzona, np. o rozpoznawanie kolejnych walut. Do tej pory jednak nie dane nam było poznać jej od kuchni i powrócić do początku - jak w ogóle doszło do powstania Seeing AI? Wiele na ten temat mówi Saqib Shaikh, główny twórca aplikacji.

Saqib Shaikh stał się niejako twarzą Seeing AI, wielokrotnie wypowiadając się o aplikacji. Stracił on wzrok w wieku 7 lat, a w komputerach zakochał się już w czasach szkolnych. Po latach nauki w Wielkiej Brytanii (zdobywając m.in. dyplom magistra w zakresie AI) został jednym z najważniejszych inżynierów oprogramowania w Microsoft. Shaikh pracuje w Microsoft od 13 lat i przez ten czas współtworzył wiele jego produktów, takich jak Bing czy Cortana. Dziś jednak skupimy się na Seeing AI - aplikacji, którą zespół Shaikha wypuścił w 2017 roku i która od tego czasu pomogła klientom w ponad 10 milionach zadań. Można z niej korzystać wszędzie: w domu, na ulicy, w poczekalni, biurze czy restauracji. Potrafi ona czytać tekst w książkach, gazetach, menu, a także identyfikować banknoty (nominały i waluty), rozpoznawać kolory i wykrywać, czy włączone jest światło.

Microsoft opublikował dziś rozmowę z Saqibem. Przytoczymy jej kilka fragmentów. Zacznijmy od pytania, w jaki sposób na jego pracę w Microsoft wpłynęła niepełnosprawność wzrokowa:

To nie była rzecz, o której specjalnie myślałem. Od początku miałem to szczęście, że byłem otoczony przez wspierających kolegów. Mój brak możliwości widzenia rozpłynął się gdzieś w tle. Za każdym razem, gdy pojawia się problem, po prostu znajdujesz rozwiązanie.

Saqib Shaikh pełni również w Microsoft rolę ambasadora inkluzywnej technologii. Jak sam mówi, cieszy go to, że może inspirować i wpływać na ludzi w kontekście zmiany myślenia o niepełnosprawności. Deweloper zainteresował się komputerami w wieku 10 lat, kiedy w szkole po raz pierwszy użył mówiącego komputera. Dało mu to poczucie niezależności. Później nauczył się programować i nabrał chęci tworzenia podobnych technologii. Skąd dokładnie wziął się pomysł na Seeing AI?

O ile pamiętam, po raz pierwszy myślałem o tej idei na uniwersytecie ponad 15 lat temu. Mieliśmy sesje ideacji w dormitorium. Mówiliśmy rzeczy w stylu "Ok, powinniśmy zrobić okulary z kamerą, które mogą patrzeć na wszystko dokoła i opisywać to na głos". Wtedy zupełnie nie byliśmy w stanie tego zrobić, ale w 2014 roku mieliśmy w Microsoft nasz pierwszy Hackathon. Wtedy znów pomyślałem o tym pomyśle. Pierwsze prototypy były prymitywne. Rozpoznawały twarze i parę innych rzeczy. Wtedy jednak zaczęliśmy pracować ze świetnymi naukowcami z Microsoft Research (badawczym i rozwojowym ramieniem Microsoftu). Technologie i algorytmy deep learningowe stawały się coraz lepsze. Zeszło się to w czasie z chmurą obliczeniową. Wreszcie doszliśmy do punktu, w którym komputer może przynajmniej próbować opisać to, co dzieje się na zdjęciu. To był prawdziwy przełom. Rzeczy ciągle idą do przodu. Jeszcze nie zrealizowaliśmy naszego marzenia, ale zbliżamy się do tego. Chodzi w tym wszystkim o zidentyfikowanie potrzeby, a następnie o sprzęgnięcie technologii, żeby zbudować rozwiązania.

Deweloper zwraca uwagę na to, że wiele technologii pochodzi od niepełnosprawnych lub powstało z myślą o nich. To na przykład telefon, mówiące komputery, zamiana tekstu na mowę, rozpoznawanie mowy, skanery czy nawet ekrany dotykowe. Wszystkie one powstały dlatego, że ktoś miał problem, a ktoś inny znalazł czas, by znaleźć rozwiązanie - dodaje Shaikh. Ekran dotykowy został stworzony przez kogoś, kto miał dolegliwości spowodowane powtarzającym się napięciem mięśni i szukał mniej bolesnego sposobu na pisanie. Wow! Tego nie wiedzieliśmy. Na koniec przejdźmy do pytania o to, jak zdaniem Shaikha kształtować się będzie technologia przyszłości:

Jestem optymistycznie nastawiony do przyszłości. Myślę, że za wiele lat każdy będzie miał swojego własnego "osobistego agenta AI", który będzie nam pomagał. Wyobrażam to sobie jako przyjaciela, siedzącego na moim ramieniu, oglądającego świat dookoła i szepczącego mi do ucha. Takie agenty będą się uczyć tego, co jest dla nas ważne. Będą wiedzieć, co nam powiedzieć i kiedy to powiedzieć w odpowiedni sposób. Myślę, że zmierzamy właśnie w tą stronę - małych agentów, które wyczuwają świat dookoła nas. Nie będą to tylko ludzie z niepełnosprawnościami. Będziemy mieć świat, w którym sensory i edge computing będą napędzać technologię, która naprawdę rozumie świat dookoła nas.

Deweloperzy z Microsoft nadal rozwijają aplikację, ponieważ nie mogą (i nie chcą) z góry zakładać, jak będzie ona używana. Widzimy też, że Seeing AI w obecnej postaci nie jest produktem ostatecznym i że jest w tej materii wiele do zrobienia. Seeing AI i podobne technologie będą ewoluować i przynosić korzyść nie tylko niepełnosprawnym użytkownikom, ale też sprawnym, tak jak dziś robią to wymienione wcześniej wynalazki.

Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży
Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży

Wydarzenia