Jaguar. Dla większości komputerów zapisanie takiego słowa na pustym ekranie to po prostu kolejny ciąg znaków. Inaczej postrzegają to ludzie, wyobrażając sobie dużego kota, reprezentanta ssaków. Inny kontekst przywołuje na myśl markę, podobną do Mercedesa czy BMW, ale też i retro-konsolę gier od Atari. Znaczeń będzie dużo więcej, gdy do słowa dodamy kolejne konteksty. Microsoft Research Asia z placówką w Pekinie pracuje nad tym, by komputery zaczęły rozumieć słowa w bardziej ludzki sposób.
Prace w zakresie cyfrowej komputeryzacji kręcą się wokół Microsoft Concept Graph - sieci, która stanowi w zasadzie wielki zbiór współzależnych koncepcji, których liczba przekracza 5,4 mln i stale rośnie. Na sieć składają się algorytmy machine learning, przetwarzające miliardy stron internetowych i zapytań do wyszukiwarek, co człowiekowi zajęłoby wiele lat. "Chcemy dać maszynom pewien rodzaj zdroworozsądkowych, wysokopoziomowych koncepcji, by mogły lepiej zrozumieć i przetwarzać ludzką komunikację" - mówi Jun Yan z Microsoft Research Asia. Grafy wiedzy pokroju Microsoft Concept Graph są teraz podstawowym komponentem w pracach nad komputerowymi symulacjami ludzkiego myślenia, które wśród naukowców uchodzą za ważny krok w kierunku prawdziwej sztucznej inteligencji. "Ograniczenia komputerów polegają na tym, że nie mają one zdroworozsądkowej wiedzy lub semantyki. Mogą rozumieć tylko znaki, z których składają się słowa" - tłumaczy dalej Yan - "Ale ludzie są inni. Ludzie mają spore zaplecze wiedzy, które pozwala im rozumieć rzeczy".
Prace związane z Microsoft Concept Graph trwają już blisko sześć lat. Ich celem jest stworzenie inteligentnych aplikacji o różnych zastosowaniach praktycznych - od reklam w oparciu o słowa kluczowe, poprzez rozszerzone wyszukiwanie, kończąc na rozwoju bardziej ludzkich czat-botów. Na podstawie jednego słowa-klucza algorytm może np. przesłać powiązane skojarzenia, na które nie wpadłyby *zwykłe* silniki wyszukiwarek. "Stanowi to szansę na większe zyski od reklamodawców, a reklamodawcom daje szansę na dotarcie do szerszego grona odbiorców" - dodaje Jun Yan. Twórcy technologii od trzech lat współpracują z zespołem odpowiedzialnym za Bing, by udoskonalić wyszukiwarkę, wprowadzając do niej elementy konceptualizacji.
Jak wspomnieliśmy na początku, Microsoft Concept Graph działa na zasadzie maszynowego uczenia (machine learning), a więc z upływem czasu jego baza danych stale się powiększa. Zaindeksowane strony i zapytania do wyszukiwarek łączone są w sieci wzajemnych powiązań. Podajmy najprostszy przykład - jeśli na stronie znajduje się fragment "zwierzę, takie jak pies", algorytm powiąże słowo "zwierzę" ze słowem "pies". Algorytm dokonuje też analiz statystycznych, których zadaniem jest wyplenienie rzadkich (niepowtarzających się) i nieprawidłowych par koncepcji, które mogą wynikać choćby z semantycznych dwuznaczności lub innych zawiłości językowych.
Microsoft Concept Graph i Microsoft Concept Tagging Model posiadają już publicznie dostępny portal (w wersji Preview), który poprzez dostęp do wybranych API pozwala wypróbowac niektóre możliwości algorytmów, a także wypróbować podstawową wersję technologii do celów badawczych. Twórcy zapowiadają dalsze rozszerzenia technologii, m. in. wsparcie dla dłuższych tekstów i kolejnych języków.