Inteligentny bot Microsoftu narysuje to, co mu opiszemy

Inteligentny bot Microsoftu narysuje to, co mu opiszemy

Autor: Krzysztof Sulikowski

Opublikowano: 1/19/2018, 2:31 AM

Liczba odsłon: 6882

Jeśli dostaniesz notatkę z prośbą o narysowanie żółtego ptaka z czarnymi skrzydłami i krótkim dziobem, prawdopodobnie zaczniesz od rysowania konturów, a potem znów spojrzysz na notatkę i sięgniesz po żółty długopis, aby wypełnić je kolorem, dodasz więcej szczegółów itd. Tworzenie rysunków na podstawie opisu to już jednak nie tylko domena ludzka (ani Zaczarowanego ołówka). To samo potrafi nowy bot rysujący Microsoftu.

Rysujący bot AI

Rozwijana przez Microsoft technologia oparta na sztucznej inteligencji została zaprogramowana, by zwracać szczególną uwagę na pojedyncze słowa w opisie, na podstawie których generuje obrazy. Ta celowa koncentracja na szczegółach spowodowała prawie trzykrotny wzrost jakości obrazu w porównaniu do poprzednio stosowanej techniki zamiany tekstu na obraz. Tak przynajmniej twierdzą wyniki standardowego testu branżowego, o których mowa w artykule naukowym na stronie arXiv.org. Technologię tę badacze nazywają po prostu botem rysującym (drawing bot). Potrafi ona tworzyć niemal dowolne obrazy, poczynając od typowych scenek rodzajowych, kończąc na tworach absurdalnych, takich jak pływający autobus piętrowy. Każdy obraz zawiera ponadto szczegóły, o których nie mówią opisy tekstowe, co wskazuje, że sztuczna inteligencja idzie też w parze ze sztuczną wyobraźnią.

Obrazy generowane przez bota są tworzone od zera, piksel po pikselu. Gdy maluje on przykładowo ptaki, "ptaki te mogą nie istnieć w realnym świecie - są tylko wyobrażeniem naszego komputera na temat ptaków" - mówi Xiaodong He z Deep Learning Technology Center w Microsoft. Bot korzysta z osiągnięć w dwóch dziedzinach związanych z AI - computer vision (rozpoznawania obrazów) i natural language processing (przetwarzania języka naturalnego), które Xiaodong He rozwijał wraz z kolegami z Microsoft przez ostatnie pół dekady. Generowanie obrazów na podstawie tekstu to jednak zadanie trudniejsze od rozpoznawania obrazów i tworzenia dla nich opisów. Proces ten wymaga od bota dopowiedzenia sobie szczegółów, które nie są zawarte w podpisie. Co odpowiada za ową sztuczną wyobraźnię? Technologia znana pod nazwą Generative Adversarial Network (GAN). Jest to sieć składająca się z dwóch modeli machine learningowych - generatora i dyskryminatora. Pierwszy generuje obrazy w oparciu o opisy tekstowe, a drugi używa opisów do oceny autentyczności wygenerowanych obrazów. Prowadzą one swoistą grę. Generator próbuje przeforsować fałszywe zdjęcia, podczas gdy dyskryminator nie daje się oszukać. Dzięki temu generator stale się uczy i dąży do perfekcji.

GAN najlepiej radzi sobie z prostymi opisami, podczas gdy opisy scen surrealistycznych, dla których bot nie odnajduje istniejących odniesień, mogą doprowadzić do nieoczekiwanych rezultatów. Przykładowo wspomniany "czerwony, piętrowy autobus unoszący się nad jeziorem" posłużył botowi do wygenerowania rozmazanego, mętnego obrazu przypominającego zarówno łódź z dwoma pokładami, jak i piętrowy autobus na jeziorze otoczonym górami. Sugeruje to, że bot doświadczył dysonansu poznawczego - z jednej strony wiedząc, że po akwenach pływają statki, a z drugiej znając cechy charakterystyczne autobusu. Wygląda więc na to, że im wyższy poziom abstrakcji, tym bot staje się bardziej zdezorientowany, próbując połączyć zdrowy rozsądek z wiernym odwzorowaniem szalonych nieraz wizji.

Na razie technologia generowania obrazu na podstawie tekstu jest niedoskonała (choć niebywale ciekawa) i wymaga dalszych ulepszeń. W nieco bardziej odległej przyszłości będzie jednak mogła znaleźć praktyczne zastosowania, np. jako rodzaj asystenta tworzącego szkice dla malarzy, grafików czy projektantów wnętrz. W bardziej przyziemnych scenariuszach może posłużyć do kreatywnego "ulepszania" zdjęć, np. jako sterowana głosem aplikacja na smartfony. Gdy technologia zostanie podparta większą mocą obliczeniową, będzie mogła już nie tylko tworzyć statyczne obrazy, ale i filmy animowane oparte na podanych scenariuszach.

Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży
Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży

Wydarzenia