Microsoft wyjaśnia, jak jego AI osiągnęła najwyższy w historii wynik w Pac-Manie

Microsoft wyjaśnia, jak jego AI osiągnęła najwyższy w historii wynik w Pac-Manie

Autor: Krzysztof Sulikowski

Opublikowano: 5/10/2018, 6:03 PM

Liczba odsłon: 1216

W ostatnich latach sztuczna inteligencja w starciu z grami wzniosła się na prawdziwe wyżyny. Swój udział miał w tym również Microsoft, którego AI dosłownie pokonała Pac-Mana, osiągając w tej grze najwyższy możliwy wynik, prawie czterokrotnie wyższy od rekordu ustanowionego przez człowieka. O tym osiągnięciu pisaliśmy sporo w zeszłym roku. Microsoft wyjawił teraz jednak więcej szczegółów.

Ms. Pac-Man AI

Przypomnijmy, że w rozpracowaniu Ms. Pac-Man pomogła firmie z Redmond technologia Maluuba, czyli deep learningowego startupu przejętego na początku ubiegłego roku. Za pomocą metody dziel i rządź agent AI jest w stanie wykonywać złożone zadania, daleko wykraczające ponad możliwości umysłu przeciętnego człowieka. Przy udziale sztucznej inteligencji system nauczył się perfekcyjnej gry w Pac-Mana w wersji na Atari 2600, osiągając maksymalny możliwy wynik wynoszący 999,990 punktów, podczas gdy rekord osiągnięty przez człowieka wynosi 266,330 punktów. Choć kulisy tego wyczynu zostały już w zeszłym roku częściowo odsłonięte, Microsoft postanowił rozwinąć temat na jednej z sesji technicznych konferencji Build 2018. Zapis całej prezentacji można obejrzeć na YouTube.

Metoda pracy, którą obrały agenty AI w starciu z silnikiem Ms. Pac-Man, nosi nazwę Reinforcement Learning. Oznacza to, że agenty zobligowane są do podejmowania tych akcji w środowisku, w którym się znajdują, które to akcje maksymalizują pojęcie o skumulowanej nagrodzie. Microsoft twierdzi, że AI korzystająca z Reinforcement Learning dzieli grę na 163 mniejszych obszarów, w których zadania, takie jak zbieranie kulek czy unikanie duchów, rozpatrywane są indywidualnie przez agenty. Każdy agent przedstawia swoje rekomendacje "starszemu menadżerowi", który podejmuje ostateczną decyzję o ruchu w grze. Nadzorca będzie przykładowo zawsze przedkładał unikanie duchów nad zbieranie punktowanych kulek.

Microsoft wyjaśnia, że wspomniana strategia agregacji rekomendacji niewielkiej skali, by osiągnąć cel w skali dużo większej, może być zaaplikowana w systemach przetwarzania języka naturalnego i przysłużyć się Cortanie.

Konferencja Microsoft & Onex Group: Nowoczesna sprzedaż z AI
Konferencja Microsoft & Onex Group: Nowoczesna sprzedaż z AI

Wydarzenia