Menace

MENACE je fyzický model strojového učení, který se učí hrát piškvorky pomocí krabiček od sirek a barevných korálků. Každá krabička představuje jednu herní pozici a losovaný korálek určí další tah. Za výhry Menace získává korálky, za prohry je ztrácí – a díky tomu se postupně stává lepším hráčem. Jednoduchá a hravá ukázka principů umělé inteligence bez počítače.

MENACE – strojové učení z krabiček od sirek
(Moderní rekonstrukce experimentu Donalda Michieho)

MENACE (Matchbox Educable Noughts And Crosses Engine) je fyzický model strojového učení, který se učí hrát piškvorky metodou posilovaného učení (reinforcement learning). Projekt původně vytvořil Donald Michie v roce 1961 jako experiment s trial-and-error učením u strojů. Tato verze je ručně vytvořená moderní rekonstrukce původního modelu.

1. Každá krabička představuje jednu herní situaci
Celý model je tvořen stovkami krabiček od sirek. Každá krabička reprezentuje jednu konkrétní pozici v průběhu hry piškvorky. Na její přední straně je nakreslen hrací plán odpovídající dané situaci. Stejně jako v původním experimentu jsou některé pozice považovány za totožné – například
ty, které vzniknou otočením nebo zrcadlením. Tím se celkový počet stavů zmenšuje a zjednodušuje se učení.

2. Barevné korálky představují možné tahy
Uvnitř každé krabičky jsou barevné korálky. Každá barva odpovídá jednomu poli, na které může MENACE v dané situaci zahrát. Tento princip odpovídá původnímu systému barev použitému Michiem (viz Tabulka 1 v článku).
Když je MENACE na tahu:
-hráč vyhledá krabičku odpovídající aktuální herní pozici,
-zatřepe jí,
-náhodně vylosuje jeden korálek,
-a podle jeho barvy MENACE zahraje tah.
Tím vzniká jednoduché rozhodování založené na pravděpodobnostech, které se mění podle učení.

3. Učení pomocí odměn a trestů
Po skončení hry se aktualizují korálky v krabičkách, které byly během hry použity.
Pokud MENACE prohraje: Z každé použité krabičky se odebere jeden korálek stejné barvy, jaký byl v dané situaci vylosován. MENACE má v budoucnu menší šanci zopakovat chybný tah.
Pokud MENACE vyhraje: Do každé použité krabičky se naopak přidají korálky stejné barvy. Tím pádem pravděpodobnost opakování úspěšného tahu roste.

4. Proč je MENACE důležitý
MENACE je názornou ukázkou toho, jak funguje posilované učení:
-systém se učí z odměn a chyb,
-každý tah ovlivňuje budoucí chování,
-strategie vzniká postupně na základě zkušeností,
-není potřeba žádný software – jen fyzické krabičky.
Je to hmatatelný a intuitivní model, díky kterému je možné vysvětlit principy moderní umělé inteligence i lidem, kteří neprogramují.

Oskar Valouch

oskarvalouch@gmail.com