AI dokázala podvádzať to najlepšie, čo ľudstvo ponúka, potom čo objavilo exploit v klasickej arkádovej hre Q * bert a bežalo s ním.
Zatiaľ čo predchádzajúce iterácie AI by mohli hru Q * bert správne hrať, v určitom okamihu svojho učenia sa o tom, ako hra funguje, objaví zneužitie, ktoré jej umožní zhromaždiť šialené body. Prirodzene, ako by to robil každý hráč na skóre, opakuje postup, aby mohol zvýšiť svoje skóre najefektívnejším možným spôsobom.
Vo videu nižšie môžete vidieť AI, ktorá si postupuje po platformách. Spočiatku to vyzerá, akoby to bezcieľne skákalo medzi platformami. Namiesto toho, aby sledoval postup hry do ďalšieho kola, Q * bert uviazol v slučke, kde začali blikať všetky jej platformy - tu môže AI potom pokračovať v skóre a zbierať obrovské body.
PREČÍTAJTE SI ĎALŠIE: Jedna z najkontroverznejších herných nahrávok bola konečne zdiskreditovaná
prečo sa môj macbook nezapol
Ako AI vyhrala Q * bert vojnu
Prekonala historický rekord titulu a získala vďaka programovaniu algoritmu evolučnej stratégie neuveriteľne vysoké skóre. Evolučné stratégie (ES) sa líšia od zvyčajného posilňovacieho učenia (RL), ktoré tradičná AI používa, pretože sa vďaka generačnému učeniu považuje za škálovateľnejšie.
Každá vzdelávacia slučka sa označuje ako generácia a pokračuje vo svojej úlohe, kým nie je splnená stanovená podmienka (v tomto prípade vysoké skóre). S každou nasledujúcou generáciou absorbuje AI vedomosti z predchádzajúcej generácie, a preto lepšie dosahuje rovnaký cieľ a prekonáva ho. Pokračujte a nakoniec dostanete AI, ktorá je vo svojej úlohe absolútne bezkonkurenčná. Presne to sa tu stalo so skóre Q * bert.
Načrtnuté v papier , ktorú minulý týždeň publikovali vedci z univerzity vo Freiburgu v Nemecku, sa zdá, že chyba nebola známe množstvo. V skutočnosti, aj keď nie sú príliš prekvapení pri hľadaní chyby, je zaujímavé sledovať, ako AI potom pokračovala a naučila sa ju využívať zakaždým, keď hrala, aby maximalizovala svoj bodovací potenciál.
PREČÍTAJTE SI ĎALŠIE: Táto umelá inteligencia sa učila zvládnuť Super Mario Bros
Na nájdenie chyby sa agent musel najskôr naučiť takmer dokončiť prvú úroveň - neuskutočnilo sa to naraz, ale pomocou mnohých malých vylepšení, vysvetlili vedci Register . Máme podozrenie, že v určitom okamihu tréningu narazilo jedno z riešení pre potomkov na chybu a získalo oveľa lepšie skóre v porovnaní so svojimi súrodencami, čo zase zvýšilo jeho príspevok k aktualizácii - jeho váha bola najvyššia vo váženom priemere. To pomaly presunulo riešenie do priestoru, kde sa čoraz viac potomkov začalo stretávať s rovnakou chybou.
Nepoznáme presné podmienky, za ktorých sa chyba objavuje; je možné, že sa objaví, iba ak sa agent riadi vzorom, ktorý sa javí ako neoptimálny [napríklad keď agent stráca čas alebo dokonca prichádza o život]. Ak by to tak bolo, potom by bolo pre štandardné RL veľmi ťažké chybu nájsť: ak používate prírastkové odmeny, naučíte sa skôr stratégie, ktoré rýchlo prinesú nejakú odmenu, ako sa učiť stratégie, ktoré vám na chvíľu neprinesú veľa odmien a potom zrazu vyhrajte vo veľkom.
Pozri súvisiace Šampión dragsterov Todd Rogers po 35 rokoch práve prišiel o korunu Táto umelá inteligencia sa 17 dní učí ovládať Super Mario Bros 1-2 Sledujte, ako sa táto AI učí jazdiť v GTA V na Twitchi
Napriek skvelým výsledkom robota však vedci nehovoria, že je to prípad, keď chceme presadiť, aby sa ES učilo cez RL. V skutočnosti majú oba systémy svoje vlastné problémy a ich kombinácia sa zväčša považuje za najlepšiu alternatívu vpred.
Rovnaká metóda ES v iných hrách Atari nepriniesla ani zďaleka rovnaké pozitívne výsledky. Na druhej strane je RL zodpovedná za rozbíjanie rekordov vľavo, vpravo a v strede, vrátane porazenia najlepšieho hráča GO na svete. ES má stále svoje vlastné miesto vo veciach a Nvidia v skutočnosti vykonáva veľa školení v oblasti umelej inteligencie, pretože vyžaduje viac výpočtového výkonu, ale dosahuje lepšie výsledky za dlhšie časové obdobie.
Bez ohľadu na to, akým spôsobom sa stane budúcnosť vývoja AI, prinajmenšom tento robot podvádzajúci systém nie je taký zlý ako tento teraz zneuctený majster sveta videohier .