Hlavná Streamovacie Služby AI sa učí podvádzať na Q * bert spôsobom, aký ešte nikto neurobil

AI sa učí podvádzať na Q * bert spôsobom, aký ešte nikto neurobil



AI dokázala podvádzať to najlepšie, čo ľudstvo ponúka, potom čo objavilo exploit v klasickej arkádovej hre Q * bert a bežalo s ním.

Zatiaľ čo predchádzajúce iterácie AI by mohli hru Q * bert správne hrať, v určitom okamihu svojho učenia sa o tom, ako hra funguje, objaví zneužitie, ktoré jej umožní zhromaždiť šialené body. Prirodzene, ako by to robil každý hráč na skóre, opakuje postup, aby mohol zvýšiť svoje skóre najefektívnejším možným spôsobom.

Vo videu nižšie môžete vidieť AI, ktorá si postupuje po platformách. Spočiatku to vyzerá, akoby to bezcieľne skákalo medzi platformami. Namiesto toho, aby sledoval postup hry do ďalšieho kola, Q * bert uviazol v slučke, kde začali blikať všetky jej platformy - tu môže AI potom pokračovať v skóre a zbierať obrovské body.

PREČÍTAJTE SI ĎALŠIE: Jedna z najkontroverznejších herných nahrávok bola konečne zdiskreditovaná

prečo sa môj macbook nezapol

Ako AI vyhrala Q * bert vojnu

Prekonala historický rekord titulu a získala vďaka programovaniu algoritmu evolučnej stratégie neuveriteľne vysoké skóre. Evolučné stratégie (ES) sa líšia od zvyčajného posilňovacieho učenia (RL), ktoré tradičná AI používa, pretože sa vďaka generačnému učeniu považuje za škálovateľnejšie.

Každá vzdelávacia slučka sa označuje ako generácia a pokračuje vo svojej úlohe, kým nie je splnená stanovená podmienka (v tomto prípade vysoké skóre). S každou nasledujúcou generáciou absorbuje AI vedomosti z predchádzajúcej generácie, a preto lepšie dosahuje rovnaký cieľ a prekonáva ho. Pokračujte a nakoniec dostanete AI, ktorá je vo svojej úlohe absolútne bezkonkurenčná. Presne to sa tu stalo so skóre Q * bert.

Načrtnuté v papier , ktorú minulý týždeň publikovali vedci z univerzity vo Freiburgu v Nemecku, sa zdá, že chyba nebola známe množstvo. V skutočnosti, aj keď nie sú príliš prekvapení pri hľadaní chyby, je zaujímavé sledovať, ako AI potom pokračovala a naučila sa ju využívať zakaždým, keď hrala, aby maximalizovala svoj bodovací potenciál.

PREČÍTAJTE SI ĎALŠIE: Táto umelá inteligencia sa učila zvládnuť Super Mario Bros

Na nájdenie chyby sa agent musel najskôr naučiť takmer dokončiť prvú úroveň - neuskutočnilo sa to naraz, ale pomocou mnohých malých vylepšení, vysvetlili vedci Register . Máme podozrenie, že v určitom okamihu tréningu narazilo jedno z riešení pre potomkov na chybu a získalo oveľa lepšie skóre v porovnaní so svojimi súrodencami, čo zase zvýšilo jeho príspevok k aktualizácii - jeho váha bola najvyššia vo váženom priemere. To pomaly presunulo riešenie do priestoru, kde sa čoraz viac potomkov začalo stretávať s rovnakou chybou.

Nepoznáme presné podmienky, za ktorých sa chyba objavuje; je možné, že sa objaví, iba ak sa agent riadi vzorom, ktorý sa javí ako neoptimálny [napríklad keď agent stráca čas alebo dokonca prichádza o život]. Ak by to tak bolo, potom by bolo pre štandardné RL veľmi ťažké chybu nájsť: ak používate prírastkové odmeny, naučíte sa skôr stratégie, ktoré rýchlo prinesú nejakú odmenu, ako sa učiť stratégie, ktoré vám na chvíľu neprinesú veľa odmien a potom zrazu vyhrajte vo veľkom.

Pozri súvisiace Šampión dragsterov Todd Rogers po 35 rokoch práve prišiel o korunu Táto umelá inteligencia sa 17 dní učí ovládať Super Mario Bros 1-2 Sledujte, ako sa táto AI učí jazdiť v GTA V na Twitchi

Napriek skvelým výsledkom robota však vedci nehovoria, že je to prípad, keď chceme presadiť, aby sa ES učilo cez RL. V skutočnosti majú oba systémy svoje vlastné problémy a ich kombinácia sa zväčša považuje za najlepšiu alternatívu vpred.

Rovnaká metóda ES v iných hrách Atari nepriniesla ani zďaleka rovnaké pozitívne výsledky. Na druhej strane je RL zodpovedná za rozbíjanie rekordov vľavo, vpravo a v strede, vrátane porazenia najlepšieho hráča GO na svete. ES má stále svoje vlastné miesto vo veciach a Nvidia v skutočnosti vykonáva veľa školení v oblasti umelej inteligencie, pretože vyžaduje viac výpočtového výkonu, ale dosahuje lepšie výsledky za dlhšie časové obdobie.

Bez ohľadu na to, akým spôsobom sa stane budúcnosť vývoja AI, prinajmenšom tento robot podvádzajúci systém nie je taký zlý ako tento teraz zneuctený majster sveta videohier .

Zaujímavé Články

Redakcia Choice

Ako to opraviť, keď je vaša PS4 Wi-Fi pomalá
Ako to opraviť, keď je vaša PS4 Wi-Fi pomalá
Hranie hier online s PS4 vyžaduje pevné pripojenie a ak sa stretávate s oneskorením ovládača PS4, musíte vedieť, ako to opraviť, keď je vaša PS4 Wi-Fi pomalá.
Ako opraviť, že Instagram neposiela bezpečnostný kód
Ako opraviť, že Instagram neposiela bezpečnostný kód
S nárastom hackerských útokov a kyberzločincov je skvelé, že aplikácie ako Instagram používajú nástroje na overenie vašej identity pred povolením prístupu k vášmu účtu. Jedným zo spôsobov overenia je odoslanie bezpečnostného kódu SMS. Ak sa snažíte
Ako odstrániť firmu z Yelpu
Ako odstrániť firmu z Yelpu
Existuje veľa dôvodov, prečo vlastník firmy nemusí chcieť, aby bola jeho firma uvedená na portáli Yelp. Niekedy môžu internetoví trollovia zničiť ťažko získané hodnotenia v priebehu niekoľkých dní. Na druhej strane, neustále zlá služba bude nevyhnutne
Ako zrkadliť telefón, Mac alebo PC na Fire TV Stick
Ako zrkadliť telefón, Mac alebo PC na Fire TV Stick
V dnešnej dobe je prenášanie alebo zrkadlenie rôznych zariadení na inteligentnú televíziu pomerne bežné. Zvýšený počet výrobcov však predstavuje problémy s kompatibilitou, ktoré sa zvyknú objavovať. Príkladom toho môže byť Amazon’s Firestick, ktorý
Sledujte udalosť systému Microsoft Windows 10 priamo tu
Sledujte udalosť systému Microsoft Windows 10 priamo tu
Spoločnosť Microsoft o niekoľko hodín koná októbrovú udalosť Windows 10, na ktorej sa očakáva, že spoločnosť predstaví nové hardvérové ​​produkty a bude hovoriť o ďalšom vydaní systému Windows 10 (s kódovým označením Redstone 2, ktorého vydanie sa plánuje na budúcu jar). O tom, čo môžete od tejto udalosti očakávať, sa šuškalo
Ako nájsť stratené zariadenie Bluetooth
Ako nájsť stratené zariadenie Bluetooth
Ak ste stratili zariadenie Bluetooth, ako napríklad Fitbit, AirPods alebo iné bezdrôtové zariadenie, môžete ho nájsť pomocou smartfónu. Stačí zapnúť Bluetooth.
Ako používať GPT-3 – rýchly sprievodca
Ako používať GPT-3 – rýchly sprievodca
Ak meškáte so šialenstvom AI chatbotov, tento článok vám pomôže rýchlo. Dozviete sa, ako sa vyhnúť bežným chybám, „skrytým“ obmedzeniam používania, a čo je najdôležitejšie, ako efektívne podnecovať softvér, aby