„Flappy Bird“, vis dar vienintelis, „Pong“ dabar puikiai išmanantis algoritmas

$config[ads_kvadrat] not found

JavaScript Tutorial: Build Flappy Bird and Doodle Jump

JavaScript Tutorial: Build Flappy Bird and Doodle Jump
Anonim

Išsivysčiusios gilaus mokymosi metodo tobulinimas Pong, Puolikai iš kosmoso ir kiti „Atari“ žaidimai, Stanfordo universiteto kompiuterių mokslų studentas Kevinas Čenas sukūrė algoritmą, kuris yra gana geras klasikiniame „2014“ šoniniame slinktuve „Flappy Bird“. „Chen“ pasinaudojo „q-learning“ sąvoka, kurioje agentas siekia pagerinti savo atlygio balą su kiekvienu žaidimo iteracija, tobulinti beveik neįmanomą ir neįmanomai priklausomą žaidimą.

Chenas sukūrė sistemą, kurioje jo algoritmas buvo optimizuotas siekti trijų apdovanojimų: nedidelis teigiamas atlygis už kiekvieną rėmą, kurį jis išliko gyvas, didelis atlygis už pravažiavimą vamzdžiu ir vienodai didelis (bet neigiamas) atlygis už mirtį. Taigi, motyvuotas, vadinamasis giliai-q tinklas gali pralenkti žmones, kaip teigia Chen autorius: „Mes galėjome sėkmingai žaisti žaidimą „Flappy Bird“ mokydamiesi tiesiai iš taškų ir rezultato, pasiekdami superžmogiškus rezultatus. “

Originalus Atari popierius, paskelbtas 2015 m Gamta, atėjo iš „Google“ priklausančios įmonės „DeepMind“ (dabar garsėja senovės kinų stalo žaidimo „Go“ meistriškumu). „DeepMind“ pasiekimas buvo persilaužimas, nes jis turėjo bent vizualinę - arba pikselinę - informaciją, ir su minimaliu įėjimu sugebėjo padidinti naudą. Tokia atlygio sistema buvo prilyginta smegenų dopaminerginiam atsakui, tik supaprastintam.

Tai ne pirmas kartas, kai algoritmas užkariavo paukščių paukščius: ankstesnė klasė Stanfordo universiteto kompiuterių moksleiviams sukūrė programą, kuri, mokydama per naktį, pagerino rezultatą nuo 0 vamzdžių iki 1600.

$config[ads_kvadrat] not found