Kaip „DeepMind“ sukūrė mielai savarankiškai mokomą A.I. Tai gali pralenkti žmones

$config[ads_kvadrat] not found

thingsTHINKING: Gesunder Menschenverstand. Für Computer.

thingsTHINKING: Gesunder Menschenverstand. Für Computer.

Turinys:

Anonim

Keletą dešimtmečių kompiuteriai šokinėja mūsų trapius žmogaus asilus. Pirmą kartą tai įvyko 1996 m., Kai „IBM Deep Blue“ sugebėjo nugalėti pasaulio čempioną Gary Kasperovą. Bet naujas tyrimas iš Alphabet A.I. apranga „DeepMind“ apšviečia tik ribotą ankstyvosios pergalės apimtį.

Viena vertus, Kasperovas sugrįžo atgal, laimėdamas tris žaidimus ir du kartus paspaudęs per šešis žaidimų atkrintamuosius Dienos naujienos ataskaitą.

Bet dar svarbiau, kaip sako DeepMind mokslininkas Julian Schrittwieser Inversinis „Deep Blue“ programos taip pat buvo programuojamos rankiniu būdu. Tai reiškia, kad žmonės turėjo mokyti A.I. viskas, ko reikia žinoti, kaip elgtis su kiekvienu įsivaizduojamu nenumatytu atveju. Kitaip tariant, ji galėjo būti tik tokia gera, kaip ir programuojantys žmonės. Ir nors „Deep Blue“ akivaizdžiai sugebėjo gauti gana gerą šachmatą; duokite jai kitą, panašų žaidimą, kaip „Go“, ir tai būtų buvę gaila.

„Alfa Zero“ yra visiškai kitoks. Naujajame žurnale šiandien paskelbtame tyrime Mokslas, autoriai atskleidžia, kaip jie galėjo ne tik mokyti „Alpha Zero“, kaip šaudyti žmones šachmatais, bet kaip mokyti „Alpha Zero“ kaip mokyti save valdyti kelis žaidimus.

Kaip mokyti A.I. Mokyti save

„Alpha Zero“ buvo sukurtas naudojant metodą, vadinamą giliu sutvirtinimu. Iš esmės tai apima A.I. kažkas labai paprasta, pvz., pagrindinės šachmatų taisyklės, ir tada dar kartą dar kartą dar kartą, kol jis sužino sudėtingesnius, įdomius dalykus, tokius kaip strategijos ir metodai.

„Tradiciškai… žmonės žino apie žaidimą ir bandys jį koduoti taisyklėmis“, - sako Schrittwieser, kuris „Alpha Zero“ dirba beveik ketverius metus. „Mūsų požiūris yra tai, kad mes inicijuojame atsitiktinai, o tada leiskite jai žaisti prieš save, ir iš tų žaidimų jis gali sužinoti, kokios strategijos veikia.“

Visi „Alpha Zero“ yra pagrindinės taisyklės, ir iš ten ji sužino, kaip laimėti žaidžiant save. Remiantis naujais duomenimis, „Alpha Zero“ šachmatams valdyti prireikė tik devynias valandas, 12 valandų - šogui valdyti, o apie 13 dienų - „Go“. Kadangi jis pats žaidžia, jis iš esmės yra savarankiškas. Jis pagamintas iš visų pasaulio čempionų žmogaus vadovaujamų algoritmų, užfiksuotas 2017 m. Pasaulio čempionu Shogi 91 proc. Laiko.

„Jis gali savarankiškai atrasti įdomių žinių apie žaidimą“, - sako Schrittwieser. „Tai veda prie programų, kurios žaidžia daugiau žmonių.“

Nors jo stilius yra žmogiškasis ir kūrybingas, jis taip pat greičiausiai yra optimalus, sako jis, kad „Alpha Zero“ turėtų galėti dominuoti beveik visuose žaidimuose, kuriuose ji turi prieigą prie visos turimos informacijos. Tiesą sakant, „Alpha Zero“ yra toks sudėtingas, kad galime stumti A.I. išsprendžia problemas.

Kodėl Alpa Zero yra toks geras

A.I. mokslininkai mėgsta naudoti šiuos žaidimus kaip bandymų pagrindus vis sudėtingesnėms algoritmų formoms dėl kelių priežasčių. Jie yra elegantiški, ir žmonės juos groja šimtus metų, o tai reiškia, kad turite daug galimų iššūkių, kad galėtumėte išbandyti savo algoritmą. Tačiau jie taip pat yra sudėtingi ir sudėtingi, o tai reiškia, kad jie gali tapti A.I. tai gali išspręsti realaus pasaulio problemas. Schrittwieser sako, kad kitoje tyrimų srityje sukuriamas toks algoritmas kaip „Alpha Zero“, kuris vis dar gali priimti optimalius sprendimus su netobula informacija.

„Visuose šiuose žaidimuose jūs žinote viską, kas vyksta“, - sako jis. „Tikrame pasaulyje jūs tik žinote dalį informacijos. Galite žinoti savo korteles, bet jūs nežinote savo priešininko, turite dalinę informaciją. “

Vis dar yra keletas stalo žaidimų, galinčių suteikti tokius iššūkius kaip „Alpha Zero“. Schrittwieser paminėjo strategiją „Stratego“, kuriame žaidėjai slepia savo judesius vienas nuo kito - ir „Starcraft“, kuri yra dar viena domina DeepMind žaidėjams.

„Mes norime padaryti problemas, su kuriomis susiduriame vis sudėtingiau“, - sako jis. „Bet tai visada yra vienas aspektas.“

Tuo pačiu metu „Deep Mind“ naujos kartos kompiuterizuotų problemų sprendimo būdai jau rodo potencialą pereiti nuo lošimo pasaulio į tikrąjį pasaulį. Anksčiau šią savaitę ji paskelbė dar vieną algoritmą, vadinamą „AlphaFold“, kuris gali ekstrapoliuoti baltymų seką į tikslią jo 3D struktūros prognozę.Tai problema, kurią sukėlė mokslininkai dešimtmečius ir gali padėti atverti duris gydyti nuo Alzheimerio ligos iki cistinės fibrozės.

$config[ads_kvadrat] not found