Kaip „DeepMind“ sukūrė mielai savarankiškai mokomą A.I. Tai gali pralenkti žmones

thingsTHINKING: Gesunder Menschenverstand. Für Computer.

Turinys:

Kaip mokyti A.I. Mokyti save
Kodėl Alpa Zero yra toks geras

Keletą dešimtmečių kompiuteriai šokinėja mūsų trapius žmogaus asilus. Pirmą kartą tai įvyko 1996 m., Kai „IBM Deep Blue“ sugebėjo nugalėti pasaulio čempioną Gary Kasperovą. Bet naujas tyrimas iš Alphabet A.I. apranga „DeepMind“ apšviečia tik ribotą ankstyvosios pergalės apimtį.

Viena vertus, Kasperovas sugrįžo atgal, laimėdamas tris žaidimus ir du kartus paspaudęs per šešis žaidimų atkrintamuosius Dienos naujienos ataskaitą.

Bet dar svarbiau, kaip sako DeepMind mokslininkas Julian Schrittwieser Inversinis „Deep Blue“ programos taip pat buvo programuojamos rankiniu būdu. Tai reiškia, kad žmonės turėjo mokyti A.I. viskas, ko reikia žinoti, kaip elgtis su kiekvienu įsivaizduojamu nenumatytu atveju. Kitaip tariant, ji galėjo būti tik tokia gera, kaip ir programuojantys žmonės. Ir nors „Deep Blue“ akivaizdžiai sugebėjo gauti gana gerą šachmatą; duokite jai kitą, panašų žaidimą, kaip „Go“, ir tai būtų buvę gaila.

„Alfa Zero“ yra visiškai kitoks. Naujajame žurnale šiandien paskelbtame tyrime Mokslas, autoriai atskleidžia, kaip jie galėjo ne tik mokyti „Alpha Zero“, kaip šaudyti žmones šachmatais, bet kaip mokyti „Alpha Zero“ kaip mokyti save valdyti kelis žaidimus.

Kaip mokyti A.I. Mokyti save

„Alpha Zero“ buvo sukurtas naudojant metodą, vadinamą giliu sutvirtinimu. Iš esmės tai apima A.I. kažkas labai paprasta, pvz., pagrindinės šachmatų taisyklės, ir tada dar kartą dar kartą dar kartą, kol jis sužino sudėtingesnius, įdomius dalykus, tokius kaip strategijos ir metodai.

„Tradiciškai… žmonės žino apie žaidimą ir bandys jį koduoti taisyklėmis“, - sako Schrittwieser, kuris „Alpha Zero“ dirba beveik ketverius metus. „Mūsų požiūris yra tai, kad mes inicijuojame atsitiktinai, o tada leiskite jai žaisti prieš save, ir iš tų žaidimų jis gali sužinoti, kokios strategijos veikia.“

Visi „Alpha Zero“ yra pagrindinės taisyklės, ir iš ten ji sužino, kaip laimėti žaidžiant save. Remiantis naujais duomenimis, „Alpha Zero“ šachmatams valdyti prireikė tik devynias valandas, 12 valandų - šogui valdyti, o apie 13 dienų - „Go“. Kadangi jis pats žaidžia, jis iš esmės yra savarankiškas. Jis pagamintas iš visų pasaulio čempionų žmogaus vadovaujamų algoritmų, užfiksuotas 2017 m. Pasaulio čempionu Shogi 91 proc. Laiko.

„Jis gali savarankiškai atrasti įdomių žinių apie žaidimą“, - sako Schrittwieser. „Tai veda prie programų, kurios žaidžia daugiau žmonių.“

Nors jo stilius yra žmogiškasis ir kūrybingas, jis taip pat greičiausiai yra optimalus, sako jis, kad „Alpha Zero“ turėtų galėti dominuoti beveik visuose žaidimuose, kuriuose ji turi prieigą prie visos turimos informacijos. Tiesą sakant, „Alpha Zero“ yra toks sudėtingas, kad galime stumti A.I. išsprendžia problemas.

Kodėl Alpa Zero yra toks geras

A.I. mokslininkai mėgsta naudoti šiuos žaidimus kaip bandymų pagrindus vis sudėtingesnėms algoritmų formoms dėl kelių priežasčių. Jie yra elegantiški, ir žmonės juos groja šimtus metų, o tai reiškia, kad turite daug galimų iššūkių, kad galėtumėte išbandyti savo algoritmą. Tačiau jie taip pat yra sudėtingi ir sudėtingi, o tai reiškia, kad jie gali tapti A.I. tai gali išspręsti realaus pasaulio problemas. Schrittwieser sako, kad kitoje tyrimų srityje sukuriamas toks algoritmas kaip „Alpha Zero“, kuris vis dar gali priimti optimalius sprendimus su netobula informacija.

„Visuose šiuose žaidimuose jūs žinote viską, kas vyksta“, - sako jis. „Tikrame pasaulyje jūs tik žinote dalį informacijos. Galite žinoti savo korteles, bet jūs nežinote savo priešininko, turite dalinę informaciją. “

Vis dar yra keletas stalo žaidimų, galinčių suteikti tokius iššūkius kaip „Alpha Zero“. Schrittwieser paminėjo strategiją „Stratego“, kuriame žaidėjai slepia savo judesius vienas nuo kito - ir „Starcraft“, kuri yra dar viena domina DeepMind žaidėjams.

„Mes norime padaryti problemas, su kuriomis susiduriame vis sudėtingiau“, - sako jis. „Bet tai visada yra vienas aspektas.“

Tuo pačiu metu „Deep Mind“ naujos kartos kompiuterizuotų problemų sprendimo būdai jau rodo potencialą pereiti nuo lošimo pasaulio į tikrąjį pasaulį. Anksčiau šią savaitę ji paskelbė dar vieną algoritmą, vadinamą „AlphaFold“, kuris gali ekstrapoliuoti baltymų seką į tikslią jo 3D struktūros prognozę.Tai problema, kurią sukėlė mokslininkai dešimtmečius ir gali padėti atverti duris gydyti nuo Alzheimerio ligos iki cistinės fibrozės.

Karnani turi gerą dalyką - geriausias būdas, kaip sustabdyti įmonių teršimą, yra ne atkreipti dėmesį į tai, kad tai galėtų padaryti didesnį pelną. Tai leidžia priimti įstatymus, kurie draudžia taršą ir sukelia padarinius pažeidėjams. Tačiau ši kritika taip pat gali praleisti tausaus investavimo tašką - tai reiškia, kad nors mes galime balsuoti tik kartą per metus, kiekvieną dieną kiekvieną sekundę galime pasinaudoti savo investuotojais ir vartotojais.

Investuokite į socialiai atsakingus fondus

Tačiau, kita vertus, baimė būti išrinkta kaip ne rinkėjas gali būti vienas iš efektyviausių būdų, kaip paskatinti žmones pasirodyti. Tai pagal 2008 [studiją] http://isps.yale.edu/sites/default/files/publication/2012/12/ISPS08-001.pdf), kurį parašė Yale ir Šiaurės Iowos universiteto mokslininkai. palygino siuntėjų, skatinančių balsavimą kaip geros pilietybės aktą, veiksmingumą su siuntėjais, kurie įspėjo rinkėjus, kad jie buvo tiriami. Pašto siuntėjai, pažadėję skelbti namų ūkių balsavimo įrašus

Ir net karštai ginčytinose rinkimų dienose, užpildytose lenktynių varžybose, daugybė norinčių rinkėjų vis dar jaučiasi, kaip jie žiūri istoriją atsiskleidžiant nuo nuošalės. „BallotPedia“ nuomone, konkurencinga tik 80 ar daugiau išeitinių rytojaus 435 kongresų. Tai daug žmonių, norinčių dalyvauti, kurie nebūtinai turi konkurencinę lenktynes, dėl kurių jie gali balsuoti.

Savarankiškai sutepantys prezervatyvai: kaip slidžios gumos gali sustabdyti Amerikos STS

Antradienį „Royal Society Open Science“ paskelbtame tyrime Bostono universiteto mokslinių tyrimų komanda paskelbė savarankiško prezervatyvo sukūrimą. Nors dauguma prezervatyvų yra su silikoniniu tepalu, šis naujai sukurtas prezervatyvas padengtas polimerais.

$config[ads_kvadrat] not found