Kaip Multi-Armed Bandit nustato, kokius skelbimus ir istorijas matote internete

$config[ads_kvadrat] not found

CS885 Lecture 8a: Multi-armed bandits

CS885 Lecture 8a: Multi-armed bandits
Anonim

Įsivaizduokite, kad esate žaidėjas ir esate priešais kelis lošimo automatus. Jūsų tikslas yra maksimaliai padidinti savo laimėjimus, bet jūs iš tiesų nieko nežinote apie galimą kiekvienos mašinos teikiamą naudą. Vis dėlto jūs suprantate, kad svirtys, kurias jūs traukiate, ir dažnumas, su kuriuo jūs tai padarysite, turės įtakos jūsų lošimo binge rezultatams.

Šis scenarijus, su kuriuo susiduria kasdien lankytojai Las Vegase ir Atlanto mieste (bet kokiu mastu žmonės vis dar vyksta į Atlantic City), taip pat yra klasikinis loginis dėlionė, vadinama „Multi-Armed Bandit“ - žaidimų automatai vadinami „One-Armed „Banditai“, kuriuos sukelia senėjantys Reno tipai, nes jie turi vieną svirtį ir pasiima žmonių pinigus. Nors nėra vieno teisingo būdo, kaip spręsti daugiabriaunių banditų situacijas - artimiausias kandidatas yra „Gittins“ indeksas - yra strateginių metodų, kaip spręsti šias problemas, kurių matote be registracijos kiekvieną dieną, kai einate internetu. Daugelis algoritmų, reguliuojančių turinio pasiskirstymą per „Google“ ir svetaines, yra pastatytos pagal MAB strategijas. Beveik visais atvejais tikslas yra susieti mokymąsi ir rezultatus bei padidinti abiejų galimybių potencialą.

Naudoja daugiabriaunį banditą „Washington Post“ išsiaiškinti, kokias nuotraukas ir antraštes greičiausiai spustelėsite, ir belaidžiais tinklais, kad išsiaiškintumėte, kurie optimalūs energijos taupymo maršrutai yra geriausi. Algoritmai, kurie išauga iš MBA metodų, yra labai svarbūs šioms įmonėms ir daugeliui kitų, nes jie iš esmės nustato, kada ir kokie skelbimai rodomi internete.

Išsiaiškinti, kokie skelbimai rodomi žmonėms, yra sudėtinga problema, nes yra tiek daug ginkluotų banditų, besisukančių spustelėję internete esančius daiktus.MAB reklamos algoritmai paprastai naudoja sparčiai besikeičiančią „mirtingąją daugiabriaunę bandito problemą“, kuri taikoma per ribotą laiką. Eismo duomenys naudojami kuriant vis veiksmingesnes metodikas.

Sunku tiksliai susieti MAB, nes galima sukurti tiek daug formulės variantų. Pavyzdžiui, K-ginkluoti banditai turi „ginklus“, kurie konkuruoja, kad gautų didžiausią numatomą atlygį. Kontekstualizuoti banditus darai tą patį, tačiau „ekspertų patarimai“ - anksčiau naudotojui surinkti duomenys - ir žiniatinklyje paruoštas pavadinimas „ILOVETOCONBANDITS“ veikia tik pagal iš anksto nustatytų turų tvarkaraštį. Priešingai, klasikinis MAB metodas neturi jokios pusės informacijos ir rezultatas priklauso tik nuo pasirinkto veiksmo potencialo.

Nors iki šiol naudingiausia MAB paraiška yra susijusi su internetu, mokslininkai siekia rasti būdą, kaip juos taikyti „realiame gyvenime“ (dar vadinamuose „meatspace“) scenarijuose. 2015 m. Dokumente Britanijos Kolumbijos universiteto mokslininkai svarsto, kad medicinos bandymai taikomi medicininiams tyrimams. Tikslas, jei MAB gali būti čia, yra tai, kad MAB algoritmas galėtų išmatuoti konkretaus vaisto poveikį. Akivaizdi problema yra ta, kad, jei nebus sukurta kompiuterinė modulio versija, tai taikant šį metodą tiesiog būtų per daug laiko. Nėra jokio būdo, kad MAB dizainas galėtų būti klinikiniame tyrime.

Idėja yra graži, bet dabar neįmanoma. Iki tol, kol bus ateitis, dažniausiai pajusite grėsmingą daugiabriaunio bandito buvimą, kai desperatiškai bandote spustelėti iš pop-up skelbimų.

$config[ads_kvadrat] not found