CS885 Lecture 8a: Multi-armed bandits
Tenk deg at du er en gambler, og du står foran flere spilleautomater. Målet ditt er å maksimere gevinstene dine, men du vet faktisk ikke noe om de potensielle fordelene som tilbys av hver maskin. Du skjønner imidlertid at spakene du trekker, og hvor ofte du gjør det, vil påvirke resultatene av ditt spillspill.
Dette scenariet står overfor hver dag av besøkende til Las Vegas og Atlantic City (i hvilken grad folk fortsatt går til Atlantic City) også et klassisk logisk puslespill som heter "Multi-Armed Bandit" - spilleautomater kalles "One-Armed Banditter "ved å aldre Reno-typer fordi de har en spak og tar folks penger. Selv om det ikke finnes noen riktig måte å behandle Multi-Armed Bandit-situasjoner - nærmeste kandidat er Gittins Index - Det er strategiske tilnærminger for å løse disse problemene som du ser uten å registrere hver dag når du går online. Mange algoritmer som styrer måten innholdet oppdages via Google, og på nettsteder er bygd rundt MAB-strategier. Målet i nesten alle tilfeller er å knytte læring og resultater og maksimere potensialet for begge.
En multi-væpnet bandit tilnærming brukes av The Washington Post å finne ut hvilke bilder og overskrifter du mest sannsynlig vil klikke, og av trådløse nettverk for å finne ut hvilke optimale, energibesparende ruter som er de beste. Algoritmene som vokser ut av MBA-tilnærminger er enormt viktige for disse selskapene og mange andre fordi de i utgangspunktet bestemmer når og hvilke annonser som vises online.
Å finne ut hvilke annonser som viser folk er et utfordrende problem fordi det er så mange enarmede banditter som kjører rundt å klikke på ting på nettet. MAB-algoritmer for annonser bruker vanligvis et raskt skiftende "dødelig multi-væpnet banditproblem", som brukes over endelige tidsperioder. Trafikkdata brukes til å utvikle stadig effektive metoder.
Det er vanskelig å peke MABs til et eksakt formål, fordi det er mulig å lage så mange variasjoner av formelen. K-væpnede banditter, for eksempel, har "armer" som konkurrerer om å få høyest forventede belønning. Kontekstualiser banditter gjør det samme, men med "ekspertråd" - data som tidligere er samlet inn på brukeren - og den nettverksbaserte "ILOVETOCONBANDITS" fungerer bare på en tidsplan med forhåndsdefinerte runder. Derimot har en klassisk MAB-tilnærming ingen sideinformasjon mulig, og resultatet er bare avhengig av potensialet til den valgte tiltak.
Mens det mest nyttige programmet for MABs frem til nå er internettrelatert, arbeider forskerne for å finne en måte å bruke dem på "real life" (aka meatspace) scenarier. I et papir fra 2015 vurderer forskere fra University of British Columbia anvendelsen av MAB til medisinske forsøk. Målet, hvis MABs viser seg å være mulig her, er at en MAB-algoritme kan måle effekten av en bestemt medisinering. Det åpenbare problemet er at med mindre en datamodulert versjon av dette kunne opprettes, ville det være for tidkrevende å gå med denne tilnærmingen. Det er ingen måte at en MAB-design kunne plasseres i en klinisk prøve.
Ideen er fin, men ikke gjennomførbar fra nå. Inntil fremtiden er her, vil du for det meste føle den truende tilstedeværelsen av en multi-væpnet bandit når du desperat prøver å klikke ut av popup-annonser.
John Perry Barlow ser tilbake på 20 år på nettet

Sent på kvelden 8. februar 1996 erklærte John Perry Barlow uavhengighet for et nytt territorium, fri fra verdensregeringer: cyberspace.
Tesla: Hvordan det gjør tilstedeværelse følte uten å bruke penger på annonser

Tesla er et helt unikt bilmerke. I stedet for å bruke penger på reklame som alle andre bilprodusenter, bruker Tesla penger på å gjøre sine produkter bedre.
Annonser på Facebook: Nettleserutvidelse bidrar til å stoppe skumle annonser fra å følge deg

Facebook algoritmisk oppfyller data om brukernes interesser for å levere målrettede annonser til deres Newsfeeds. Å få tilgang til og redigere annonseinnstillingene kan være litt cumbersom, derfor har tre Mozilla-fellows utviklet Fuzzify.me nettleserutvidelsen for å gjøre det enklere.