Как Multi-Armed Bandit определя какви реклами и истории виждате онлайн

$config[ads_kvadrat] not found

CS885 Lecture 8b: Bayesian and Contextual Bandits

CS885 Lecture 8b: Bayesian and Contextual Bandits
Anonim

Представете си, че сте комарджия и вие стоите пред няколко игрални автомати. Вашата цел е да увеличите печалбите си, но всъщност не знаете нищо за потенциалните награди, предлагани от всяка машина. Разбирате обаче, че лостовете, които дърпате, и честотата, с която го правите, ще повлияят на резултатите от хазарта ви.

Този сценарий, с който всеки ден се срещат посетители в Лас Вегас и Атлантик Сити (до каквато степен хората все още отиват в Атлантик Сити), също е класически логически пъзел, наречен "Multi-Armed Bandit" - слот машини се наричат ​​"One-Armed" Бандити ”, като оставят Reno-типове, защото имат един лост и вземат парите на хората. Въпреки че няма един правилен начин за справяне с ситуациите с многовъоръжените бандити - най-близкият кандидат е индексът Gittins - има стратегически подходи за справяне с тези проблеми, които виждате, без да се регистрирате всеки ден, когато влизате в интернет. Много алгоритми, регулиращи начина, по който съдържанието се появява чрез Google и на уебсайтове, са изградени върху стратегиите на MAB. Целта в почти всички случаи е да се свържат обучението и резултатите и да се максимизира потенциалът и за двете.

Подходът на многобройните бандити се използва от The Washington Post за да разберете кои снимки и заглавия най-вероятно ще кликнете, и от безжични мрежи, за да разберете кои оптимални, енергоспестяващи маршрути са най-добрите. Алгоритмите, които растат от подходите на MBA, са изключително важни за тези компании и много други, защото основно определят кога и кои реклами се появяват онлайн.

Да разбера какви реклами да се показват на хората е труден проблем, тъй като има толкова много едноръки бандити, които обикалят около тях, като кликват върху неща онлайн. MAB алгоритмите за реклами обикновено използват бързо променящ се „смъртоносен мулти-въоръжен бандитски проблем“, който се прилага през определени периоди от време. Данните за трафика се използват за разработване на все по-ефективни методологии.

Трудно е да се обвърже MABs с точна цел, защото е възможно да се създадат толкова много варианти на формулата. К-въоръжените бандити, например, имат „оръжия“, които се конкурират, за да получат най-високата очаквана награда. Контекстализиращите бандити правят същото, но с „експертни съвети” - данни, събрани преди това от потребителя - и готовият за интернет, наречен „ILOVETOCONBANDITS” работи само по график с предварително определени кръгове. За разлика от това, класическият MAB подход няма възможна странична информация и резултатът зависи само от потенциала на избраното действие.

Докато най-полезното приложение за MABs досега изглежда е свързано с интернет, изследователите работят за намиране на начин да ги приложат към сценариите на „реалния живот“ (наричан още месопространство). В документ от 2015 г. изследователи от Университета на Британска Колумбия разглеждат прилагането на МАБ за медицински изпитвания. Целта, ако MABs се окаже възможна тук, е, че алгоритъмът MAB може да измери ефекта от дадено лекарство. Очевидният проблем е, че ако не може да се създаде компютърно-модулирана версия на този подход, това ще отнеме много време. Няма начин проектът MAB да бъде поставен в клинично изпитване.

Идеята е хубава, но все още не е осъществима. Докато бъдеш тук, най-вече ще почувстваш наближаващото присъствие на многоръки бандит, когато отчаяно се опитваш да натиснеш изскачащи реклами.

$config[ads_kvadrat] not found