Модель Брэдли — Терри

Материал из testwiki
Перейти к навигации Перейти к поиску

Модель Брэдли–Терри — это вероятностная модель для результатов попарных сравнений между элементами, командами или объектами.

Для пары элементов Шаблон:Mvar и Шаблон:Mvar взятых из некоторой совокупности, она оценивает вероятность того, что попарное сравнение Шаблон:Math окажется верным, как

Pr(i>j)=pipi+pj [1]Шаблон:Anchor

где Шаблон:Mvar — положительная реальная оценка.

Сравнение объектов Шаблон:Math можно интерпретировать как «Шаблон:Mvar предпочтительнее Шаблон:Mvar», «Шаблон:Mvar ранжируется выше Шаблон:Mvar» или «Шаблон:Mvar превосходит Шаблон:Mvar», «Шаблон:Mvar выигрывает у Шаблон:Mvar», в зависимости от приложения.

Например, Шаблон:Mvar может представлять рейтинг команды в спортивном турнире, а Pr(i>j) вероятность того, что команда Шаблон:Mvar выиграет игру против Шаблон:Mvar . [1] [2] Или Шаблон:Mvar может представлять качество коммерческого продукта и тогдаPr(i>j) вероятность того, что потребитель предпочтет продукт Шаблон:Mvar продукту Шаблон:Mvar .

Модель Брэдли–Терри может использоваться в прямом направлении для прогнозирования результатов, как описано выше, но чаще используется в обратном направлении для выведения оценок Шаблон:Mvar с учетом результатов наблюдений. [2] При таком применении Шаблон:Mvar представляет собой некоторую меру качества или рейтинг объекта i, а модель позволяет нам оценить Шаблон:Mvar на основе серии попарных сравнений. Например, при опросе о винных предпочтениях респондентам может быть сложно дать полную оценку большому набору вин, но им относительно легко сравнить пары образцов вин и сказать, какое из них, по их мнению, лучше. На основе набора таких попарных сравнений можно затем использовать модель Брэдли–Терри для выведения полного рейтинга вин.

После расчета оценок Шаблон:Mvar модель можно использовать и в прямом направлении, например, для прогнозирования вероятного результата матчей, которые еще не были проведены. Например, в примере с опросом о вине можно рассчитать вероятность того, что кто-то предпочтет вино i за вином j, даже если никто из участников опроса напрямую не сравнивал эту конкретную пару.

История создания

Модель названа в честь Ральфа А. Брэдли и Милтона Э. Терри, [3] которые представили ее в 1952 году, [4] хотя она уже была изучена Эрнстом Цермело в 1920-х годах. [1] [5] [6] Приложения модели включают в себя ранжирование участников спортивных, шахматных и других соревнований, [7] ранжирование продуктов в парных сравнительных исследованиях потребительского выбора, анализ иерархий доминирования в сообществах животных и людей, [8] ранжирование журналов, ранжирование моделей ИИ, [9] и оценку релевантности документов в поисковых системах с машинным обучением . [10]

Определение

Модель Брэдли–Терри можно параметризовать различными способами. Уравнение [1], пожалуй, самое распространенное, но есть и ряд других. Брэдли и Терри сами определили экспоненциальные функции оценки pi=eβi, так что [2].

Тогда вероятность можно представить через сигмоиду

Pr(i>j)=eβieβi+eβj=11+e(βiβj)=σ(βiβj).

Эта формулировка подчеркивает сходство между моделью Брэдли–Терри и логистической регрессией . Оба используют по сути одну и ту же модель, но по-разному. В логистической регрессии обычно известны параметры βi и попытки вывести функциональную форму Pr(i>j); при ранжировании по модели Брэдли–Терри известна функциональная форма и делается попытка вывести параметры.

При масштабном коэффициенте 400 это эквивалентно системе рейтинга Эло для игроков с рейтингами Эло Шаблон:Math и Шаблон:Math .

Pr(i>j)=eRi/400eRi/400+eRj/400=11+e(RjRi)/400.

Оценка параметров

Наиболее распространенное применение модели Брэдли–Терри — вывод значений параметров pi учитывая наблюдаемый набор результатов i>j, например, победы и поражения в соревновании. Самый простой способ оценки параметров — это оценка максимального правдоподобия, т. е. максимизация вероятности наблюдаемых результатов с учетом значений модели и параметров.

Предположим, что мы знаем результаты набора парных соревнований между определенной группой лиц, и пусть Шаблон:Mvar будет числом раз, когда лицо Шаблон:Mvar побеждает лицо Шаблон:Mvar . Тогда вероятность этого набора результатов в модели Брэдли–Терри равна ij[Pr(i>j)]wij а логарифм правдоподобия вектора параметров Шаблон:Math равен [1]

𝓁(𝐩)=lnij[Pr(i>j)]wij=i=1nj=1nln[(pipi+pj)wij]=ijwijln(pipi+pj)=ij[wijln(pi)wijln(pi+pj)].

Цермело [5] показал, что это выражение имеет только один максимум, который можно найти, дифференцируя по pi и приравнивая к нулю, что приводит к

pi=jwijj(wij+wji)/(pi+pj) [2]Шаблон:Anchor

Это уравнение не имеет известного замкнутого решения, но Цермело предложил решить его методом простой итерации. Начиная с любого удобного набора (положительных) начальных значений для pi, итеративно выполнять обновление:

pi=jwijj(wij+wji)/(pi+pj) [3] Шаблон:Anchor

для всех Шаблон:Mvar в свою очередь. Результирующие параметры являются произвольными с точностью до общей мультипликативной константы, поэтому после вычисления всех новых значений их следует нормализовать путем деления на их среднее геометрическое следующим образом:

pip'i(j=1np'j)1/n [4]Шаблон:Anchor

Эта процедура оценки улучшает логарифмическое правдоподобие на каждой итерации и гарантированно в конечном итоге достигает уникального максимума. [5] [11] Однако сходимость происходит медленно. [1] [12] Совсем недавно было отмечено [13], что уравнение [2] можно также переписать как

pi=jwijpj/(pi+pj)jwji/(pi+pj),

которую можно решить путем итерации

pi=jwijpj/(pi+pj)jwji/(pi+pj) [5]Шаблон:Anchor

снова нормализуем после каждого раунда обновлений с использованием уравнения [4]. Эта итерация дает идентичные результаты, что и в [3], но сходится гораздо быстрее и поэтому обычно предпочтительнее, чем [3]. [13]

Рабочий пример процедуры решения

Рассмотрим спортивное соревнование между четырьмя командами, которые в общей сложности играют между собой 22 игры. Победы каждой команды указаны в строках, а соперники указаны в столбцах:

Результаты
A B C D
A 2 0 1
B 3 5 0
C 0 3 1
D 4 0 3

Например, команда A дважды обыграла команду B и трижды проиграла команде B; вообще не играла с командой C; выиграла один раз и проиграла четыре раза команде D.

Мы хотели бы оценить относительную силу команд, что мы делаем путем расчета параметров pi, причем более высокие параметры указывают на большую доблесть. Для этого мы произвольно инициализируем четыре записи в векторе параметров Шаблон:Math, например, присваивая каждой команде значение 1: Шаблон:Math . Затем мы применяем уравнение [5] для обновления p1, что дает

p1=j(1)w1jpj/(p1+pj)j(1)wj1/(p1+pj)=211+1+011+1+111+1311+1+011+1+411+1=0.429.

Теперь снова применяем [5] для обновления p2, убедившись, что используете новое значение p1 что мы только что подсчитали:

p2=j(2)w2jpj/(p2+pj)j(2)wj2/(p2+pj)=30.4291+0.429+511+1+011+1211+0.429+311+1+011+1=1.172

Аналогично для p3 и p4 мы получаем

p3=j(3)w3jpj/(p3+pj)j(3)wj3/(p3+pj)=00.4291+0.429+31.1721+1.172+111+1011+0.429+511+1.172+311+1=0.557p4=j(4)w4jpj/(p4+pj)j(4)wj4/(p4+pj)=40.4291+0.429+01.1721+1.172+30.5571+0.557111+0.429+011+1.172+111+0.557=1.694

Затем мы нормализуем все параметры, разделив их на их среднее геометрическое (0.429×1.172×0.557×1.694)1/4=0.830 чтобы получить оценочные параметры Шаблон:Math .

Чтобы еще больше улучшить оценки, мы повторяем процесс, используя новые значения Шаблон:Math . Например,

p1=21.4130.516+1.413+00.6720.516+0.672+12.0410.516+2.041310.516+1.413+010.516+0.672+410.516+2.041=0.725.

Повторяя этот процесс для оставшихся параметров и нормализуя, получаем Шаблон:Math . Повторение еще 10 раз дает быструю сходимость к окончательному решению Шаблон:Math . Это означает, что команда D является сильнейшей, а команда B — второй по силе, в то время как команды A и C почти равны по силе, но уступают командам B и D. Таким образом, модель Брэдли–Терри позволяет нам сделать вывод о взаимоотношениях между всеми четырьмя командами, даже если не все команды играли друг с другом.

Расширение модели на случай игр с ничьей

Если в игре присутствует вероятность ничьи то модель можно расширить введя дополнительный параметр[14] θ>0. Тогда вероятности исходов:

Pr(i>j)=pipi+θpj - вероятность что Шаблон:Mvar побеждает Шаблон:Mvar

Pr(j>i)=pjθpi+pj - вероятность что Шаблон:Mvar побеждает Шаблон:Mvar

Pr(j=i)=(θ21)pipj(pi+θpj)(θpi+pj) - вероятность ничьей

Смотрите также

Ссылки

Шаблон:Примечания