Модель Брэдли — Терри

Модель Брэдли–Терри — это вероятностная модель для результатов попарных сравнений между элементами, командами или объектами.

Для пары элементов Шаблон:Mvar и Шаблон:Mvar взятых из некоторой совокупности, она оценивает вероятность того, что попарное сравнение Шаблон:Math окажется верным, как

$\Pr (i > j) = \frac{p_{i}}{p_{i} + p_{j}}$ [1]Шаблон:Anchor

где Шаблон:Mvar — положительная реальная оценка.

Сравнение объектов Шаблон:Math можно интерпретировать как «Шаблон:Mvar предпочтительнее Шаблон:Mvar», «Шаблон:Mvar ранжируется выше Шаблон:Mvar» или «Шаблон:Mvar превосходит Шаблон:Mvar», «Шаблон:Mvar выигрывает у Шаблон:Mvar», в зависимости от приложения.

Например, Шаблон:Mvar может представлять рейтинг команды в спортивном турнире, а $\Pr (i > j)$ вероятность того, что команда Шаблон:Mvar выиграет игру против Шаблон:Mvar . ^[1] ^[2] Или Шаблон:Mvar может представлять качество коммерческого продукта и тогда $\Pr (i > j)$ вероятность того, что потребитель предпочтет продукт Шаблон:Mvar продукту Шаблон:Mvar .

Модель Брэдли–Терри может использоваться в прямом направлении для прогнозирования результатов, как описано выше, но чаще используется в обратном направлении для выведения оценок Шаблон:Mvar с учетом результатов наблюдений. ^[2] При таком применении Шаблон:Mvar представляет собой некоторую меру качества или рейтинг объекта $i$ , а модель позволяет нам оценить Шаблон:Mvar на основе серии попарных сравнений. Например, при опросе о винных предпочтениях респондентам может быть сложно дать полную оценку большому набору вин, но им относительно легко сравнить пары образцов вин и сказать, какое из них, по их мнению, лучше. На основе набора таких попарных сравнений можно затем использовать модель Брэдли–Терри для выведения полного рейтинга вин.

После расчета оценок Шаблон:Mvar модель можно использовать и в прямом направлении, например, для прогнозирования вероятного результата матчей, которые еще не были проведены. Например, в примере с опросом о вине можно рассчитать вероятность того, что кто-то предпочтет вино $i$ за вином $j$ , даже если никто из участников опроса напрямую не сравнивал эту конкретную пару.

История создания

Модель названа в честь Ральфа А. Брэдли и Милтона Э. Терри, ^[3] которые представили ее в 1952 году, ^[4] хотя она уже была изучена Эрнстом Цермело в 1920-х годах. ^[1] ^[5] ^[6] Приложения модели включают в себя ранжирование участников спортивных, шахматных и других соревнований, ^[7] ранжирование продуктов в парных сравнительных исследованиях потребительского выбора, анализ иерархий доминирования в сообществах животных и людей, ^[8] ранжирование журналов, ранжирование моделей ИИ, ^[9] и оценку релевантности документов в поисковых системах с машинным обучением . ^[10]

Определение

Модель Брэдли–Терри можно параметризовать различными способами. Уравнение [1], пожалуй, самое распространенное, но есть и ряд других. Брэдли и Терри сами определили экспоненциальные функции оценки $p_{i} = e^{β_{i}}$ , так что ^[2].

Тогда вероятность можно представить через сигмоиду

\Pr (i > j) = \frac{e^{β_{i}}}{e^{β_{i}} + e^{β_{j}}} = \frac{1}{1 + e^{- (β_{i} - β_{j})}} = σ (β_{i} - β_{j}) .

Эта формулировка подчеркивает сходство между моделью Брэдли–Терри и логистической регрессией . Оба используют по сути одну и ту же модель, но по-разному. В логистической регрессии обычно известны параметры $β_{i}$ и попытки вывести функциональную форму $\Pr (i > j)$ ; при ранжировании по модели Брэдли–Терри известна функциональная форма и делается попытка вывести параметры.

При масштабном коэффициенте 400 это эквивалентно системе рейтинга Эло для игроков с рейтингами Эло Шаблон:Math и Шаблон:Math .

\Pr (i > j) = \frac{e^{R_{i} / 400}}{e^{R_{i} / 400} + e^{R_{j} / 400}} = \frac{1}{1 + e^{(R_{j} - R_{i}) / 400}} .

Оценка параметров

Наиболее распространенное применение модели Брэдли–Терри — вывод значений параметров $p_{i}$ учитывая наблюдаемый набор результатов $i > j$ , например, победы и поражения в соревновании. Самый простой способ оценки параметров — это оценка максимального правдоподобия, т. е. максимизация вероятности наблюдаемых результатов с учетом значений модели и параметров.

Предположим, что мы знаем результаты набора парных соревнований между определенной группой лиц, и пусть Шаблон:Mvar будет числом раз, когда лицо Шаблон:Mvar побеждает лицо Шаблон:Mvar . Тогда вероятность этого набора результатов в модели Брэдли–Терри равна $\prod_{i j} [\Pr (i > j)]^{w_{i j}}$ а логарифм правдоподобия вектора параметров Шаблон:Math равен ^[1]

$\begin{matrix} 𝓁 (𝐩) & = \ln \prod_{i j} {[\Pr (i > j)]}^{w_{i j}} = \sum_{i = 1}^{n} \sum_{j = 1}^{n} \ln [{(\frac{p_{i}}{p_{i} + p_{j}})}^{w_{i j}}] \\ = \sum_{i j} w_{i j} \ln (\frac{p_{i}}{p_{i} + p_{j}}) = \sum_{i j} [w_{i j} \ln (p_{i}) - w_{i j} \ln (p_{i} + p_{j})] . \end{matrix}$

Цермело ^[5] показал, что это выражение имеет только один максимум, который можно найти, дифференцируя по $p_{i}$ и приравнивая к нулю, что приводит к

$p_{i} = \frac{\sum_{j} w_{i j}}{\sum_{j} (w_{i j} + w_{j i}) / (p_{i} + p_{j})}$ [2]Шаблон:Anchor

Это уравнение не имеет известного замкнутого решения, но Цермело предложил решить его методом простой итерации. Начиная с любого удобного набора (положительных) начальных значений для $p_{i}$ , итеративно выполнять обновление:

${p_{i}}^{'} = \frac{\sum_{j} w_{i j}}{\sum_{j} (w_{i j} + w_{j i}) / (p_{i} + p_{j})}$ [3] Шаблон:Anchor

для всех Шаблон:Mvar в свою очередь. Результирующие параметры являются произвольными с точностью до общей мультипликативной константы, поэтому после вычисления всех новых значений их следует нормализовать путем деления на их среднее геометрическое следующим образом:

$p_{i} \leftarrow \frac{p'_{i}}{{(\prod_{j = 1}^{n} p'_{j})}^{1 / n}}$ [4]Шаблон:Anchor

Эта процедура оценки улучшает логарифмическое правдоподобие на каждой итерации и гарантированно в конечном итоге достигает уникального максимума. ^[5] ^[11] Однако сходимость происходит медленно. ^[1] ^[12] Совсем недавно было отмечено ^[13], что уравнение [2] можно также переписать как

$p_{i} = \frac{\sum_{j} w_{i j} p_{j} / (p_{i} + p_{j})}{\sum_{j} w_{j i} / (p_{i} + p_{j})},$

которую можно решить путем итерации

${p_{i}}^{'} = \frac{\sum_{j} w_{i j} p_{j} / (p_{i} + p_{j})}{\sum_{j} w_{j i} / (p_{i} + p_{j})}$ [5]Шаблон:Anchor

снова нормализуем после каждого раунда обновлений с использованием уравнения [4]. Эта итерация дает идентичные результаты, что и в [3], но сходится гораздо быстрее и поэтому обычно предпочтительнее, чем [3]. ^[13]

Рабочий пример процедуры решения

Рассмотрим спортивное соревнование между четырьмя командами, которые в общей сложности играют между собой 22 игры. Победы каждой команды указаны в строках, а соперники указаны в столбцах:

Результаты
	A	B	C	D
A	–	2	0	1
B	3	–	5	0
C	0	3	–	1
D	4	0	3	–

Например, команда A дважды обыграла команду B и трижды проиграла команде B; вообще не играла с командой C; выиграла один раз и проиграла четыре раза команде D.

Мы хотели бы оценить относительную силу команд, что мы делаем путем расчета параметров $p_{i}$ , причем более высокие параметры указывают на большую доблесть. Для этого мы произвольно инициализируем четыре записи в векторе параметров Шаблон:Math, например, присваивая каждой команде значение 1: Шаблон:Math . Затем мы применяем уравнение [5] для обновления $p_{1}$ , что дает

$p_{1} = \frac{\sum_{j (\neq 1)} w_{1 j} p_{j} / (p_{1} + p_{j})}{\sum_{j (\neq 1)} w_{j 1} / (p_{1} + p_{j})} = \frac{2 \frac{1}{1 + 1} + 0 \frac{1}{1 + 1} + 1 \frac{1}{1 + 1}}{3 \frac{1}{1 + 1} + 0 \frac{1}{1 + 1} + 4 \frac{1}{1 + 1}} = 0.429.$

Теперь снова применяем [5] для обновления $p_{2}$ , убедившись, что используете новое значение $p_{1}$ что мы только что подсчитали:

$p_{2} = \frac{\sum_{j (\neq 2)} w_{2 j} p_{j} / (p_{2} + p_{j})}{\sum_{j (\neq 2)} w_{j 2} / (p_{2} + p_{j})} = \frac{3 \frac{0.429}{1 + 0.429} + 5 \frac{1}{1 + 1} + 0 \frac{1}{1 + 1}}{2 \frac{1}{1 + 0.429} + 3 \frac{1}{1 + 1} + 0 \frac{1}{1 + 1}} = 1.172$

Аналогично для $p_{3}$ и $p_{4}$ мы получаем

$p_{3} = \frac{\sum_{j (\neq 3)} w_{3 j} p_{j} / (p_{3} + p_{j})}{\sum_{j (\neq 3)} w_{j 3} / (p_{3} + p_{j})} = \frac{0 \frac{0.429}{1 + 0.429} + 3 \frac{1.172}{1 + 1.172} + 1 \frac{1}{1 + 1}}{0 \frac{1}{1 + 0.429} + 5 \frac{1}{1 + 1.172} + 3 \frac{1}{1 + 1}} = 0.557$ $p_{4} = \frac{\sum_{j (\neq 4)} w_{4 j} p_{j} / (p_{4} + p_{j})}{\sum_{j (\neq 4)} w_{j 4} / (p_{4} + p_{j})} = \frac{4 \frac{0.429}{1 + 0.429} + 0 \frac{1.172}{1 + 1.172} + 3 \frac{0.557}{1 + 0.557}}{1 \frac{1}{1 + 0.429} + 0 \frac{1}{1 + 1.172} + 1 \frac{1}{1 + 0.557}} = 1.694$

Затем мы нормализуем все параметры, разделив их на их среднее геометрическое $(0.429 \times 1.172 \times 0.557 \times 1.694)^{1 / 4} = 0.830$ чтобы получить оценочные параметры Шаблон:Math .

Чтобы еще больше улучшить оценки, мы повторяем процесс, используя новые значения Шаблон:Math . Например,

$p_{1} = \frac{2 \cdot \frac{1.413}{0.516 + 1.413} + 0 \cdot \frac{0.672}{0.516 + 0.672} + 1 \cdot \frac{2.041}{0.516 + 2.041}}{3 \cdot \frac{1}{0.516 + 1.413} + 0 \cdot \frac{1}{0.516 + 0.672} + 4 \cdot \frac{1}{0.516 + 2.041}} = 0.725.$

Повторяя этот процесс для оставшихся параметров и нормализуя, получаем Шаблон:Math . Повторение еще 10 раз дает быструю сходимость к окончательному решению Шаблон:Math . Это означает, что команда D является сильнейшей, а команда B — второй по силе, в то время как команды A и C почти равны по силе, но уступают командам B и D. Таким образом, модель Брэдли–Терри позволяет нам сделать вывод о взаимоотношениях между всеми четырьмя командами, даже если не все команды играли друг с другом.

Расширение модели на случай игр с ничьей

Если в игре присутствует вероятность ничьи то модель можно расширить введя дополнительный параметр^[14] $θ > 0$ . Тогда вероятности исходов:

$\Pr (i > j) = \frac{p_{i}}{p_{i} + θ p_{j}}$ - вероятность что Шаблон:Mvar побеждает Шаблон:Mvar

$\Pr (j > i) = \frac{p_{j}}{θ p_{i} + p_{j}}$ - вероятность что Шаблон:Mvar побеждает Шаблон:Mvar

$\Pr (j = i) = \frac{(θ^{2} - 1) p_{i} p_{j}}{(p_{i} + θ p_{j}) (θ p_{i} + p_{j})}$ - вероятность ничьей

Смотрите также

Порядковая регрессия
модель Раша
Шкала (общественные науки)
Система рейтинга Эло
модель Терстона

Ссылки

Шаблон:Примечания

[hunter-1] 1,0 ^1,1 ^1,2 ^1,3 Шаблон:Cite journal

[agresti-2] 2,0 ^2,1 ^2,2 Шаблон:Cite book

[3] Шаблон:Cite encyclopedia

[4] Шаблон:Cite journal

[zermelo-5] 5,0 ^5,1 ^5,2 Шаблон:Cite journal

[6] Шаблон:Citation

[7] Шаблон:Cite journal

[8] Шаблон:Cite journal

[9] Шаблон:Cite web

[10] Шаблон:Cite conference

[11] Шаблон:Cite journal

[12] Шаблон:Cite journal

[newman-13] 13,0 ^13,1 Шаблон:Cite journal

[14] Шаблон:Cite web

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

Модель Брэдли — Терри

Содержание

История создания

Определение

Оценка параметров

Рабочий пример процедуры решения

Расширение модели на случай игр с ничьей

Смотрите также

Ссылки

Навигация

Модель Брэдли — Терри

История создания

Определение

Оценка параметров

Рабочий пример процедуры решения

Расширение модели на случай игр с ничьей

Смотрите также

Ссылки

Навигация

Поиск