Оценка Чернова

Материал из testwiki
Перейти к навигации Перейти к поиску

Оценка Чернова даёт экспоненциально убывающие оценки вероятности больших отклонений сумм независимых случайных величин. Эти оценки являются более точными, чем оценки, полученные с использованием первых или вторых моментов, такие как неравенство Маркова или неравенство Чебышёва, которые дают лишь степенной закон убывания. Вместе с тем оценка Чернова требует, чтобы случайные величины были независимы в совокупности — условие, которое ни неравенство Маркова, ни неравенство Чебышёва не требуют, хотя неравенство Чебышёва требует попарную независимость случайных величин.

Оценка Чернова имеет отношение к Шаблон:Не переведено 5 и неравенству Хёфдинга, которые ей исторически предшествуют.

Основной случай

Основной случай оценки Чернова для случайной величины X достигается применением неравенства Маркова к Шаблон:Mvar [1]. Для каждого t>0

P(Xa)=P(etXeta)E[etX]eta.

Когда Шаблон:Mvar является суммой Шаблон:Mvar случайных величин Шаблон:Math, для любого t>0

P(Xa)etaE[ietXi].

В частности, оптимизируя по t и предполагая, что Шаблон:Mvar независимы, мы получаем

P(Xa)mint>0etaiE[etXi]. (1)

Аналогично

P(Xa)=P(etXeta)

и, таким образом,

P(Xa)mint>0etaiE[etXi].

Конкретные значения оценок Чернова получаются вычислением E[etXi]для конкретных величин Xi.

Пример

Пусть Шаблон:Math — независимые случайные величины Бернулли, сумма которых Шаблон:Math, и каждая равна 1 с вероятностью p>0.5. Для переменной Бернулли верно:

E[etXi]=(1p)e0+pet=1+p(et1)ep(et1),

следовательно,

E[etX]enp(et1).

Для всякого δ>0 при t=ln(1+δ)>0 и a=(1+δ)np получаем

E[etX]eδnp , eta=1(1+δ)(1+δ)np,

и общий случай оценки Чернова даёт[2]Шаблон:Rp

P[X(1+δ)np]eδnp(1+δ)(1+δ)np=[eδ(1+δ)1+δ]np.

Вероятность одновременного свершения более чем n/2 событий Шаблон:Math} в точности равна:

P[X>n2]=i=n2+1n(ni)pi(1p)ni.

Нижнюю оценку этой вероятности можно вычислить с помощью неравенства Чернова:

P[X>n2]1e12pn(p12)2.

В самом деле, обозначая Шаблон:Math, мы получаем мультипликативную форму оценки Чернова (см. ниже или Corollary 13.3 in Sinclair's class notes)[3]:

P(Xn2)=P(X(1(112p))μ)eμ2(112p)2=en2p(p12)2.

Этот результат допускает разнообразные обобщения, как отмечено ниже. Можно отметить несколько форм оценок Чернова: исходную аддитивную форму (даёт оценку для абсолютной ошибки) или более практичную мультипликативную форму (ограничивает ошибку по отношению к среднему).

Аддитивная форма (оценка для абсолютной ошибки)

Следующая Теорема была доказана Василием Хёфдингом[4].

Теорема Чернова — Хёфдинга. Пусть Шаблон:Mathнезависимые одинаково распределённые случайные величины, принимающие значения Шаблон:Math
Положим Шаблон:Math и Шаблон:Math. Тогда
P(1nXip+ε)((pp+ε)p+ε(1p1pε)1pε)n=eD(p+εp)n,P(1nXipε)((ppε)pε(1p1p+ε)1p+ε)n=eD(pεp)n,
где
D(xy)=xlnxy+(1x)ln(1x1y).
Это расхождение Кульбака — Лейблера между случайными величинами, имеющими бернуллиево распределение с параметрами x и y соответственно. Если Шаблон:Math то
P(Xi>np+x)exp(x22np(1p)).

Более простая оценка получается ослаблением этой теоремы, используя неравенство Шаблон:Math, которое следует из выпуклости Шаблон:Math и того факта, что

d2dε2D(p+εp)=1(p+ε)(1pε)4=d2dε2(2ε2).

Этот результат является частным случаем неравенства Хёфдинга. В некоторых случаях используются оценки

D((1+x)pp)14x2p,12x12,D(xy)3(xy)22(2y+x),D(xy)(xy)22y,xy,D(xy)(xy)22x,xy

более сильные при Шаблон:Math.

Мультипликативная форма (оценка для относительной ошибки)

Мультипликативная оценка Чернова. Пусть Шаблон:Mathнезависимые случайные величины, принимающие значения Шаблон:Math Их сумму обозначим Шаблон:Mvar, математическое ожидание этой суммы обозначим μ. Тогда для всякого δ0
P(X(1+δ)μ)(eδ(1+δ)1+δ)μ.

Аналогичным образом можно показать, что для любого 0<δ<1,

P(X(1δ)μ)(eδ(1δ)1δ)μ.

На практике вышеприведённая формула часто оказывается громоздкой[2], поэтому используются более слабые, но удобные оценки

P(X(1δ)μ)eδ2μ2,0<δ<1,
P(X(1+δ)μ)eδ2μ2+δ,0δ,

которые получаются с помощью неравенства 2δ2+δln(1+δ) из списка логарифмических неравенств[5]. Или ещё более слабое неравенство

P(X(1+δ)μ)eδ2μ3,0<δ1.

Приложения

Оценки Чернова имеют приложения в уравновешивании множеств и маршрутизации пакетов в разреженных сетях.

Проблема уравновешения множества возникает при проектировании статистического эксперимента. Как правило, при проектировании статистического эксперимента с заданными в этом эксперименте свойствами участников нам необходимо разделить участников на две непересекающиеся группы так, чтобы каждое свойство было, насколько это возможно, сбалансировано между двумя группами. См. также информацию в Probability and Computing: Randomized Algorithms and Probabilistic Analysis Шаблон:Wayback.

Оценки Чернова также используются для достижения жестких границ в задачах маршрутизации с использованием перестановок. Это уменьшает перегруженность при маршрутизации в разреженных сетях. См. подробнее в Probability and Computing: Randomized Algorithms and Probabilistic Analysis Шаблон:Wayback.

Также оценки Чернова находят применение в теории вычислительного обучения для доказательства того, что обучающий алгоритм аппроксимационно по вероятности корректен. То есть с высокой вероятностью этот алгоритм имеет малую ошибку на достаточно большом наборе тренировочных данных[6].

Оценки Чернова могут быть эффективно использованы для оценки "уровня робастности" приложения/алгоритма посредством исследования его пространства возмущений при помощи рандомизации.[7]

Матричная оценка

Шаблон:Не переведено 5 и Шаблон:Не переведено 5 использовали оценки Чернова для случайных величин с матричными значениями.[8] Следующую версию неравенства можно найти в работе Троппа.[9]

Пусть Шаблон:Math — случайные величины с матричными значениями такие, что Mid1×d2 и 𝔼[Mi]=0. Обозначим M оператор нормы матрицы M. Если неравенство Miγ почти наверное выполнено для всех i{1,,t}, то для каждого Шаблон:Math

P(1ti=1tMi>ε)(d1+d2)exp(3ε2t8γ2).

Чтобы заключить, что отклонение от 0 ограничено величиной Шаблон:Math с высокой вероятностью, нам нужно выбрать t (количество образцов) пропорциональным логарифму d1+d2. В общем случае зависимость от ln(min(d1,d2)) неочевидна: например, возьмём диагональную случайную матрицу знаков размерности d×d. Оператор нормы суммы t независимых образцов является в точности максимальным отклонением среди d независимых случайных блужданий длины t. Для того, чтобы достичь фиксированную границу максимального отклонения с постоянной вероятностью, t должно логарифмически возрастать вместе с d.[10]

Следующая теорема получена в предположении, что M имеет низкий ранг, для того, чтобы избежать зависимости от размерности.

Теорема без зависимости от размерности

Пусть Шаблон:Math и M ─ случайная симметрическая вещественная матрица с E[M]1 и Mγ почти наверное. Предположим, что каждый элемент носителя M имеет ранг самое большее r. Положим

t=Ω(γln(γ/ε2)ε2).

Если rt почти наверное, то

P(1ti=1tMiE[M]>ε)1𝐩𝐨𝐥𝐲(t),

где Шаблон:Math — это независимые одинаково распределенные копии M.

Теорема для не полностью случайных матриц

Анкит Гарг, Инь Тат Ли, Чжао Сонг и Шаблон:Не переведено 5[11] получили оценки типа Чернова для сумм матричнозначных случайных величин, семплированных с помощью случайного блуждания экспандера.

Расмус Кинг и Чжао Сонг[12] получили оценки типа Чернова для сумм матриц лапласианов случайных деревьев.

Вариант семплинга

Следующий вариант оценки Чернова можно использовать для оценки вероятности того, что большинство популяции станет в выборке меньшинством и наоборот.[13]

Предположим, имеется общая популяция A и подпопуляция BA. Обозначим относительный размер подпопуляции (|B|/|A|) через r.

Допустим, мы выбираем целое кисло k и случайную выборку SA размера k. Обозначим относительный размер подпопуляции (|BS|/|S|) через rS.

Тогда для каждой доли d[0,1]:

P(rS<(1d)r)<exp(rd2k/2).

В частности, если B ─ это большинство в A (то есть, r>0.5), то мы можем оценить сверху вероятность того, что B останется большинством в S(rS>0.5), взяв d=112r[14]:

P(rS>0.5)>1exp(r(112r)2k/2).

Эта оценка, разумеется, не является точной. Например, если r=0.5, то мы получаем тривиальную оценку P>0.

Доказательства

Теорема Чернова-Хёфдинга (аддитивная форма)

Пусть Шаблон:Math. Взяв Шаблон:Math в формуле (1), получаем:

P(1nXiq)inft>0E[etXi]etnq=inft>0(E[etXi]etq)n.

Теперь, зная что Шаблон:Math, имеем

(E[etXi]etq)n=(pet+(1p)etq)n=(pe(1q)t+(1p)eqt)n.

Таким образом, мы можем легко вычислить минимум, используя технику дифференцирования:

ddt(pe(1q)t+(1p)eqt)=(1q)pe(1q)tq(1p)eqt.

Приравнивая полученное выражение к нулю и разрешая уравнение относительно t, получаем

(1q)pe(1q)t=q(1p)eqt(1q)pet=q(1p)

так что

et=(1p)q(1q)p.

Следовательно,

t=ln((1p)q(1q)p).

Поскольку Шаблон:Math, то мы видим, что Шаблон:Math, так что наша оценка удовлетворяется по Шаблон:Mvar. Получив Шаблон:Mvar, мы можем вернуться в предыдущие уравнения и найти

ln(pe(1q)t+(1p)eqt)=ln(eqt(1p+pet))=ln(eqln((1p)q(1q)p))+ln(1p+peln(1p1q)elnqp)=qln1p1qqlnqp+ln(1p+p(1p1q)qp)=qln1p1qqlnqp+ln((1p)(1q)1q+(1p)q1q)=qlnqp+(qln1p1q+ln1p1q)=qlnqp+(1q)ln1p1q=D(qp).

Теперь мы имеем желаемый результат, поскольку

P(1nXip+ε)eD(p+εp)n.

Для завершения доказательства в симметрическом случае мы попросту определим случайную величину Шаблон:Math, применим к ней точно такое же доказательство и присоединим результат к нашей оценке.

Мультипликативная форма

Положим Шаблон:Math. Согласно формуле (1),

P(X(1+δ)μ)inft>0E[i=1netXi]et(1+δ)μ=inft>0i=1nE[etXi]et(1+δ)μ=inft>0i=1n[piet+(1pi)]et(1+δ)μ.

Третья строчка следует из того, что etXi принимает значение Шаблон:Mvar с вероятностью Шаблон:Mvar и значение 1 с вероятностью Шаблон:Math. Это идентично вычислениям выше в доказательстве аддитивной формы.

Переписав piet+(1pi) как pi(et1)+1 и вспомнив, что 1+xex (если Шаблон:Math, то неравенство строгое), мы положим x=pi(et1). Тот же результат можно получить, напрямую заменяя Шаблон:Mvar в уравнении для оценки Чернова на Шаблон:Math.[15]

Таким образом,

P(X(1+δ)μ)i=1nepi(et1)et(1+δ)μ=e((et1)i=1npi)et(1+δ)μ=e(et1)μet(1+δ)μ.

Если мы просто положим Шаблон:Math, так что Шаблон:Math для Шаблон:Math, то сможем подставить это в последнее выражение и найти

e(et1)μet(1+δ)μ=e(1+δ1)μ(1+δ)(1+δ)μ=[eδ(1+δ)(1+δ)]μ,

что и требовалось доказать.

См. также

Ссылки

Шаблон:Reflist

Дальнейшее чтение

  1. Этот метод был впервые применён Сергеем Бернштейном в доказательствах, связанных с Шаблон:Не переведено 5.
  2. 2,0 2,1 Шаблон:Cite book Шаблон:Wayback
  3. Шаблон:Cite web
  4. Шаблон:Cite journal
  5. Шаблон:Cite web
  6. M. Kearns, U. Vazirani. An Introduction to Computational Learning Theory. Chapter 9 (Appendix), pages 190-192. MIT Press, 1994.
  7. C.Alippi: "Randomized Algorithms" chapter in Intelligence for Embedded Systems. Springer, 2014, 283ppШаблон:Isbn.
  8. Шаблон:Cite journal
  9. Шаблон:Cite journal
  10. Шаблон:Cite arXiv
  11. Шаблон:Статья
  12. Шаблон:Статья
  13. Шаблон:Cite book; lemma 6.1
  14. Посмотреть графики: граница как функция от r с меняющимся k Шаблон:Wayback и граница как функция от k с меняющимся r Шаблон:Wayback.
  15. Обратитесь к приведенному выше доказательству.