Парадокс Линдли

Материал из testwiki
Перейти к навигации Перейти к поиску

Парадокс Линдли — это контринтуитивная ситуация в статистике, при которой байесовский и Шаблон:Не переведено 5 подходы к задаче проверки гипотез дают различные результаты при определённых выборах априорного распределения. Проблема разногласия между двумя подходами обсуждалась в книге Гарольда Джеффриса 1939 годаШаблон:Sfn. Проблема стала известна как парадокс Линдли после того, как Деннис Линдли высказал несогласие с парадоксом в статье 1957Шаблон:Sfn.

Хотя ситуация описывается как парадокс, различие байесовского и частотного подходов можно объяснить как использования их для ответа на фундаментально различные вопросы, а не действительного разногласия между двумя методами.

Как бы то ни было, для большого класса априорные разности между частотным и байесовским подходами вызваны сохранением уровня значимости. Как Линдли понял: «теория не может обосновать практику сохранения уровня значимости» и даже «некоторые вычисления, сделанные профессором Пирсоном в обсуждении этой статьи подчёркивают, насколько уровень значимости может меняться с изменением размера выборки, если потери и априорные вероятности остаются неизменными»Шаблон:Sfn. Фактически, если критичное значение растёт с ростом размера выборки достаточно быстро, рассогласование между частотным и байесовским подходами становится ничтожнымШаблон:SfnШаблон:Sfn.

Описание парадокса

Рассмотрим результат x некоторого эксперимента с двумя возможными объяснениями, гипотезами H0 и H1, и некоторым априорным распределением π, представляющим неопределённость, какая гипотеза более точна перед рассмотрением x.

Парадокс Линдли обнаруживается в случае:

  1. Результат x оказывается «значимым» для частотного теста гипотезы H0, показывающим значимое свидетельство к отбрасыванию гипотезы H0, скажем, на уровне 5 %.
  2. Апостериорная вероятность гипотезы H0, задаваемая результатом x высока, что убедительно свидетельствует о том, что гипотеза H0 больше согласуется с x, чем гипотеза H1.

Эти результаты могут случиться в одно и то же время, если H0 очень специфично, H1 более размыто, а априорное распределение не даёт предпочтения ни одному из них, как показано ниже.

Численный пример

Мы можем проиллюстрировать парадокс Линдли численным примером. Представим себе город, в котором родились 49581 мальчиков и 48870 девочек за определённый период времени. Наблюдаемая доля x мальчиков составляет 49581/98451 ≈ 0,5036. Мы предполагаем, что число рождений мальчиков является биномиальной переменной с параметром θ. Мы хотим проверить, равно ли θ 0,5 или другому значению. То есть наша нулевая гипотеза гласит: H0:θ=0,5, а альтернативной гипотезой будет H1:θ0,5.

Частотный подход

Частотный подход проверки H0 заключается в вычислении p-значения, вероятности наблюдения доли мальчиков не менее x в предположении, что гипотеза H0 верна. Поскольку число рождений большое, мы можем использовать нормальную аппроксимацию для доли рождения мальчиков XN(μ,σ2), с μ=np=nθ=98451×0,5=49225,5 и σ2=nθ(1θ)=98451×0,5×0,5=24612,75 для вычисления

P(Xxμ=49225,5)=x=495819845112πσ2e(uμσ)2/2du=x=495819845112π(24612,75)e(u49225,5)224612,75/2du0,0117.

Мы также будем удивлены, если рассмотрим рождение 48870 девочек, то есть x0,4964, так что частотный тест обычно осуществаляет двухстороннюю проверку, для которой p-значение было бы p2×0,0117=0,0235. В обоих случаях p-значение меньше уровня значимости α в 5%, так что частотный подход отвергает гипотезу H0 как несогласующуюся с наблюдаемыми данными.

Байесовский подход

Предполагая, что нет причин для предпочтения одной гипотезы другой, байесовский подход заключается в назначении априорных вероятностей π(H0)=π(H1)=0,5, однородного распределения для θ для гипотезы H1 и, затем, вычисления апостериорной вероятности для H0 с помощью теоремы Байеса,

P(H0k)=P(kH0)π(H0)P(kH0)π(H0)+P(kH1)π(H1).

После наблюдения рождения k=49581 мальчиков из n=98451 новорождённых мы можем вычислить апостериорную вероятность каждой гипотезы с помощью функции распределения масс для биномиальной переменной,

P(kH0)=(nk)(0,5)k(10,5)nk1,95×104P(kH1)=01(nk)θk(1θ)nkdθ=(nk)B(k+1,nk+1)=1/(n+1)1,02×105

где B(a,b) является бета-функцией.

Из этих значений мы находим апостериорную вероятность P(H0k)0,95, которая строго предпочитает H0 перед H1.

Два подхода, частотный и байесовский, оказываются в конфликте, а это и есть «парадокс».

Примирение байесовского и частотного подходов

Однако, по меньшей мере, в примере Линдли, если мы возьмём последовательность уровней значимости αn, таких, что αn=nk с k>12, то апостериорная вероятность нулевой гипотезы стремится к 0, что согласуется с отказом от нулевой гипотезыШаблон:Sfn. В нашем числовом примере, если принять k>12, в результате получим уровень значимости 0,00318, так что частотный подход не будет отбрасывать нулевую гипотезу, которая в общих чертах согласуется с байесовским подходом.

Распределение p при нулевой гипотезе и апостериорное распределение p.

Если используется информативное априорное распределение и проверка гипотезы, более похожей на гипотезу в частотном подходе, парадокс исчезает.

Например, если мы вычисляем апостериорное распределение P(θx,n), используя однородное априорное распределение с θ (то есть π(θ[0,1])=1), мы получим

P(θk,n)=B(k+1,nk+1).

Если мы используем это для проверки вероятности, что новорождённый более вероятно будет мальчиком, чем девочкой, то есть P(θ>0,5k,n), мы получим:

0,51B(49582,48871)0,983.

Другими словами, очень похоже, что пропорция рождения мальчиков выше 0,5.

Ни один из анализов не даёт оценку Шаблон:Не переведено 5 прямо, но оба могут быть использованы для определения, например, является ли доля рождений мальчиков выше некоторого определённого порога.

Отсутствие действительного парадокса

Явное расхождение между двумя подходами вызвано комбинацией факторов. Во-первых, частотный подход проверяет H0 выше без учёта H1. Байесовский подход вычисляет H0 как альтернативу к H1 и находит, что первая гипотеза больше согласуется с наблюдениями. Это потому, что последняя гипотеза существенно более размыта, так как значение θ может быть любым в интервале [0,1], что приводит к очень низкой апостериорной вероятности. Чтобы понять, почему, полезно рассмотреть две гипотезы как генераторы наблюдений:

  • В гипотезе H0 мы выбираем θ0,500 и задаём вопрос, насколько правдоподобно видеть 49581 мальчика при 98451 новорождённом.
  • В гипотезе H1 мы выбираем θ случайно между 0 и 1 и задаём тот же вопрос.

Большинство возможных значений для θ при гипотезе H1 очень плохо поддерживаются наблюдениями. По существу, явное несогласие между методами вообще не является несогласием, а являются двумя различными утверждениями относительно данных:

  • Частотный подход находит, что H0 плохо объясняется наблюдениями.
  • Байесовский подход находит, что гипотеза H0 существенно лучше объясняется наблюдениями, чем гипотеза H1.

Отношение пола новорождённых в 50/50 (мальчиков/девочек) согласно частотному тесту неправдоподобно. Всё же отношение 50/50 является лучшим приближением, чем большинство, но не все другие отношения. Гипотеза θ0,504 подходила бы наблюдениям много лучше, чем все другие отношения, включая θ0,500.


Например[1], из этого выбора гипотезы и априорной вероятности следует утверждение: «Если θ > 0,49 и θ < 0,51, то априорная вероятность θ быть ровно 0,5 равна 0,50/0,51 98 %». Если дано такое сильное предпочтение для θ=0,5, легко видеть, что байесовский подход высказывается в пользу H0, учитывая, что x0,5036, даже когда наблюдаемое значение x лежит в 2,28σ от 0,5. Отклонение более 2σ от H0 считается значимым в частотном подходе, но значимость отклоняется априорной вероятностью в байесовском подходе.

Если смотреть в другую сторону, мы можем видеть, что априорное распределение существенно плоским с дельта-функцией в точке θ=0,5. Ясно, что является сомнительным. Фактически, если вы попробуете нарисовать вещественные числа как непрерывные, будет логично предположить, что невозможно для заданного параметра P(θ=0,5)=0.

Более реалистичное распределение для θ на альтернативной гипотезе даёт менее удивительные результаты для апостериорной вероятности гипотезы H0. Например, если мы заменим H1 на H2:θ=x, то есть оценку максимального правдоподобия для θ, апостериорная вероятность гипотезы H0 будет только 0,07 по сравнению с 0,93 для гипотезы H2 (конечно, нельзя использовать в действительности оценку максимального правдоподобия как часть априорного распределения).

Современное обсуждение

Парадокс продолжает активно обсуждатьсяШаблон:SfnШаблон:SfnШаблон:Sfn.

См. также

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend Шаблон:Rq

  1. Данный раздел в английской версии подвергается критике как требующий полной переработки.