Гипергеометрическое распределение

Материал из testwiki
Перейти к навигации Перейти к поиску

Шаблон:Вероятностное распределение

Гипергеометри́ческое распределе́ние в теории вероятностей моделирует количество удачных выборок без возвращения из конечной совокупности.

Пример

вытянутые не вытянутые всего
с дефектом k D − k D
без дефекта n − k N + k − n − D N − D
всего n N − n N

Типичный пример представлен вышестоящей таблицей: осуществлена поставка из N объектов, из которых D имеют дефект. Гипергеометрическое распределение описывает вероятность того, что в выборке из n различных объектов, вытянутых из поставки, ровно k объектов являются бракованными.

В общем, если случайная величина X соответствует гипергеометрическому распределению с параметрами N, D и n, то вероятность получения ровно k успехов определяется формулой:

f(k;N,D,n)=(Dk)(NDnk)(Nn)

Эта вероятность положительна когда k лежит в промежутке между max{ 0, D + nN } и min{ n, D }.

Приведенная формула может трактоваться следующим образом: существует (Nn) возможных выборок(без возвращения). Есть (Dk) способов выбрать k бракованных объектов и (NDnk) способов заполнить остаток выборки объектами без дефектов.

В случае, когда размер популяции является большим по сравнению с размером выборки (т.е., N намного больше чем n), гипергеометрическое распределение хорошо аппроксимируется биномиальным распределением с параметрами n (количество испытаний) и p = D / N (вероятность успеха в одном испытании).

Определение

Пусть имеется конечная совокупность, состоящая из N элементов. Предположим, что D (defective) из них обладают нужным нам свойством. Оставшиеся ND этим свойством не обладают. Случайным образом из общей совокупности выбирается группа из n элементов. Пусть Y - случайная величина, равная количеству выбранных элементов, обладающих нужным свойством. Тогда функция вероятности Y имеет вид:

pY(k)(Y=k)=CDkCNDnkCNn,

где Cnkn!k!(nk)! обозначает биномиальный коэффициент. Пишем: YHG(D,N,n).

Моменты

𝔼[Y]=nDN,
D[Y]=n(D/N)(1D/N)(Nn)(N1).

Пример применения

Классическим применением гипергеометрического распределения является выборка без возвращения. Рассмотрим урну с двумя типами шаров: черными и белыми. Определим вытягивание белого шара как успех, а черного как неудачу. Если N является числом всех шаров в урне и D является числом белых шаров, то N − D является числом черных шаров.
Теперь предположим, что в урне находятся 5 белых и 45 черных шаров. Стоя рядом с урной, вы закрываете глаза и вытаскиваете 10 шаров (n). Какова вероятность p (k=4) вытянуть 4 белых шара (и, соответственно, 6 черных шаров) ?

Задача описывается следующей таблицей:

вытянутые не вытянутые всего
белые шары 4 (k) 1 = 5 − 4 (Dk) 5 (D)
чёрные шары 6 = 10 − 4 (nk) 39 = 50 + 4 − 10 − 5 (N + k − n − D) 45 (N − D)
всего 10 (n) 40 (N − n) 50 (N)

Вероятность Pr (k = x) того, что будут вытянуты ровно x белых шаров (= количество успехов), может быть посчитана с помощью формулы:

Pr(k=x)=f(k;N,D,n)=(Dk)(NDnk)(Nn).

Отсюда, в нашем примере (x = 4), получим:

Pr(k=4)=f(4;50,5,10)=(54)(456)(5010)=0.003964583.

Таким образом, вероятность вытянуть ровно 4 белых шара достаточно мала (примерно 0.004). Это значит, что при проведении эксперимента (вытаскивание 10 шаров из урны с 50 шарами без возвращения) 1000 раз мы рассчитываем получить вышеупомянутый результат 4 раза.

Что касается вероятности вытянуть все 5 белых шаров, то интуитивно понятно, что она будет меньше, чем вероятность вытянуть 4 белых шара. Давайте посчитаем эту вероятность.

вытянутые не вытянутые всего
белые шары 5 (k) 0 = 5 − 5 (D − k) 5 (D)
чёрные шары 5 = 10 − 5 (n − k) 40 = 50 + 5 − 10 − 5 (N + k − n − D) 45 (N − D)
всего 10 (n) 40 (N − n) 50 (N)

Таким образом, мы получаем вероятность:

Pr(k=5)=f(5;50,5,10)=(55)(455)(5010)=0.0001189375,

Как и ожидалось, вероятность вытянуть 5 белых шаров меньше, чем вероятность вытянуть 4 белых шара.

Заключение:
Начальный вопрос можно расширить следующим образом: Если вытягиваются 10 шаров из урны (содержащей 5 белых и 45 чёрных шаров), какова вероятность вытянуть не менее 4 белых шаров? Для получения ответа на этот вопрос необходимо посчитать функцию распределения p(k>=4). Так как гипергеометрическое распределение является дискретным вероятностным распределением, функция распределения может быть легко посчитана как сумма соответствующих вероятностей.

В нашем примере достаточно сложить Pr (k = 4) и Pr (k = 5):

Pr (k ≥ 4) = 0.003964583 + 0.0001189375 = 0.004083520

Симметричность

f(k;N,D,n)=(Dk)(NDnk)(Nn)=f(nk;N,ND,n)

Эта симметричность интуитивно понятна, если перекрасить белые шары в черные и наоборот, таким образом, белые и черные шары просто меняются ролями.

f(k;N,D,n)=f(k;N,n,D)

Эта симметричность интуитивно понятна, если вместо вытягивания шаров, вы помечаете шары, которые вы бы вытянули. Оба выражения дают вероятность того, что ровно k шаров черные и помечены как вытянутые.

Связь с другими распределениями

  • Зафиксируем n и D и устремим N к бесконечности. Тогда HG(D,N,n) сходится к биномиальному распределению Bi(n,D/N).
  • Если случайные величины X и Y имеют биномиальные распределения Bi(D,p) и Bi(ND,p) соответственно, то условное распределение случайной величины X при условии X+Y=n – гипергеометрическое HG(D,N,n).

Шаблон:Список вероятностных распределений

Шаблон:Rq