Распределение хи-квадрат

Материал из testwiki
Перейти к навигации Перейти к поиску

Шаблон:Вероятностное распределение

Распределе́ние χ2 (хи-квадра́т) с k степеня́ми свобо́ды — распределение суммы квадратов k независимых стандартных нормальных случайных величин.

Определение

Пусть z1,,zk — совместно независимые стандартные нормальные случайные величины, то есть: ziN(0,1). Тогда случайная величина

x=z12++zk2

имеет распределение хи-квадрат с k степенями свободы, то есть xfχ2(k)(x), или, если записать по-другому:

x=i=1kzi2χ2(k).

Распределение хи-квадрат является частным случаем гамма-распределения, и его плотность имеет вид:

fχ2(k)(x)Γ(k2,2)=(1/2)k2Γ(k2)xk21ex2,

где Γ(k/2,2) означает гамма-распределение, а Γ(k/2) — гамма-функцию.

Функция распределения имеет следующий вид:

Fχ2(k)(x)=γ(k2,x2)Γ(k2),

где Γ и γ обозначают соответственно полную и нижнюю неполную гамма-функции.

Свойства распределения хи-квадрат

𝔼[Y]=k,
D[Y]=2k.
  • В силу центральной предельной теоремы, при большом числе степеней свободы распределение случайной величины Yχ2(k) может быть приближено нормальным YN(k,2k). Более точно
Yk2kN(0,1) по распределению при k.

Связь с другими распределениями

  • Если X1,,Xk независимые нормальные случайные величины, то есть: XiN(μ,σ2),i=1,,k;μ известно, то случайная величина
Y=i=1k(Xiμσ)2

имеет распределение χ2(k).

χ2(2)Exp(1/2).
F=Y1/k1Y2/k2

имеет распределение Фишера со степенями свободы (k1,k2).

Вариации и обобщение

Дальнейшим обобщением распределения хи-квадрат является так называемое Шаблон:Iw, возникающее в некоторых задачах статистики.

Квантили

Шаблон:Main Квантиль — это число (аргумент), на котором функция распределения равна заданной, требуемой вероятности. Грубо говоря, квантиль — это результат обращения функции распределения, но есть тонкости с разрывными функциями распределения.

История

Критерий χ2 был предложен Карлом Пирсоном в 1900 году[1]. Его работа рассматривается как фундамент современной математической статистики. Предшественники Пирсона просто строили графики экспериментальных результатов и утверждали, что они правильны. В своей статье Пирсон привёл несколько интересных примеров злоупотреблений статистикой. Он также доказал, что некоторые результаты наблюдений за рулеткой (на которой он проводил эксперименты в течение двух недель в Монте-Карло в 1892 году) были так далеки от ожидаемых частот, что шансы получить их снова при предположении, что рулетка устроена добросовестно, равны одному из 1029.

Общее обсуждение критерия χ2 и обширную библиографию можно найти в обзорной работе Вильяма Дж. Кокрена[2].

Приложения

Распределение хи-квадрат имеет многочисленные приложения при статистических выводах, например при использовании критерия хи-квадрат и при оценке дисперсий. Оно используется в проблеме оценивания среднего нормально распределённой популяции и проблеме оценивания наклона линии регрессии благодаря его роли в распределении Стьюдента. Оно используется в дисперсионном анализе.

Далее приведены примеры ситуаций, в которых распределение хи-квадрат возникает из нормальной выборки:

Название Статистика
распределение хи-квадрат i=1k(Xiμiσi)2
нецентральное распределение хи-квадрат i=1k(Xiσi)2
распределение хи i=1k(Xiμiσi)2
нецентральное распределение хи i=1k(Xiσi)2

Таблица значений Шаблон:Math и Шаблон:Math-значений

Для любого числа Шаблон:Math между 0 и 1 определено [[P-значение|Шаблон:Math-значение]] — вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики (среднего арифметического, медианы и др.), по сравнению с наблюдаемым, при условии верности нулевой гипотезы. В данном случае это распределение χ2. Так как значение функции распределения в точке для соответствующих степеней свободы дает вероятность получить значение статистики менее экстремальное, чем эта точка, Шаблон:Math-значение можно получить, если отнять от единицы значение функции распределения. Малое Шаблон:Math-значение — ниже выбранного уровня значимости — означает статистическую значимость. Этого будет достаточно, чтобы отвергнуть нулевую гипотезу. Чтобы различать значимые и незначимые результаты, обычно используют уровень 0,05.

В таблице даны Шаблон:Math-значения для соответствующих значений χ2 у первых десяти степеней свободы.

Степени свободы (Шаблон:Math) Значение χ2[3]
1 0,004 0,02 0,06 0,15 0,46 1,07 1,64 2,71 3,84 6,63 10,83
2 0,10 0,21 0,45 0,71 1,39 2,41 3,22 4,61 5,99 9,21 13,82
3 0,35 0,58 1,01 1,42 2,37 3,66 4,64 6,25 7,81 11,34 16,27
4 0,71 1,06 1,65 2,20 3,36 4,88 5,99 7,78 9,49 13,28 18,47
5 1,14 1,61 2,34 3,00 4,35 6,06 7,29 9,24 11,07 15,09 20,52
6 1,63 2,20 3,07 3,83 5,35 7,23 8,56 10,64 12,59 16,81 22,46
7 2,17 2,83 3,82 4,67 6,35 8,38 9,80 12,02 14,07 18,48 24,32
8 2,73 3,49 4,59 5,53 7,34 9,52 11,03 13,36 15,51 20,09 26,12
9 3,32 4,17 5,38 6,39 8,34 10,66 12,24 14,68 16,92 21,67 27,88
10 3,94 4,87 6,18 7,27 9,34 11,78 13,44 15,99 18,31 23,21 29,59
Шаблон:Math-значение 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,01 0,001

Эти значения могут быть вычислены через квантиль (обратную функцию распределения) распределения хи-квадрат[4]. Например, квантиль χ2 для Шаблон:Math и Шаблон:Math дает χ2=Шаблон:Math, как в таблице сверху. Это означает, что для экспериментального наблюдения семи независимых случайных величин x1,...,x7 при справедливости нулевой гипотезы «каждая величина описывается нормальным стандартным распределением с медианой 0 и стандартным отклонением 1» значение x12+...+x72>14,07 можно получить лишь в 5 % реализаций. Получение большего значения обычно можно считать достаточным основанием для отбрасывания этой нулевой гипотезы.

В таблице дано округление до сотых; более точные таблицы для большего количества степеней свободы см., например, здесь[5].

См. также

Примечания

Шаблон:Примечания

Шаблон:Перевести Шаблон:Список вероятностных распределений

  1. Шаблон:Статья
  2. Шаблон:Статья
  3. Chi-Squared Test Шаблон:Wayback Table B.2. Dr. Jacqueline S. McLaughlin at The Pennsylvania State University. Этот источник, в свою очередь, ссылается на: R. A. Fisher and F. Yates, Statistical Tables for Biological Agricultural and Medical Research, 6th ed., Table IV. Два значения были исправлены, 7,82 на 7,81 и 4,60 на 4,61.
  4. Шаблон:Cite web
  5. Шаблон:Cite web