Критерий Краскела — Уоллиса

Материал из testwiki
Перейти к навигации Перейти к поиску

Критерий Краскела — Уоллиса предназначен для проверки равенства медиан нескольких выборок. Данный критерий является многомерным обобщением критерия Уилкоксона — Манна — Уитни. Критерий Краскела — Уоллиса является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.

Известен также под названиями: H-критерий Краскела — Уоллиса, однофакторный дисперсионный анализ Краскела — Уоллиса (Шаблон:Lang-en), тест Крускала — Уоллиса (Шаблон:Lang-en). Назван в честь американских математиков Уильяма Краскела и Аллена Уоллиса.

Примеры задач

Проходит чемпионат мира по футболу. Первая выборка — опрос болельщиков с вопросом «Каковы шансы на победу сборной России?» до начала чемпионата. Вторая выборка — после первой игры, третья — после второго матча и т. д. Значения в выборках — шансы России на победу по десятибалльной шкале (1 — «никаких перспектив», 10 — «отвезти в Россию кубок — дело времени»). Требуется проверить, зависят ли результаты опросов от хода чемпионата.

Описание критерия

Заданы k выборок:

x1n1={x11,,x1n1},,xknk={xk1,,xknk}.

Объединённая выборка будет иметь вид:

x=x1n1x2n2xknk.

Дополнительные предположения:

  1. все выборки простые, объединённая выборка независима;
  2. выборки взяты из неизвестных непрерывных распределений F1(x),,Fk(x).

Проверяется нулевая гипотеза H0:F1(x)==Fk(x) при альтернативе H1:F1(x)=F2(xΔ1)==Fk(xΔk1).

Упорядочим все N=i=1kni элементов выборок по возрастанию и обозначим Rij ранг j-го элемента i-й выборки в полученном вариационном ряду.

Статистика критерия Краскела — Уоллиса для проверки гипотезы о наличии сдвига в параметрах положения двух сравниваемых выборок имеет вид:

H=i=1k(1niN){R¯iN+12(Nni)(N+1)12ni}2=12N(N+1)i=1kni(R¯iN+12)2=
=12N(N+1)i=1kRi2ni3(N+1),

где

Ri=j=1niRij;
R¯i=1niRi.

Гипотеза сдвига отклоняется на уровне значимости α, если HHα, где Hα — критическое значение, при k5 и ni8 вычисляемое по таблицам. При бо́льших значениях применимы различные аппроксимации.

Аппроксимация Краскела — Уоллиса

Пусть

M=N3i=1kni3N(N+1);
ν1=(k1)(k1)(Mk+1)V12MV;
ν2=Mk+1k1ν1;
V=2(k1)2{3k26k+N(2k26k+1)}5N(N+1)65i=1k1ni.

Тогда статистика F=H(Mk+1)(k1)(MH) будет иметь при отсутствии сдвига F-распределение с ν1 и ν2 степенями свободы. Таким образом, нулевая гипотеза отклоняется на уровне значимости α, если F>Fα(ν1,ν2).

Аппроксимация Имана — Давенпорта

В соответствии с ней нулевая гипотеза сдвига отклоняется с достоверностью α, если JJα, где J=H2(1+NkN1H); Jα={(k1)Fα(k1;Nk)+χα2(k1)}, Fα(f1;f2) и χα2(a) — соответственно критические значения статистик Фишера и хи-квадрат с соответствующими степенями свободы.

Это более точная аппроксимация, чем аппроксимация Краскела — Уоллиса. При наличии связанных рангов (то есть когда совпадают значения величин из разных выборок и им присваиваются одинаковые средние ранги) необходимо использовать модифицированную статистику H*=H{1(j=1qTjN3N)}1, где Tj=tj3tj; tj — размер j-й группы одинаковых элементов; q — количество групп одинаковых элементов. При ni20 справедлива аппроксимация распределения статистики H; χ2-распределением с f=k1 степенями свободы, то есть нулевая гипотеза отклоняется, если Hχα2(k1).

См. также

Литература

  • Kruskal W. H., Wallis W. A. Use of ranks in one-criterion variance analysis. // Journal of the American Statistical Association. — 1952, 47 № 260. — pp. 583—621.
  • Ликеш И., Ляга Й. Основные таблицы математической статистики. — М.: Финансы и статистика, 1985.
  • Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 466—468 с.

Ссылки