Статистика (функция выборки)

Материал из testwiki
Версия от 20:40, 13 сентября 2024; imported>РобоСтася (ПРО:CW -> middle priority → ISBN с некорректным синтаксисом, replaced: ISBN 5-256-00264-3] → ] ISBN 5-256-00264-3)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигации Перейти к поиску

Шаблон:О Статистика — измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения элементов выборки.

Определение

Пусть задана случайная выборка xm=(x1,,xm) наблюдений xiX. Как правило, поскольку речь идёт о задачах математической статистики, распределение элементов этой выборки известно исследователю не полностью (например, содержит неизвестные числовые параметры).

Статистикой называется произвольная измеримая функция выборки T:Xm, которая не зависит от неизвестных параметров распределения.

Условие измеримости статистики означает, что эта функция является случайной величиной, то есть определены вероятности её попадания в интервалы и другие борелевские множества на прямой.

Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, то есть исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно — основывать на этом значении оценки и прочие статистические выводы.

Пример

Предположим, что имеется числовая выборка xm=(x1,x2,,xm), элементы которой имеют нормальное распределение 𝒩(a,σ). Допустим, что значение параметра a (математического ожидания) известно, то есть это некоторое конкретное число, а значение среднеквадратичного отклонения σ неизвестно (и его требуется оценить). Для этого может быть использована следующая статистика:

T=1mi=1m(xia)2.

Однако если значение параметра a также неизвестно, то данная функция не является статистикой. В этом случае её по-прежнему можно исследовать теоретически (например, доказывать, что математическое ожидание T равно σ2), однако вычислить её числовое значение нельзя, поэтому для получения непосредственных статистических выводов она не может быть использована. В этом случае оценка параметра σ строится другим способом (см. ниже).

Ниже приведены примеры некоторых часто используемых статистик. Все они предполагают, что наблюдения xi являются числовыми, X=.

В последние годы активно развивается также статистика объектов нечисловой природы.

Статистики, используемые для оценки моментов (выборочные моменты)

  • Выборочное среднее:
    x¯=1mi=1mxi.
  • Выборочная дисперсия:
    s2=sm2=1mi=1m(xix¯)2.
  • Несмещённая оценка дисперсии:
    s2=sm2=1m1i=1m(xix¯)2.
  • Выборочный момент k-го порядка (выборочное среднее — момент первого порядка):
    Mk=1mi=1mxik.
  • Выборочный центральный момент k-го порядка (выборочная дисперсия — центральный момент второго порядка):
    Mk=1mi=1m(xix¯)k.
  • Несмещённые оценки центральных моментов:
    M2=mm1M2;
    M3=m2(m1)(m2)M3;
    M4=m(m22m+3)M4+3m(2m3)M22(m1)(m2)(m3).

Выборочный коэффициент асимметрии

Выборочный коэффициент асимметрии:

γ1=M3M23/2=m(m1)m2(M3M23/2).

Если плотность распределения симметрична, то γ1=0. Если левый хвост распределения «тяжелее», то γ1>0, если «тяжелее» правый хвост — то γ1<0.

Выборочный коэффициент асимметрии используется для проверки распределения на симметричность, а также для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Выборочный коэффициент эксцесса

Выборочный коэффициент эксцесса:

γ2=M4M223=m21(m2)(m3)(M4M223+6m+1).

Нормальное распределение имеет нулевой эксцесс: γ2=0.

Если хвосты распределения «легче», а пик «острее», чем у нормального распределения, то γ2>0.

Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то γ2<0.

Выборочный коэффициент эксцесса часто используется для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Статистики, связанные с эмпирическим распределением

Эмпирическое распределение случайной величины x, построенное по случайной выборке xm, есть функция:

Fm(x)=1mi=1m[xi<x].

При любом фиксированном a значение Fm(a) можно рассматривать как статистику.

Порядковые статистики

Шаблон:Main

Порядковые статистики основаны на вычислении вариационного ряда, который получается из исходной выборки xm=(x1,,xm) путём упорядочивания её элементов по возрастанию:

x(1)x(2)x(m).

Значение x(k) называется k-й порядковой статистикой.

  • Выборочный λ-квантиль при 0<λ<1:
    x(mλ+1).
  • Размах выборки:
    Δ=x(m)x(1).
  • Выборочная медиана:
    μ={12(x(k)+x(k+1)),m=2k;x(k+1),m=2k+1.

Ранговые статистики

Шаблон:Main

Значение ri называется рангом элемента выборки xi, если xi=x(ri).

Ранговой статистикой называется любая статистика, которая является функцией от рангов элементов ri, а не от их значений xi. Переход от значений к их рангам позволяет строить непараметрические статистические критерии, которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем параметрические статистические критерии.

Средний ранг

Аналогом выборочного среднего является средний ранг:

R=1mi=1mri.

Линейные ранговые статистики

Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при m. Линейная ранговая статистика в общем случае имеет вид:

T=i=1ma(i,ri),

где a(i,j) — произвольная заданная числовая матрица размера m×m.

Литература

Ссылки

Шаблон:Rq