Достаточная статистика

Материал из testwiki
Перейти к навигации Перейти к поиску

Достаточная статистика для параметра θΘ, определяющая некоторое семейство Fθ распределений вероятности — статистика T=T(X) такая, что условная вероятность выборки X=X1,X2,,Xn при данном значении T(X) не зависит от параметра θ. То есть выполняется равенство:

(XX¯|T(X)=t,θ)=(XX¯|T(X)=t),

Достаточная статистика T(X), таким образом, содержит в себе всю информацию о параметре θ, которая может быть получена на основе выборки X. Поэтому понятие достаточной статистики широко используется в теории оценки параметров.

Наиболее простой достаточной статистикой является сама выборка T(X)=X, однако действительно важными являются случаи, когда размерность достаточной статистики значительно меньше размерности выборки, в частности, когда достаточная статистика выражается лишь несколькими числами.

Достаточная статистика S=S(X) называется минимально достаточной, если для каждой достаточной статистики T существует неслучайная измеримая функция g, что S(X)=g(T(X)) почти всюду.

Теорема факторизации

Теорема факторизации даёт способ практического нахождения достаточной статистики для распределения вероятности. Она даёт достаточные и необходимые условия достаточности статистики и утверждение теорем иногда используется в качестве определения.

Пусть T(X) — некоторая статистика, а fθ(x) — условная функция плотности или функция вероятности (в зависимости от вида распределения) для вектора наблюдений X. Тогда T(X) является достаточной статистикой для параметра θΘ, тогда и только тогда, когда существуют такие измеримые функции h и g, что можно записать:

fθ(x)=h(x)g(θ,T(x))

Доказательство

Ниже приведено доказательство для частного случая, когда распределение вероятностей является дискретным. Тогда fθ(x)=(X=x|θ) — Функция вероятности.

Пусть данная функция имеет факторизацию, как в формулировке теоремы, и T(x)=t.

Тогда имеем:

(X=x|T(X)=t,θ)=(X=x|θ)(T(X)=t|θ)=h(x)g(θ,T(x))x:T(x)=th(x)g(θ,T(x))=h(x)g(θ,t)x:T(x)=th(x)g(θ,t)=h(x)x:T(x)=th(x).

Отсюда видим, что условная вероятность вектора X при заданном значении статистики T(X) не зависит от параметра и соответственно T(X) — достаточная статистика.

Наоборот можем записать:

(X=x|θ)=(X=x|T(X)=t,θ)(T(X)=t|θ).

Из приведённого выше имеем, что первый множитель правой части не зависит от параметра θ и его можно взять за функцию h(x) из формулировки теоремы. Другой множитель является функцией от θ и T(X), и его можно взять за функцию g(θ,T(x)). Таким образом, получена необходимая декомпозиция, что завершает доказательство теоремы.

Примеры

Распределение Бернулли

Пусть X1,X2,,Xn — последовательность случайных величин, что равны 1 с вероятностью p и равны 0 с вероятностью 1p (то есть, имеют распределение Бернулли). Тогда

(x1,xn|p)=pxi(1p)nxi=pT(x)(1p)nT(x),

если взять T(X)=X1++Xn.

Тогда данная статистика является достаточной согласно теореме факторизации, если обозначить

g(p,T(x1,xn))=pT(x1,xn)(1p)nT(x1,xn),
h(x1,xn)=1.

Распределение Пуассона

Пусть X1,X2,,Xn — последовательность случайных величин с распределением Пуассона. Тогда

(x1,xn|λ)=eλλx1x1!eλλx2x2!eλλxnxn!=enλλ(x1+x2++xn)1x1!x2!xn!=enλλT(x)1x1!x2!xn!


где T(X)=X1++Xn.

Данная статистика является достаточной согласно теореме факторизации, если обозначить

g(λ,T(x1,xn))=enλλT(x)
h(x1,xn)=1x1!x2!xn!

Равномерное распределение

Пусть X1,X2,,Xn — последовательность равномерно распределённых случайных величин X1,X2,,XnU(a,b) . Для этого случая

(x1,xn|a,b)=(ba)n𝟏{amin1inXi}𝟏{max1inXib}.

Отсюда следует, что статистика T(X)=(min1inXi,max1inXi) является достаточной.

Нормальное распределение

Для случайных величин X1,X2,,Xn с нормальным распределением 𝒩(μ,σ2) достаточной статистикой будет T(X)=(i=1nXi,i=1nXi2).

Свойства

  • Для достаточной статистики T и биективного отображения ϕ статистика ϕ(T) тоже является достаточной.
  • Если δ(X) — статистическая оценка некоторого параметра θ, T(X), — некоторая достаточная статистика и δ1(X)=E[δ(X)|T(X)] то δ1(X) является лучшей оценкой параметра в смысле среднеквадратичного отклонения, то есть выполняется неравенство
E[(δ1(X)θ)2]E[(δ(X)θ)2]
причём равенство достигается лишь когда δ является измеримой функцией от T. (Теорема Рао — Блэквелла — Колмогорова)
  • Из предыдущего получается, что оценка может быть оптимальной в смысле среднеквадратичного отклонения лишь когда она является измеримой функцией минимальной достаточной статистики.
  • Если статистика T=T(X), является достаточной и полной (то есть, из того, что Eθ[g(T(X))]=0,θΘ следует, что Pθ(g(T(X))=0)=1θΘ), то произвольная измеримая функция от неё является оптимальной оценкой своего математического ожидания.

См. также

Литература

Шаблон:Вс