Бутстрэп (статистика)

Материал из testwiki
Перейти к навигации Перейти к поиску

Шаблон:Otheruses Бутстрэп[1] (Шаблон:Lang-en) в статистике — практический компьютерный метод исследования распределения статистик вероятностных распределений, основанный на многократной генерации выборок методом Монте-Карло на базе имеющейся выборки[2]. Позволяет просто и быстро оценивать самые разные статистики (доверительные интервалы, дисперсию, корреляцию и так далее) для сложных моделей.

Понятие введено в 1977 году Брэдли Эфроном (первая публикация относится к 1979 годуШаблон:Sfn). Суть метода состоит в том, чтобы по имеющейся выборке построить эмпирическое распределение. Используя это распределение как теоретическое распределение вероятностей, можно с помощью датчика псевдослучайных чисел сгенерировать практически неограниченное количество псевдовыборок произвольного размера, например, того же, как у исходной. На множестве псевдовыборок можно оценить не только анализируемые статистические характеристики, но и изучить их вероятностные распределения. Таким образом, например, оказывается возможным оценить дисперсию или квантили любой статистики независимо от её сложности. Данный метод является методом непараметрической статистики.

Наряду с методами «складного ножа», перекрёстной проверки и Шаблон:Не переведено 2 составляет класс методов Шаблон:Не переведено 2.

Этимология

У стоящего ботинка виден торчащий ремешок (Шаблон:Lang-en)

Слово происходит от выражения: «To pull oneself over a fence by one’s bootstraps.» (дословно — «перебраться через ограду, потянув за ремешки на ботинках» (см. фото справа). Для русскоязычных людей ближе будет история барона Мюнхгаузена, который, потянув себя за волосы, вытащил себя и свою лошадь из болота.

Сам англицизм «бутстрап» используется во многих областях знаний, где нужно передать смысл того, что вы получаете что-то «бесплатно» или магическим образом из ничего получаете нечто стоящее. В области статистики ближайший по этимологии аналог термина — «самовытягивание».

Вводный пример

Пусть имеется два наблюдения:

(x1,y1)=(1,1), (x2,y2)=(2,3)

Предположим, что нам необходимо оценить параметр в регрессии y на x:

yi=θxi+ϵi

Оценка параметра, полученная методом наименьших квадратов, будет равна

θ^=x1y1+x2y2x12+x22=1×1+2×312+22=75

Эмпирическая функция распределения при этом равна

(x,y)={(1,1),p=1/2(2,3),p=1/2

При этом данные из двух наблюдений относительно эмпирического распределения будут распределены так:

(x1,y1),(x2,y2)={(1,1),(1,1),p=1/4(1,1),(2,3),p=1/4(2,3),(1,1),p=1/4(2,3),(2,3),p=1/4

Это и есть бутстрэповское распределение. Далее можем найти распределение МНК-оценки:

θ^2*={1,p=1/47/5,p=1/23/2,p=1/4

Применение

Бутстрэп используется для корректировки смещения, тестирования гипотез, построения доверительных интервалов.

Бутстрэповский доверительный интервал: алгоритм

Пусть дана выборка (z1;z2;;zn) из генеральной совокупности, и требуется оценить параметр θ. Необходимо выбрать количество B псевдовыборок, которые будут формироваться из элементов исходной выборки с возвращением. Для каждой из псевдовыборок (z1*;z2*;;zn*)b,b=1,2,,B вычисляется псевдостатистика θ^b*.

Псевдостатистики θ^1*,θ^2*,,θ^B* сортируются от меньшей к большей. Квантилями qα1*,q1α2* принимаются значения θ^[Bα1]*,θ^[B(1α2)+1]*. С их помощью строится доверительный интервал.

Примечания

Шаблон:Примечания

Литература

Ссылки

Шаблон:Вс

  1. Также бутстрап, бутстреп, бутстрэппинг, бутстрапирование.
  2. Шаблон:Cite web