Байесовская линейная регрессия

Материал из testwiki
Перейти к навигации Перейти к поиску

Шаблон:Байесовская статистика Байесовская линейная регрессия — это подход в линейной регрессии, в котором статистический анализ проводится в контексте байесовского вывода: когда регрессионная модель имеет Шаблон:Не переведено 5, имеющие нормальное распределение, и, если принимается определённая форма априорного распределения, доступны явные результаты для апостериорных распределений вероятностей параметров модели.

Конфигурация модели

Рассмотрим стандартную задачу линейной регрессии, в которой для i=1,...,n мы указываем среднее условное распределение величины yi для заданного вектора k×1 предсказаний 𝐱i:

yi=𝐱iT𝜷+ϵi,

где 𝜷 является k×1 вектором, а ϵi являются независимыми и одинаково распределёнными нормально случайными величинами:

ϵiN(0,σ2).

Это соответствует следующей функции правдоподобия:

ρ(𝐲|𝐗,𝜷,σ2)(σ2)n/2e12σ2(𝐲𝐗𝜷)T(𝐲𝐗𝜷).

Решение обычного метода наименьших квадратов является оценкой вектора коэффициентов с помощью псевдообратной матрицы Мура — Пенроуза:

𝜷^=(𝐗T𝐗)1𝐗T𝐲

где 𝐗 является n×k Шаблон:Не переведено 5, каждая строка которой является вектором предсказаний 𝐱iT, а 𝐲 является вектор-столбцом r [y1yn]T.

Это является Шаблон:Не переведено 5 подходом, и предполагается, что существует достаточно измерений для того, чтобы сказать что-то осмысленное о 𝜷. В байесовском подходе данные сопровождаются дополнительной информацией в виде априорного распределения вероятности. Априорные убеждения о параметрах комбинируются с функцией правдоподобия данных согласно теореме Байеса для получения апостериорной уверенности о параметрах 𝜷 и σ. Априорные данные могут принимать различные формы в зависимости от области применения и информации, которая доступна a priori.

Регрессия с сопряжёнными распределениями

Сопряжённое априорное распределение

Для любого априорного распределения, может не существовать аналитического решения для апостериорного распределения. В этом разделе мы рассмотрим так называемое сопряжённое априорное распределение, для которого апостериорное распределение можно вывести аналитически.

Априорное распределение ρ(𝜷,σ2) является сопряжённым функции правдоподобия, если оно имеет ту же функциональную форму с учётом 𝜷 и σ. Поскольку логарифмическое правдоподобие квадратично от 𝜷, его перепишем так, что правдоподобие становится нормальным от (𝜷𝜷^). Запишем

(𝐲𝐗𝜷)T(𝐲𝐗𝜷)=(𝐲𝐗𝜷^)T(𝐲𝐗𝜷^)+(𝜷𝜷^)T(𝐗T𝐗)(𝜷𝜷^).

Правдоподобие теперь переписывается как

ρ(𝐲|𝐗,𝜷,σ2)(σ2)v/2evs22σ2(σ2)(nv)/2×e12σ2(𝜷𝜷^)T(𝐗T𝐗)(𝜷𝜷^),

где

vs2=(𝐲𝐗𝜷^)T(𝐲𝐗𝜷^) и v=nk,

где k является числом коэффициентов регрессии.

Это указывает на вид априорного распределения:

ρ(𝜷,σ2)=ρ(σ2)ρ(𝜷|σ2),

где ρ(σ2) является Шаблон:Не переведено 5

ρ(σ2)(σ2)v021ev0s022σ2.

В обозначениях, введённых в статье Шаблон:Не переведено 5, это плотность распределения Inv-Gamma(a0,b0) с a0=v02 и b0=12v0s02, где v0 и s02 являются априорными значениями v и s2 соответственно. Эквивалентно, эту плотность можно описать как Шаблон:Не переведено 5 Scale-inv-χ2(v0,s02).

Далее, условная априорная плотность ρ(𝜷|σ2) является нормальным распределением,

ρ(𝜷|σ2)(σ2)k2e12σ2(𝜷𝝁0)T𝜦0(𝜷𝝁0).

В обозначениях нормального распределения условное априорное распределение равно 𝒩(𝝁0,σ2𝜦01).

Апостериорное распределение

При указанном априорным распределении апостериорное распределение можно выразить как

ρ(𝜷,σ2|𝐲,𝐗)ρ(𝐲|𝐗,𝜷,σ2)ρ(𝜷|σ2)ρ(σ2)
(σ2)n/2e12σ2(𝐲𝐗𝜷)T(𝐲𝐗𝜷)
×(σ2)k/2e12σ2(𝜷𝝁0)T𝜦0(𝜷𝝁0)
×(σ2)(a0+1)eb0σ2.

После некоторых преобразований[1] апостериорная вероятность может быть переписана так, что апостериорное среднее 𝝁n вектора параметров 𝜷 может быть выражено в терминах оценки по методу наименьших квадратов 𝜷^ и априорного среднего 𝝁0, где поддержка априорной вероятности выражается матрицей априорной точности 𝜦0

𝝁n=(𝐗T𝐗+𝜦0)1(𝐗T𝐗𝜷^+𝜦0𝝁0).

Для подтверждения, что 𝝁n в действительности является апостериорным средним, квадратичные члены в экспоненте можно преобразовать к Шаблон:Не переведено 5 от 𝜷𝝁n[2].

(𝐲𝐗𝜷)T(𝐲𝐗𝜷)+(𝜷𝝁0)T𝜦0(𝜷𝝁0)=
(𝜷𝝁n)T(𝐗T𝐗+𝜦0)(𝜷𝝁n)+𝐲T𝐲𝝁nT(𝐗T𝐗+𝜦0)𝝁n+𝝁0T𝜦0𝝁0.

Теперь апостериорное распределение можно выразить как нормальное распределение, умноженное на Шаблон:Не переведено 5:

ρ(𝜷,σ2|𝐲,𝐗)(σ2)k2e12σ2(𝜷𝝁n)T(𝐗T𝐗+𝜦0)(𝜷𝝁n)
×(σ2)n+2a021e2b0+𝐲T𝐲𝝁nT(𝐗T𝐗+𝜦0)𝝁n+𝝁0T𝜦0𝝁02σ2.

Поэтому апостериорное распределение можно параметризовать следующим образом.

ρ(𝜷,σ2|𝐲,𝐗)ρ(𝜷|σ2,𝐲,𝐗)ρ(σ2|𝐲,𝐗),

где два множителя соответствуют плотностям распределений 𝒩(𝝁n,σ2𝜦n1) и Inv-Gamma(an,bn) с параметрами, задаваемыми выражениями

𝜦n=(𝐗T𝐗+𝜦0),𝝁n=(𝜦n)1(𝐗T𝐗𝜷^+𝜦0𝝁0),
an=a0+n2,bn=b0+12(𝐲T𝐲+𝝁0T𝜦0𝝁0𝝁nT𝜦n𝝁n).

Это можно интерпретировать как байесовское обучение, в котором параметры обновляются согласно следующим равенствам

𝝁n=(𝐗T𝐗+𝜦0)1(𝜦0𝝁0+𝐗T𝐗𝜷^)=(𝐗T𝐗+𝜦0)1(𝜦0𝝁0+𝐗T𝐲),
𝜦n=(𝐗T𝐗+𝜦0),
an=a0+n2,
bn=b0+12(𝐲T𝐲+𝝁0T𝜦0𝝁0𝝁nT𝜦n𝝁n).

Обоснованность модели

Обоснованность модели p(𝐲|m) — это вероятность данных для данной модели m. Она известна также как предельное правдоподобие и как априорная предсказательная плотность. Здесь модель определяется функцией правдоподобия p(𝐲|𝐗,𝜷,σ) и априорным распределением параметров, то есть, p(𝜷,σ). Обоснованность модели фиксируется одним числом, показывающим, насколько хорошо такая модель объясняет наблюдения. Обоснованность модели байесовской линейной регрессии, представленная в этом разделе, может быть использована для сравнения конкурирующих линейных моделей путём байесовского сравнения моделей. Эти модели могут отличаться числом и значениями предсказывающих переменных, как и их априорными значениями в параметрах модели. Сложность модели принимается во внимание обоснованностью модели, поскольку она исключает параметры путём интегрирования p(𝐲,𝜷,σ|𝐗) по всем возможным значениям 𝜷 и σ.

p(𝐲|m)=p(𝐲|𝐗,𝜷,σ)p(𝜷,σ)d𝜷dσ

Этот интеграл можно вычислить аналитически и решение задаётся следующим равенством[3]

p(𝐲|m)=1(2π)n/2det(𝜦0)det(𝜦n)b0a0bnanΓ(an)Γ(a0)

Здесь Γ означает гамма-функцию. Поскольку мы выбрали сопряжённое априорное распределение, предельное правдоподобие может быть легко вычислено путём решения следующего равенства для произвольных значений 𝜷 и σ.

p(𝐲|m)=p(𝜷,σ|m)p(𝐲|𝐗,𝜷,σ,m)p(𝜷,σ|𝐲,𝐗,m)

Заметим, что это равенство является ни чем иным, как переформулировкой теоремы Байеса. Подстановка формулы для априорной вероятности, правдоподобия и апостериорной вероятности и упрощения получающегося выражения приводит к аналитическому выражению, приведённому выше.

Другие случаи

В общем случае может оказаться невозможным или нецелесообразным получать апостериорное распределение аналитически. Однако можно аппроксимировать апостериорную вероятность методом Шаблон:Не переведено 5, таким как выборка по методу Монте-Карло[4] или Шаблон:Не переведено 5.

Частный случай 𝝁0=0,𝜦0=c𝐄 называется гребневой регрессией.

Аналогичный анализ можно провести для общего случая множественной регрессии и частично для байесовской Шаблон:Не переведено 5 — см. Шаблон:Не переведено 5.

См. также

Примечания

Шаблон:Примечания

Литература

Программное обеспечение

Шаблон:Навигационная таблица Шаблон:Rq

  1. Промежуточные выкладки можно найти в книге O’Hagan (1994) в начале главы по линейным моделям.
  2. Промежуточные выкладки можно найти в книге Fahrmeir и др. (2009 на стр. 188.
  3. Промежуточные выкладки можно найти в книге O’Hagan (1994) на странице 257.
  4. Карлин и Луи (Carlin, Louis, 2008) и Гельман с соавторами (Gelman, et al., 2003) объяснили как использовать методы выборочных наблюдений для байесовской линейной регрессии.