Байесовская линейная регрессия

Материал из testwiki
Версия от 08:05, 24 июля 2024; 24.19.227.195 (обсуждение) (Конфигурация модели: слова "псевдоинверсный" в русском языке нет.)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигации Перейти к поиску

Шаблон:Байесовская статистика Байесовская линейная регрессия — это подход в линейной регрессии, в котором статистический анализ проводится в контексте байесовского вывода: когда регрессионная модель имеет Шаблон:Не переведено 5, имеющие нормальное распределение, и, если принимается определённая форма априорного распределения, доступны явные результаты для апостериорных распределений вероятностей параметров модели.

Конфигурация модели

Рассмотрим стандартную задачу линейной регрессии, в которой для i=1,...,n мы указываем среднее условное распределение величины yi для заданного вектора k×1 предсказаний 𝐱i:

yi=𝐱iTβ+ϵi,

где β является k×1 вектором, а ϵi являются независимыми и одинаково распределёнными нормально случайными величинами:

ϵiN(0,σ2).

Это соответствует следующей функции правдоподобия:

ρ(𝐲|𝐗,β,σ2)(σ2)n/2e12σ2(𝐲𝐗β)T(𝐲𝐗β).

Решение обычного метода наименьших квадратов является оценкой вектора коэффициентов с помощью псевдообратной матрицы Мура — Пенроуза:

β^=(𝐗T𝐗)1𝐗T𝐲

где 𝐗 является n×k Шаблон:Не переведено 5, каждая строка которой является вектором предсказаний 𝐱iT, а 𝐲 является вектор-столбцом r [y1yn]T.

Это является Шаблон:Не переведено 5 подходом, и предполагается, что существует достаточно измерений для того, чтобы сказать что-то осмысленное о β. В байесовском подходе данные сопровождаются дополнительной информацией в виде априорного распределения вероятности. Априорные убеждения о параметрах комбинируются с функцией правдоподобия данных согласно теореме Байеса для получения апостериорной уверенности о параметрах β и σ. Априорные данные могут принимать различные формы в зависимости от области применения и информации, которая доступна a priori.

Регрессия с сопряжёнными распределениями

Сопряжённое априорное распределение

Для любого априорного распределения, может не существовать аналитического решения для апостериорного распределения. В этом разделе мы рассмотрим так называемое сопряжённое априорное распределение, для которого апостериорное распределение можно вывести аналитически.

Априорное распределение ρ(β,σ2) является сопряжённым функции правдоподобия, если оно имеет ту же функциональную форму с учётом β и σ. Поскольку логарифмическое правдоподобие квадратично от β, его перепишем так, что правдоподобие становится нормальным от (ββ^). Запишем

(𝐲𝐗β)T(𝐲𝐗β)=(𝐲𝐗β^)T(𝐲𝐗β^)+(ββ^)T(𝐗T𝐗)(ββ^).

Правдоподобие теперь переписывается как

ρ(𝐲|𝐗,β,σ2)(σ2)v/2evs22σ2(σ2)(nv)/2×e12σ2(ββ^)T(𝐗T𝐗)(ββ^),

где

vs2=(𝐲𝐗β^)T(𝐲𝐗β^) и v=nk,

где k является числом коэффициентов регрессии.

Это указывает на вид априорного распределения:

ρ(β,σ2)=ρ(σ2)ρ(β|σ2),

где ρ(σ2) является Шаблон:Не переведено 5

ρ(σ2)(σ2)v021ev0s022σ2.

В обозначениях, введённых в статье Шаблон:Не переведено 5, это плотность распределения Inv-Gamma(a0,b0) с a0=v02 и b0=12v0s02, где v0 и s02 являются априорными значениями v и s2 соответственно. Эквивалентно, эту плотность можно описать как Шаблон:Не переведено 5 Scale-inv-χ2(v0,s02).

Далее, условная априорная плотность ρ(β|σ2) является нормальным распределением,

ρ(β|σ2)(σ2)k2e12σ2(βμ0)TΛ0(βμ0).

В обозначениях нормального распределения условное априорное распределение равно 𝒩(μ0,σ2Λ01).

Апостериорное распределение

При указанном априорным распределении апостериорное распределение можно выразить как

ρ(β,σ2|𝐲,𝐗)ρ(𝐲|𝐗,β,σ2)ρ(β|σ2)ρ(σ2)
(σ2)n/2e12σ2(𝐲𝐗β)T(𝐲𝐗β)
×(σ2)k/2e12σ2(βμ0)TΛ0(βμ0)
×(σ2)(a0+1)eb0σ2.

После некоторых преобразований[1] апостериорная вероятность может быть переписана так, что апостериорное среднее μn вектора параметров β может быть выражено в терминах оценки по методу наименьших квадратов β^ и априорного среднего μ0, где поддержка априорной вероятности выражается матрицей априорной точности Λ0

μn=(𝐗T𝐗+Λ0)1(𝐗T𝐗β^+Λ0μ0).

Для подтверждения, что μn в действительности является апостериорным средним, квадратичные члены в экспоненте можно преобразовать к Шаблон:Не переведено 5 от βμn[2].

(𝐲𝐗β)T(𝐲𝐗β)+(βμ0)TΛ0(βμ0)=
(βμn)T(𝐗T𝐗+Λ0)(βμn)+𝐲T𝐲μnT(𝐗T𝐗+Λ0)μn+μ0TΛ0μ0.

Теперь апостериорное распределение можно выразить как нормальное распределение, умноженное на Шаблон:Не переведено 5:

ρ(β,σ2|𝐲,𝐗)(σ2)k2e12σ2(βμn)T(𝐗T𝐗+Λ0)(βμn)
×(σ2)n+2a021e2b0+𝐲T𝐲μnT(𝐗T𝐗+Λ0)μn+μ0TΛ0μ02σ2.

Поэтому апостериорное распределение можно параметризовать следующим образом.

ρ(β,σ2|𝐲,𝐗)ρ(β|σ2,𝐲,𝐗)ρ(σ2|𝐲,𝐗),

где два множителя соответствуют плотностям распределений 𝒩(μn,σ2Λn1) и Inv-Gamma(an,bn) с параметрами, задаваемыми выражениями

Λn=(𝐗T𝐗+Λ0),μn=(Λn)1(𝐗T𝐗β^+Λ0μ0),
an=a0+n2,bn=b0+12(𝐲T𝐲+μ0TΛ0μ0μnTΛnμn).

Это можно интерпретировать как байесовское обучение, в котором параметры обновляются согласно следующим равенствам

μn=(𝐗T𝐗+Λ0)1(Λ0μ0+𝐗T𝐗β^)=(𝐗T𝐗+Λ0)1(Λ0μ0+𝐗T𝐲),
Λn=(𝐗T𝐗+Λ0),
an=a0+n2,
bn=b0+12(𝐲T𝐲+μ0TΛ0μ0μnTΛnμn).

Обоснованность модели

Обоснованность модели p(𝐲|m) — это вероятность данных для данной модели m. Она известна также как предельное правдоподобие и как априорная предсказательная плотность. Здесь модель определяется функцией правдоподобия p(𝐲|𝐗,β,σ) и априорным распределением параметров, то есть, p(β,σ). Обоснованность модели фиксируется одним числом, показывающим, насколько хорошо такая модель объясняет наблюдения. Обоснованность модели байесовской линейной регрессии, представленная в этом разделе, может быть использована для сравнения конкурирующих линейных моделей путём байесовского сравнения моделей. Эти модели могут отличаться числом и значениями предсказывающих переменных, как и их априорными значениями в параметрах модели. Сложность модели принимается во внимание обоснованностью модели, поскольку она исключает параметры путём интегрирования p(𝐲,β,σ|𝐗) по всем возможным значениям β и σ.

p(𝐲|m)=p(𝐲|𝐗,β,σ)p(β,σ)dβdσ

Этот интеграл можно вычислить аналитически и решение задаётся следующим равенством[3]

p(𝐲|m)=1(2π)n/2det(Λ0)det(Λn)b0a0bnanΓ(an)Γ(a0)

Здесь Γ означает гамма-функцию. Поскольку мы выбрали сопряжённое априорное распределение, предельное правдоподобие может быть легко вычислено путём решения следующего равенства для произвольных значений β и σ.

p(𝐲|m)=p(β,σ|m)p(𝐲|𝐗,β,σ,m)p(β,σ|𝐲,𝐗,m)

Заметим, что это равенство является ни чем иным, как переформулировкой теоремы Байеса. Подстановка формулы для априорной вероятности, правдоподобия и апостериорной вероятности и упрощения получающегося выражения приводит к аналитическому выражению, приведённому выше.

Другие случаи

В общем случае может оказаться невозможным или нецелесообразным получать апостериорное распределение аналитически. Однако можно аппроксимировать апостериорную вероятность методом Шаблон:Не переведено 5, таким как выборка по методу Монте-Карло[4] или Шаблон:Не переведено 5.

Частный случай μ0=0,Λ0=c𝐄 называется гребневой регрессией.

Аналогичный анализ можно провести для общего случая множественной регрессии и частично для байесовской Шаблон:Не переведено 5 — см. Шаблон:Не переведено 5.

См. также

Примечания

Шаблон:Примечания

Литература

Программное обеспечение

Шаблон:Навигационная таблица Шаблон:Rq

  1. Промежуточные выкладки можно найти в книге O’Hagan (1994) в начале главы по линейным моделям.
  2. Промежуточные выкладки можно найти в книге Fahrmeir и др. (2009 на стр. 188.
  3. Промежуточные выкладки можно найти в книге O’Hagan (1994) на странице 257.
  4. Карлин и Луи (Carlin, Louis, 2008) и Гельман с соавторами (Gelman, et al., 2003) объяснили как использовать методы выборочных наблюдений для байесовской линейной регрессии.