Байесовская линейная регрессия

Шаблон:Байесовская статистика Байесовская линейная регрессия — это подход в линейной регрессии, в котором статистический анализ проводится в контексте байесовского вывода: когда регрессионная модель имеет Шаблон:Не переведено 5, имеющие нормальное распределение, и, если принимается определённая форма априорного распределения, доступны явные результаты для апостериорных распределений вероятностей параметров модели.

Конфигурация модели

Рассмотрим стандартную задачу линейной регрессии, в которой для $i = 1, ..., n$ мы указываем среднее условное распределение величины $y_{i}$ для заданного вектора $k \times 1$ предсказаний $𝐱_{i}$ :

y_{i} = 𝐱_{i}^{T} 𝜷 + ϵ_{i},

где $𝜷$ является $k \times 1$ вектором, а $ϵ_{i}$ являются независимыми и одинаково распределёнными нормально случайными величинами:

ϵ_{i} \sim N (0, σ^{2}) .

Это соответствует следующей функции правдоподобия:

ρ (𝐲 | 𝐗, 𝜷, σ^{2}) \propto (σ^{2})^{- n / 2} e^{- \frac{1}{2 σ^{2}} (𝐲 - 𝐗 𝜷)^{T} (𝐲 - 𝐗 𝜷)} .

Решение обычного метода наименьших квадратов является оценкой вектора коэффициентов с помощью псевдообратной матрицы Мура — Пенроуза:

\hat{𝜷} = (𝐗^{T} 𝐗)^{- 1} 𝐗^{T} 𝐲

где $𝐗$ является $n \times k$ Шаблон:Не переведено 5, каждая строка которой является вектором предсказаний $𝐱_{i}^{T}$ , а $𝐲$ является вектор-столбцом r $[y_{1} \dots y_{n}]^{T}$ .

Это является Шаблон:Не переведено 5 подходом, и предполагается, что существует достаточно измерений для того, чтобы сказать что-то осмысленное о $𝜷$ . В байесовском подходе данные сопровождаются дополнительной информацией в виде априорного распределения вероятности. Априорные убеждения о параметрах комбинируются с функцией правдоподобия данных согласно теореме Байеса для получения апостериорной уверенности о параметрах $𝜷$ и $σ$ . Априорные данные могут принимать различные формы в зависимости от области применения и информации, которая доступна a priori.

Регрессия с сопряжёнными распределениями

Сопряжённое априорное распределение

Для любого априорного распределения, может не существовать аналитического решения для апостериорного распределения. В этом разделе мы рассмотрим так называемое сопряжённое априорное распределение, для которого апостериорное распределение можно вывести аналитически.

Априорное распределение $ρ (𝜷, σ^{2})$ является сопряжённым функции правдоподобия, если оно имеет ту же функциональную форму с учётом $𝜷$ и $σ$ . Поскольку логарифмическое правдоподобие квадратично от $𝜷$ , его перепишем так, что правдоподобие становится нормальным от $(𝜷 - \hat{𝜷})$ . Запишем

\begin{matrix} (𝐲 - 𝐗 𝜷)^{T} (𝐲 - 𝐗 𝜷) & = (𝐲 - 𝐗 \hat{𝜷})^{T} (𝐲 - 𝐗 \hat{𝜷}) \\ + (𝜷 - \hat{𝜷})^{T} (𝐗^{T} 𝐗) (𝜷 - \hat{𝜷}) . \end{matrix}

Правдоподобие теперь переписывается как

\begin{matrix} ρ (𝐲 | 𝐗, 𝜷, σ^{2}) & \propto (σ^{2})^{- v / 2} e^{- \frac{v s^{2}}{2 σ^{2}}} (σ^{2})^{- (n - v) / 2} \\ \times e^{- \frac{1}{2 σ^{2}} (𝜷 - \hat{𝜷})^{T} (𝐗^{T} 𝐗) (𝜷 - \hat{𝜷})}, \end{matrix}

где

v s^{2} = (𝐲 - 𝐗 \hat{𝜷})^{T} (𝐲 - 𝐗 \hat{𝜷})

и

v = n - k

,

где $k$ является числом коэффициентов регрессии.

Это указывает на вид априорного распределения:

ρ (𝜷, σ^{2}) = ρ (σ^{2}) ρ (𝜷 | σ^{2}),

где $ρ (σ^{2})$ является Шаблон:Не переведено 5

ρ (σ^{2}) \propto (σ^{2})^{- \frac{v_{0}}{2} - 1} e^{- \frac{v_{0} s_{0}^{2}}{2 σ^{2}}} .

В обозначениях, введённых в статье Шаблон:Не переведено 5, это плотность распределения $Inv-Gamma (a_{0}, b_{0})$ с $a_{0} = \frac{v_{0}}{2}$ и $b_{0} = \frac{1}{2} v_{0} s_{0}^{2}$ , где $v_{0}$ и $s_{0}^{2}$ являются априорными значениями $v$ и $s^{2}$ соответственно. Эквивалентно, эту плотность можно описать как Шаблон:Не переведено 5 $Scale-inv- χ^{2} (v_{0}, s_{0}^{2}) .$

Далее, условная априорная плотность $ρ (𝜷 | σ^{2})$ является нормальным распределением,

ρ (𝜷 | σ^{2}) \propto (σ^{2})^{- \frac{k}{2}} e^{- \frac{1}{2 σ^{2}} (𝜷 - 𝝁_{0})^{T} 𝜦_{0} (𝜷 - 𝝁_{0})} .

В обозначениях нормального распределения условное априорное распределение равно $𝒩 (𝝁_{0}, σ^{2} 𝜦_{0}^{- 1}) .$

Апостериорное распределение

При указанном априорным распределении апостериорное распределение можно выразить как

ρ (𝜷, σ^{2} | 𝐲, 𝐗) \propto ρ (𝐲 | 𝐗, 𝜷, σ^{2}) ρ (𝜷 | σ^{2}) ρ (σ^{2})

\propto (σ^{2})^{- n / 2} e^{- \frac{1}{2 σ^{2}} (𝐲 - 𝐗 𝜷)^{T} (𝐲 - 𝐗 𝜷)}

\times (σ^{2})^{- k / 2} e^{- \frac{1}{2 σ^{2}} (𝜷 - 𝝁_{0})^{T} 𝜦_{0} (𝜷 - 𝝁_{0})}

\times (σ^{2})^{- (a_{0} + 1)} e^{- \frac{b_{0}}{σ^{2}}} .

После некоторых преобразований^[1] апостериорная вероятность может быть переписана так, что апостериорное среднее $𝝁_{n}$ вектора параметров $𝜷$ может быть выражено в терминах оценки по методу наименьших квадратов $\hat{𝜷}$ и априорного среднего $𝝁_{0}$ , где поддержка априорной вероятности выражается матрицей априорной точности $𝜦_{0}$

𝝁_{n} = (𝐗^{T} 𝐗 + 𝜦_{0})^{- 1} (𝐗^{T} 𝐗 \hat{𝜷} + 𝜦_{0} 𝝁_{0}) .

Для подтверждения, что $𝝁_{n}$ в действительности является апостериорным средним, квадратичные члены в экспоненте можно преобразовать к Шаблон:Не переведено 5 от $𝜷 - 𝝁_{n}$ ^[2].

(𝐲 - 𝐗 𝜷)^{T} (𝐲 - 𝐗 𝜷) + (𝜷 - 𝝁_{0})^{T} 𝜦_{0} (𝜷 - 𝝁_{0}) =

(𝜷 - 𝝁_{n})^{T} (𝐗^{T} 𝐗 + 𝜦_{0}) (𝜷 - 𝝁_{n}) + 𝐲^{T} 𝐲 - 𝝁_{n}^{T} (𝐗^{T} 𝐗 + 𝜦_{0}) 𝝁_{n} + 𝝁_{0}^{T} 𝜦_{0} 𝝁_{0} .

Теперь апостериорное распределение можно выразить как нормальное распределение, умноженное на Шаблон:Не переведено 5:

ρ (𝜷, σ^{2} | 𝐲, 𝐗) \propto (σ^{2})^{- \frac{k}{2}} e^{- \frac{1}{2 σ^{2}} (𝜷 - 𝝁_{n})^{T} (𝐗^{T} 𝐗 + 𝜦_{0}) (𝜷 - 𝝁_{n})}

\times (σ^{2})^{- \frac{n + 2 a_{0}}{2} - 1} e^{- \frac{2 b_{0} + 𝐲^{T} 𝐲 - 𝝁_{n}^{T} (𝐗^{T} 𝐗 + 𝜦_{0}) 𝝁_{n} + 𝝁_{0}^{T} 𝜦_{0} 𝝁_{0}}{2 σ^{2}}} .

Поэтому апостериорное распределение можно параметризовать следующим образом.

ρ (𝜷, σ^{2} | 𝐲, 𝐗) \propto ρ (𝜷 | σ^{2}, 𝐲, 𝐗) ρ (σ^{2} | 𝐲, 𝐗),

где два множителя соответствуют плотностям распределений $𝒩 (𝝁_{n}, σ^{2} 𝜦_{n}^{- 1})$ и $Inv-Gamma (a_{n}, b_{n})$ с параметрами, задаваемыми выражениями

𝜦_{n} = (𝐗^{T} 𝐗 + 𝜦_{0}), 𝝁_{n} = (𝜦_{n})^{- 1} (𝐗^{T} 𝐗 \hat{𝜷} + 𝜦_{0} 𝝁_{0}),

a_{n} = a_{0} + \frac{n}{2}, b_{n} = b_{0} + \frac{1}{2} (𝐲^{T} 𝐲 + 𝝁_{0}^{T} 𝜦_{0} 𝝁_{0} - 𝝁_{n}^{T} 𝜦_{n} 𝝁_{n}) .

Это можно интерпретировать как байесовское обучение, в котором параметры обновляются согласно следующим равенствам

𝝁_{n} = (𝐗^{T} 𝐗 + 𝜦_{0})^{- 1} (𝜦_{0} 𝝁_{0} + 𝐗^{T} 𝐗 \hat{𝜷}) = (𝐗^{T} 𝐗 + 𝜦_{0})^{- 1} (𝜦_{0} 𝝁_{0} + 𝐗^{T} 𝐲),

𝜦_{n} = (𝐗^{T} 𝐗 + 𝜦_{0}),

a_{n} = a_{0} + \frac{n}{2},

b_{n} = b_{0} + \frac{1}{2} (𝐲^{T} 𝐲 + 𝝁_{0}^{T} 𝜦_{0} 𝝁_{0} - 𝝁_{n}^{T} 𝜦_{n} 𝝁_{n}) .

Обоснованность модели

Обоснованность модели $p (𝐲 | m)$ — это вероятность данных для данной модели $m$ . Она известна также как предельное правдоподобие и как априорная предсказательная плотность. Здесь модель определяется функцией правдоподобия $p (𝐲 | 𝐗, 𝜷, σ)$ и априорным распределением параметров, то есть, $p (𝜷, σ)$ . Обоснованность модели фиксируется одним числом, показывающим, насколько хорошо такая модель объясняет наблюдения. Обоснованность модели байесовской линейной регрессии, представленная в этом разделе, может быть использована для сравнения конкурирующих линейных моделей путём байесовского сравнения моделей. Эти модели могут отличаться числом и значениями предсказывающих переменных, как и их априорными значениями в параметрах модели. Сложность модели принимается во внимание обоснованностью модели, поскольку она исключает параметры путём интегрирования $p (𝐲, 𝜷, σ | 𝐗)$ по всем возможным значениям $𝜷$ и $σ$ .

p (𝐲 | m) = \int p (𝐲 | 𝐗, 𝜷, σ) p (𝜷, σ) d 𝜷 d σ

Этот интеграл можно вычислить аналитически и решение задаётся следующим равенством^[3]

p (𝐲 | m) = \frac{1}{(2 π)^{n / 2}} \sqrt{\frac{\det (𝜦_{0})}{\det (𝜦_{n})}} \cdot \frac{b_{0}^{a_{0}}}{b_{n}^{a_{n}}} \cdot \frac{Γ (a_{n})}{Γ (a_{0})}

Здесь $Γ$ означает гамма-функцию. Поскольку мы выбрали сопряжённое априорное распределение, предельное правдоподобие может быть легко вычислено путём решения следующего равенства для произвольных значений $𝜷$ и $σ$ .

p (𝐲 | m) = \frac{p (𝜷, σ | m) p (𝐲 | 𝐗, 𝜷, σ, m)}{p (𝜷, σ | 𝐲, 𝐗, m)}

Заметим, что это равенство является ни чем иным, как переформулировкой теоремы Байеса. Подстановка формулы для априорной вероятности, правдоподобия и апостериорной вероятности и упрощения получающегося выражения приводит к аналитическому выражению, приведённому выше.

Другие случаи

В общем случае может оказаться невозможным или нецелесообразным получать апостериорное распределение аналитически. Однако можно аппроксимировать апостериорную вероятность методом Шаблон:Не переведено 5, таким как выборка по методу Монте-Карло^[4] или Шаблон:Не переведено 5.

Частный случай $𝝁_{0} = 0, 𝜦_{0} = c 𝐄$ называется гребневой регрессией.

Аналогичный анализ можно провести для общего случая множественной регрессии и частично для байесовской Шаблон:Не переведено 5 — см. Шаблон:Не переведено 5.

См. также

Примечания

Шаблон:Примечания

Литература

Шаблон:Книга
Шаблон:Книга
Шаблон:Книга
Шаблон:Статья
Шаблон:Статья
Шаблон:Книга
Шаблон:Книга
Minka, Thomas P. (2001) Bayesian Linear Regression Шаблон:Wayback, Microsoft research web page
Шаблон:Книга
Шаблон:Книга
Шаблон:Книга
Шаблон:Статья

Программное обеспечение

Python
- Bayesian Type-II Linear Regression code, tutorial Шаблон:Wayback
- ARD Linear Regression code Шаблон:Wayback
- ARD Linear Regression with kernelized features code Шаблон:Wayback, tutorial Шаблон:Wayback

Шаблон:Навигационная таблица Шаблон:Rq

↑ Промежуточные выкладки можно найти в книге O’Hagan (1994) в начале главы по линейным моделям.
↑ Промежуточные выкладки можно найти в книге Fahrmeir и др. (2009 на стр. 188.
↑ Промежуточные выкладки можно найти в книге O’Hagan (1994) на странице 257.
↑ Карлин и Луи (Carlin, Louis, 2008) и Гельман с соавторами (Gelman, et al., 2003) объяснили как использовать методы выборочных наблюдений для байесовской линейной регрессии.

[1] Промежуточные выкладки можно найти в книге O’Hagan (1994) в начале главы по линейным моделям.

[2] Промежуточные выкладки можно найти в книге Fahrmeir и др. (2009 на стр. 188.

[3] Промежуточные выкладки можно найти в книге O’Hagan (1994) на странице 257.

[4] Карлин и Луи (Carlin, Louis, 2008) и Гельман с соавторами (Gelman, et al., 2003) объяснили как использовать методы выборочных наблюдений для байесовской линейной регрессии.

[1]

[2]

[3]

[4]

Байесовская линейная регрессия

Содержание

Конфигурация модели

Регрессия с сопряжёнными распределениями

Сопряжённое априорное распределение

Апостериорное распределение

Обоснованность модели

Другие случаи

См. также

Примечания

Литература

Программное обеспечение

Навигация

Байесовская линейная регрессия

Конфигурация модели

Регрессия с сопряжёнными распределениями

Сопряжённое априорное распределение

Апостериорное распределение

Обоснованность модели

Другие случаи

См. также

Примечания

Литература

Программное обеспечение

Навигация

Поиск