Алгоритм Баума — Велша

Шаблон:Переработать Алгоритм Баума — Велша используется в информатике и статистике для нахождения неизвестных параметров скрытой марковской модели (HMM). Он использует алгоритм прямого-обратного хода и является частным случаем обобщённого EM-алгоритма.

Алгоритм Баума — Велша оценки скрытой модели Маркова

Скрытая модель Маркова — это вероятностная модель множества случайных переменных ${Y_{1}, \dots, Y_{t}, Q_{1}, \dots, Q_{t}}$ . Переменные $Y_{t}$ — известные дискретные наблюдения, а $Q_{t}$ — «скрытые» дискретные величины. В рамках скрытой модели Маркова есть два независимых утверждения, обеспечивающих сходимость данного алгоритма:

$t$ -я скрытая переменная при известной $(t - 1)$ -ой переменной независима от всех предыдущих $(t - 1)$ переменных, то есть $P (Q_{t} ∣ Q_{t - 1}, Y_{t - 1}, \dots, Q_{1}, Y_{1}) = P (Q_{t} ∣ Q_{t - 1})$ ;
$t$ -е известное наблюдение зависит только от $t$ -го состояния, то есть не зависит от времени, $P (Y_{t} ∣ Q_{t}, Q_{t - 1}, Y_{t - 1}, \dots, Q_{1}, Y_{1}) = P (Y_{t} ∣ Q_{t})$ .

Далее будет предложен алгоритм «предположений и максимизаций» для поиска максимальной вероятностной оценки параметров скрытой модели Маркова при заданном наборе наблюдений. Этот алгоритм также известен как алгоритм Баума — Велша.

$Q_{t}$ — это дискретная случайная переменная, принимающая одно из $N$ значений $(1 \dots N)$ . Будем полагать, что данная модель Маркова, определённая как $P (Q_{t} ∣ Q_{t - 1})$ , однородна по времени, то есть независима от $t$ . Тогда можно задать $P (Q_{t} ∣ Q_{t - 1})$ как независящую от времени стохастическую матрицу перемещений $A = {a_{i j}} = p (Q_{t} = j ∣ Q_{t - 1} = i)$ . Вероятности состояний в момент времени $t = 1$ определяется начальным распределением $π_{i} = P (Q_{1} = i)$ .

Будем считать, что мы в состоянии $j$ в момент времени $t$ , если $Q_{t} = j$ . Последовательность состояний выражается как $q = (q_{1}, \dots, q_{T})$ , где $q_{t} \in {1 \dots N}$ является состоянием в момент $t$ .

Наблюдение $Y_{t}$ в момент времени $t$ может иметь одно из $L$ возможных значений, $y_{t} \in {o_{1}, \dots, o_{L}}$ . Вероятность заданного вектора наблюдений в момент времени $t$ для состояния $j$ определяется как $b_{j} (o_{i}) = P (Y_{t} = o_{i} ∣ Q_{t} = j)$ ( $B = {b_{i j}}$ — это матрица $L$ на $N$ ). Последовательность наблюдений $y$ выражается как $y = (y_{1}, \dots, y_{T})$ .

Следовательно, мы можем описать скрытую модель Маркова с помощью $λ = (A, B, π)$ . При заданном векторе наблюдений $y$ алгоритм Баума — Велша находит $λ^{*} = a r g \max_{λ} P (y ∣ λ)$ . $λ^{*}$ максимизирует вероятность наблюдений $y$ .

Алгоритм

Исходные данные: $λ = (A, B, π)$ со случайными начальными условиями.

Алгоритм итеративно обновляет параметр $λ$ до схождения в одной точке.

Прямая процедура

Обозначим через $α_{i} (t) = p (Y_{1} = y_{1}, \dots, Y_{t} = y_{t}, Q_{t} = i ∣ λ)$ вероятность появления заданной последовательности $y_{1}, \dots, y_{t}$ для состояния $i$ в момент времени $t$ .

$α_{i} (t)$ можно вычислить рекурсивно:

$α_{i} (1) = π_{i} \cdot b_{i} (y_{1});$
$α_{j} (t + 1) = b_{j} (y_{t + 1}) \sum_{i = 1}^{N} α_{i} (t) \cdot a_{i j} .$

Обратная процедура

Данная процедура позволяет вычислить $β_{i} (t) = p (Y_{t + 1} = y_{t + 1}, \dots, Y_{T} = y_{T} ∣ Q_{t} = i, λ)$ вероятность конечной заданной последовательности $y_{t + 1}, \dots, y_{T}$ при условии, что мы начали из исходного состояния $i$ , в момент времени $t$ .

Можно вычислить $β_{i} (t)$ :

$β_{i} (T) = p (Y_{T} = y_{T} ∣ Q_{t} = i, λ) = 1;$
$β_{i} (t) = \sum_{j = 1}^{N} β_{j} (t + 1) a_{i j} b_{j} (y_{t + 1}) .$

Используя $α$ и $β$ можно вычислить следующие значения:

$γ_{i} (t) \equiv p (Q_{t} = i ∣ y, λ) = \frac{α_{i} (t) β_{i} (t)}{\sum_{j = 1}^{N} α_{j} (t) β_{j} (t)},$
$ξ_{i j} (t) \equiv p (Q_{t} = i, Q_{t + 1} = j ∣ y, λ) = \frac{α_{i} (t) a_{i j} β_{j} (t + 1) b_{j} (y_{t + 1})}{\sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} (t) a_{i j} β_{j} (t + 1) b_{j} (y_{t + 1})} .$

Имея $γ$ и $ξ$ , можно вычислить новые значения параметров модели:

${\bar{π}}_{i} = γ_{i} (1),$
${\bar{a}}_{i j} = \frac{\sum_{t = 1}^{T - 1} ξ_{i j} (t)}{\sum_{t = 1}^{T - 1} γ_{i} (t)},$
${\bar{b}}_{i} (o_{k}) = \frac{\sum_{t = 1}^{T} δ_{y_{t}, o_{k}} γ_{i} (t)}{\sum_{t = 1}^{T} γ_{i} (t)} .$ ,

где

δ_{y_{t}, o_{k}} = {\begin{matrix} 1 & если y_{t} = o_{k}, \\ 0 & иначе \end{matrix}

индикативная функция, и $b_{i}^{*} (o_{k})$ ожидаемое количество значений наблюдаемой величины, равных $o_{k}$ в состоянии $i$ к общему количеству состояний $i$ .

Используя новые значения $A$ , $B$ и $π$ , итерации продолжаются до схождения.

См. также

Алгоритм Витерби

Источники

Алгоритм Баума — Велша

Содержание

Алгоритм Баума — Велша оценки скрытой модели Маркова

Алгоритм

Прямая процедура

Обратная процедура

См. также

Источники

Навигация

Алгоритм Баума — Велша

Алгоритм Баума — Велша оценки скрытой модели Маркова

Алгоритм

Прямая процедура

Обратная процедура

См. также

Источники

Навигация

Поиск