Байесовская сеть

Материал из testwiki
Перейти к навигации Перейти к поиску

Байесовская сеть (или байесова сеть, байесовская сеть доверия, Шаблон:Lang-en) — графовая вероятностная модель, представляющая собой множество переменных и их вероятностных зависимостей по Байесу. Например, байесовская сеть может быть использована для вычисления вероятности того, чем болен пациент, по наличию или отсутствию ряда симптомов, основываясь на данных о зависимости между симптомами и болезнями. Математический аппарат байесовых сетей создан американским учёным Джудой Перлом, лауреатом Премии Тьюринга (2011).

Формально, байесовская сеть — это ориентированный ациклический граф, каждой вершине которого соответствует случайная переменная, а дуги графа кодируют отношения условной независимости между этими переменными. Вершины могут представлять переменные любых типов, быть взвешенными параметрами, скрытыми переменными или гипотезами. Существуют эффективные методы, которые используются для вычислений и обучения байесовских сетей. Если переменные байесовской сети являются дискретными случайными величинами, то такая сеть называется дискретной байесовской сетью. Байесовские сети, которые моделируют последовательности переменных, называют динамическими байесовскими сетями. Байесовские сети, в которых могут присутствовать как дискретные переменные, так и непрерывные, называются гибридными байесовскими сетями. Байесовская сеть, в которой дуги помимо отношений условной независимости кодируют также отношения причинности, называют причинно-следственными байесовыми сетями (Шаблон:Lang-en)[1]).

Определения и принципы работы

Если из вершины A выходит дуга в вершину B, то A называют родителем B, а B называют потомком A. Если из вершины A существует ориентированный путь в вершину B, то A называется предком B, а B называется потомком A.

Множество вершин-родителей вершины Vi обозначим как parents(Vi)=𝐏𝐀i.

Направленный ациклический граф G называется байесовской сетью для вероятностного распределения P(𝐯), заданного над множеством случайных переменных 𝐕, если каждой вершине графа поставлена в соответствие случайная переменная из 𝐕, а дуги в графе удовлетворяют условию (марковское условие[1]): любая переменная Vi из 𝐕 должна быть условно независима от всех вершин, не являющихся её потомками, если заданы (получили означивание, обусловлены) все её прямые родители 𝐏𝐀i в графе G, то есть

Vi𝐕справедливо:P(vi𝐩𝐚i,𝐬)=P(vi𝐩𝐚i),

где vi — значение Vi; 𝐬 — конфигурацияШаблон:Уточнить 𝐒; 𝐒 — множество всех вершин, не являющихся потомками Vi; 𝐩𝐚i — конфигурация 𝐏𝐀i.

Тогда полное совместное распределение значений в вершинах можно удобно записать в виде декомпозиции (произведения) локальных распределений:

P(V1,,Vn)=i=1nP(Viparents(Vi)).

Если у вершины Vi нет предков, то её локальное распределение вероятностей называют безусловным, иначе условным. Если вершина — случайная переменная получила означивание (например, в результате наблюдения), то такое означивание называют свидетельством (Шаблон:Lang-en). Если значение переменной было установлено извне (а не наблюдалось), то такое означивание называется вмешательством (Шаблон:Lang-en) или интервенцией (Шаблон:Lang-en)[1].

Условная независимость в байесовской сети представлена графическим свойством d-разделённости.

d-разделённость

Путь p называют d-разделённым (Шаблон:Lang-en), или блокированным (Шаблон:Lang-en) множеством вершин Z тогда и только тогда, когда

  1. p содержит цепь imj или разветвление imj такие, что m принадлежит Z, или
  2. p содержит инвертированное разветвление (коллайдер) imj, такое, что m не принадлежит Z и у вершины m нет потомков, которые принадлежат Z.

Пусть X,Y,Z — непересекающиеся подмножества вершин в ацикличном ориентированном графе G. Говорят, что множество вершин Z d-разделяет X и Y тогда и только тогда, когда Z блокирует все пути из любой вершины, принадлежащей X в любую вершину, принадлежащую Y, и обозначают (XYZ)G. Под путём понимается последовательность следующих друг за другом рёбер (любого направления) в графе[1].

Теорема о d-разделённости

Для любых трёх непересекающихся подмножеств вершин (X,Y,Z) в ацикличном ориентированном графе G и для всех вероятностных распределений P справедливо:

  1. если (XYZ)G, то (XYZ)P, если G и P марковски совместимы, и
  2. если отношение условной независимости (XYZ)P выполняется для всех вероятностных распределений, Марковски-совместимых с G, то из этого следует (XYZ)G.

Другими словами, если вершины d-разделены, то они условно независимы; и если вершины условно-независимы во всех вероятностных распределениях, совместимых с графом G, то они d-разделены[1].

((XYZ)P означает, что множества переменных X и Y условно-независимы при заданном множестве Z.)

Свидетельства

Свидетельства — утверждения вида «событие в узле x произошло». Например: «компьютер не загружается».

Вероятностные запросы

Байесовская сеть позволяет получить ответы на следующие типы вероятностных запросов[2]:

  • нахождение вероятности свидетельства,
  • определение априорных маргинальных вероятностей,
  • определение апостериорных маргинальных вероятностей, включая:
прогнозирование, или прямой вывод, — определение вероятности события при наблюдаемых причинах,
диагностирование, или обратный вывод (абдукция), — определение вероятности причины при наблюдаемых следствиях,
межпричинный (смешанный) вывод (Шаблон:Lang-en) или трансдукция, — определение вероятности одной из причин наступившего события при условии наступления одной или нескольких других причин этого события.

Пример

Простая байесовская сеть

Предположим, что может быть две причины, по которым трава может стать мокрой (GRASS WET): сработала дождевальная установка, либо прошёл дождь. Также предположим, что дождь влияет на работу дождевальной машины (во время дождя установка не включается). Тогда ситуация может быть смоделирована проиллюстрированной байесовской сетью. Каждая из трёх переменных может принимать лишь одно из двух возможных значений: T (правда — true) и F (ложь — false), с вероятностями, указанными в таблицах на иллюстрации.

Совместная вероятность функции:

P(G,S,R)=P(GS,R)P(SR)P(R)

где имена трёх переменных означают G = Трава мокрая (Grass wet), S = Дождевальная установка (Sprinkler), и R = Дождь (Rain).

Модель может ответить на такие вопросы как «Какова вероятность того, что прошел дождь, если трава мокрая?» используя формулу условной вероятности и суммируя переменные:

P(𝑅=T𝐺=T)=P(𝐺=T,𝑅=T)P(𝐺=T)=𝑆{T,F}P(𝐺=T,𝑆,𝑅=T)𝑆,𝑅{T,F}P(𝐺=T,𝑆,𝑅)
=(0.99×0.01×0.2=0.00198TTT)+(0.8×0.99×0.2=0.1584TFT)0.00198TTT+0.288TTF+0.1584TFT+0TFF35.77%.

Вероятностный вывод

В силу того, что байесовская сеть — это полная модель для переменных и их отношений, она может быть использована для того, чтобы давать ответы на вероятностные вопросы. Например, сеть можно использовать, чтобы получить новое знание о состоянии подмножества переменных, наблюдая за другими переменными (переменные-свидетельства). Это процесс вычисления апостериорного распределения переменных по переменным-свидетельствам называют вероятностным выводом. Это следствие даёт нам универсальную оценку для приложений, где нужно выбрать значения подмножества переменных, которое минимизирует функцию потерь, например, вероятность ошибочного решения. Байесовская сеть может также считаться механизмом для автоматического построения расширения теоремы Байеса для более сложных задач.

Для проведения вероятностного вывода в байесовских сетях используются следующие алгоритмы[1][3]:

  • Точные:
    • вывод методом грубой силы путём маргинализации полного совместного распределения;
    • алгоритмы устранения переменных и символьные вычисления,
    • кластеризация,
    • алгоритмы пропагации (передача) сообщений между узлами сети,
  • Приближённые на основе метода Монте-Карло:
    • алгоритмы формирования выборок с исключением,
    • метод оценки выборок с учётом правдоподобия,
    • алгоритм МСМС (Шаблон:Lang-en) и др.

Приложения

Байесовские сети используются для моделирования в биоинформатике (генетические сети, структура белков), медицине, классификации документов, обработке изображений, обработке данных, машинном обучении и системах поддержки принятия решений.

Дополнительная информация

Бесплатные и свободные программные продукты

Коммерческие программные продукты

См. также

Примечания

Шаблон:Примечания

Ссылки

Шаблон:Внешние ссылки Шаблон:Графовые вероятностные модели Шаблон:Машинное обучение