Байесовский подход в филогенетике

Байесовский подход в филогенетике позволяет получить наиболее вероятное филогенетическое дерево при заданных исходных данных, последовательностях ДНК или белков рассматриваемых организмов и эволюционной модели замен^[1]. Для снижения вычислительной сложности алгоритма расчёт апостериорной вероятности реализуется различными алгоритмами, использующими метод Монте-Карло для марковских цепей^[2]. Главными преимуществами байесовского подхода по сравнению с методами максимального правдоподобия и максимальной экономии является вычислительная эффективность, способность работать со сложными моделями эволюции, а также то, что, в отличие от методов, указывающих на единственное наилучшее по заданному критерию дерево, он позволяет выбрать несколько вариантов филогенетического дерева с наибольшим значением апостериорной вероятности^[3].

История и основы метода

Байесовский подход является развитием вероятностного метода, разработанного английским математиком и священником Томасом Байесом на основе теоремы Байеса. Этот метод был опубликован в 1763 году^[4], через два года после его смерти. Позднее современную формулировку теоремы вывел Пьер-Симон Лаплас^[1] .

В 1953 году Николас Метрополис ввёл методы Монте-Карло для марковских цепей (MCMC, Markov chain Monte Carlo)^[5]. Преимущества в скорости вычислений и возможность интеграции с методами MCMC позволили байесовскому подходу стать одним из самых популярных методов статистического вывода. Байесовский подход имеет множество применений в молекулярной филогенетике и систематике. По сравнению с другими методами построения филогенетических деревьев (метод максимальной экономии, метод максимального правдоподобия), он позволяет учитывать филогенетическую неопределенность, использовать априорную информацию и сложные модели эволюции, для которых традиционные методы имеют вычислительные ограничения.

Применение байесовского подхода в филогенетике состоит в следующем. Всё множество допустимых филогенетических деревьев $T$ описывается дискретными параметрами $τ$ (топология деревьев) и непрерывными параметрами $α$ (длины ветвей деревьев и параметры эволюционной модели замен). Чтобы вычислить значение апостериорной плотности распределения вероятностей $f (T ∣ B)$ для дерева $T$ c топологией $τ_{0}$ и параметрами $α_{0}$ , при заданных исходных данных $B$ , применяется формула Байеса $f (T (τ_{0}, α_{0}) ∣ B) = \frac{f (B ∣ T) f (T)}{P (B)}$ , где $f (B ∣ T)$ — условная плотность распределения вероятностей исходных данных $B$ . Знаменатель в этой формуле вычисляется по формуле полной вероятности в виде суммы по $τ$ интегралов от произведения $f (T (τ, α)) f (B ∣ T (τ, α))$ по $α$ , где $f (T (τ, α))$ — априорная плотность распределения для деревьев^[6]. Явные аналитическое расчеты по этой формуле не всегда возможны, а численные — требуют большого количества вычислений при поиске максимума функции $f (T ∣ B)$ по $T$ . Применение метода статистических испытаний (который также называется методом Монте-Карло) на цепях Маркова позволяет получить приближенные значения апостериорных вероятностей и уменьшить вычислительную сложность алгоритма поиска наиболее вероятного дерева по критерию максимума апостериорной вероятности.

В методах MCMC апостериорная плотность вычисляется за счет имитации работы цепи Маркова, состояниями которой являются филогенетические деревья^[2]. Расчет апостериорной плотности выполняется как частота посещения этих состояний в установившемся режиме. Наиболее вероятное дерево определяется по максимальной частоте того состояния, которое чаще всего посещается, или нескольких из них наиболее часто посещаемых. Методы MCMC можно описать двумя этапами: на первом применяется стохастический механизм для получения нового состояния цепи Маркова; на втором выполняется расчет вероятности перехода в это состояние и разыгрывается случайное событие смены состояния. Эта процедура повторяется тысячи или миллионы раз. Доля времени, в течение которого одиночное дерево посещается в процессе работы цепи Маркова, является достаточно точной аппроксимацией для его апостериорной вероятности. К числу наиболее часто применяемых алгоритмов, использующихся в методах MCMC, относятся алгоритм Метрополиса — Гастингса, алгоритм Метрополиса в сочетании с MCMC (MC³) и алгоритм LOCAL Ларгета и Симона.

Алгоритм Метрополиса — Гастингса

Алгоритм Метрополиcа — Гастингса^[7] является одним из наиболее распространенных методов MCMC и представляет собой модифицированную Гастингсом версию алгоритма Метрополиса^[5]. Алгоритм Меторополиса — Гастингса строит случайную реализацию цепи Маркова, состояниями которой являются филогенетические деревья. При имитации изменения состояния на каждом шаге выполняется переход от одного дерева к другому за счет изменения топологии или параметров эволюционной модели по определённому правилу. Алгоритм состоит из следующих шагов^[8]:

выбирается стартовое дерево $T i$ со случайной топологией и параметрами модели и принимается как текущее;
строится дерево $T j$ с новой топологией или новыми параметрами модели;
вычисляется отношение вероятностей (или функций плотности вероятности) нового дерева $T j$ и старого дерева $T i$ : $R = \frac{f (T j)}{f (T i)}$

(под $f (T)$ подразумевается условная вероятность или плотность распределения при заданных исходных данных $B$ );

если $R ⩾ 1$ , то в качестве текущего дерева принимается новое дерево $T j$ ;
если $R < 1$ , то выбор дерева $T j$ происходит с вероятностью $R$ (для этого генерируется случайное равномерно распределенное число в интервале $(0, 1)$ , и если это число меньше $R$ , то в качестве текущего дерева принимается $T j$ , иначе остается $T i$ ;

далее процесс повторяется с шага 2) n раз до тех пор, пока не достигнет равновесного распределения.

В оригинальном алгоритме Метрополиса предполагается, что вероятности переходов от дерева $T j$ к дереву $T i$ и обратно равны. Если это условие не выполняется, то применяются поправки Гастингса, состоящие в следующем: вероятность перехода вычисляется по формуле $\frac{f (T j)}{f (T i)} \frac{Q (T i | T j)}{Q (T j | T i)}$ , где $Q$ — совместная функция распределения.

Алгоритм Метрополиса в сочетании с МСМС

Алгоритм Метрополиса в сочетании с MCMC (Metropolis-coupled MCMC, MC³)^[9], известный также как алгоритм параллельного отжига, является модифицированной версией алгоритма Метрополиса — Гастингса для марковских цепей со сложным и многомодальным распределением вероятностей состояний. Для этих случаев алгоритмы эвристического поиска деревьев критериями MP (метод максимальной экономии, maximum parsimony), ML (метод максимального правдоподобия) и ME (метод минимальной эволюции), а также МСМС могут выйти на локальный максимум, что приведёт к неверной аппроксимации апостериорной плотности распределения вероятностей. Алгоритм MC³ за счёт смешивания марковских цепей с разной температурой позволяет правильно аппроксимировать распределение апостериорных вероятностей и избегать попадания в локальные оптимумы.

Алгоритм параллельно запускает $m$ цепей, по $n$ итераций в каждой цепи с разными стационарными распределениями $f_{j} (.)$ , $j = 1, 2, \dots, m$ , где первое распределение с целевой плотностью $f_{1} = f$ называется холодной цепью, а другие цепи с распределениями $f_{j}$ , $j = 2, 3, \dots, m$ называются разогретыми^[10]. Плотности распределений разогретых цепей имеют вид:

f_{j} (T) = f (T)^{1 / [1 + λ (j - 1)]}, λ > 0,

где

λ

— температурный фактор.

Возведение плотности $f (.)$ в степень $1 / T$ при $T > 1$ имеет эффект уплощения распределения по аналогии с нагреванием металла. В таком распределении легче перемещаться между пиками, разделёнными долинами, чем в первоначальном распределении. После каждой итерации алгоритм предписывает выполнить обмен состояний между двумя случайно выбранными цепями с помощью предложенного Метрополисом шага. Обмен между состояниями $i$ и $j$ происходит с вероятностью:

α = \frac{f_{i} (T^{(j)}) f_{j} (T^{(i)})}{f_{i} (T^{(i)}) f_{j} (T^{(j)})},

где

f^{(j)}

— текущее состояние в цепи с номером

j

,

j = 1, 2, \dots, m

^[11].

Эвристически, разогретые цепи будут посещать локальные пики довольно легко, и обмен состояниями между цепями позволит холодной цепи иногда перепрыгивать через долины. Если $f_{i} (T) / f_{j} (T)$ слишком мало, обмен состояниями будет редко выполняться, поэтому в алгоритме используются несколько цепей с разными температурными факторами для улучшения смешивания^[6].

Для получения стационарного распределения вероятностей используются только состояния из холодной цепи, а состояния из разогретых цепей отбрасываются.

Алгоритмы GLOBAL и LOCAL

Для генерации нового состояния марковской цепи существуют различные вероятностные способы модификации деревьев, например, бисекция с последующим переприсоединением, обмен ветвей, замена на ближнее соседнее дерево. Алгоритмы LOCAL^[2] и GLOBAL^[12] предлагают другой способ построения нового дерева по текущему за счёт изменения топологии и длин ветвей. Это приводит к значительному сокращению вычислений для больших деревьев по сравнению с алгоритмами бутстрэпа для методов максимального правдоподобия и максимальной экономии.

Общая идея заключается в том, что дерево представляется в виде следующих параметров: топология дерева и длина его ветвей, а также параметры модели замен. При изменении состояний марковской цепи выполняются последовательные шаги, в которых отдельно либо меняется топология дерева и длина его ветвей, либо меняются только параметры модели замен. Решение о переходе к новому дереву в качестве текущего состояния цепи Маркова принимается так же, как в алгоритме Метрополиса — Гастингса, но значение пороговой вероятности вычисляется с использованием параметров модифицированного дерева.

В алгоритме GLOBAL^[12], представленном Мау, Ньютоном и Ларгетом в 1999 году, все длины ветвей дерева изменяются на небольшую величину в каждом цикле. Алгоритм Ларгета и Симона LOCAL^[2] предполагает модификацию дерева в небольшой окрестности случайно выбранной внутренней ветви дерева.

Построение нового дерева в алгоритме LOCAL при модификации топологии и длин ветвей выполняется по следующему правилу: равновероятно выбирается произвольное внутреннее ребро дерева с вершинами $u$ и $v$ . Вследствие того, что филогенетическое дерево должно быть бинарным, а ребро внутреннее, у каждой из вершин обязательно есть две смежные. Смежные вершины для $u$ произвольным образом обозначаются буквами $a$ и $b$ , а смежные вершины для $v$ — буквами $c$ и $d$ . Далее для вершин $u$ и $v$ равновероятно выбирается по одной смежной, например, $a$ и $c$ , и рассматривается путь между вершинами $a$ и $c$ , состоящий из трёх рёбер. Длины этих рёбер модифицируются пропорционально путём умножения на случайное число по правилу $m^{⋆} = m \exp (λ (U_{1} - 0.5))$ , где $m$ — старая длина пути, $m^{⋆}$ — новая длина пути, $U_{1}$ — это равномерно распредёленная случайная величина на отрезке $(0, 1)$ , а $λ$ — это положительный настраиваемый параметр. Следующий шаг модификации дерева состоит в отсоединении одной из вершин, $u$ или $v$ , выбираемых равновероятно, и присоединения её в случайно выбранной по равномерному закону точке на пути от вершины $a$ до вершины $c$ вместе с её дочерней ветвью. При такой модификации возможно изменение топологии дерева, если порядок следования вершин $u$ и $v$ вдоль пути от $a$ к $c$ изменился, иначе — топология дерева не изменяется. Поправка Гастингса равна квадрату отношения длин нового и старого пути: $(m^{⋆} / m)^{2}$ .

При модификации параметров модели в алгоритме рассматриваются два варианта: в первом варианте, когда один параметр ограничен набором значений $[0, M]$ , новое значение параметра вычисляется прибавлением равномерно распределённой случайной величины из интервала $(- δ, δ)$ . Если новое значение выходит за пределы допустимого диапазона $[0, M]$ ^[2], то остаток отражается внутрь этого отрезка. Поправка Гастингса принимается равной 1. Второй вариант составляет случай, когда модифицируется множество параметров, сумма которых равна константе. В этом случае новое множество значений этих параметров выбирается из распределения Дирихле, центрированного по текущим значениям параметров. Поправка Гастингса вычисляется как отношение плотностей Дирихле с новыми и старыми параметрами.

Критика и обсуждение

Значения бутстрэп против апостериорных вероятностей. Было показано, что значения бутстрэпа, вычисленные методами максимальной экономии или правдоподобия, обычно ниже, чем апостериорные вероятности, полученные байесовским методом^[13]. Это приводит ряду вопросов, например: Приводят ли апостериорные вероятности к завышению вероятности результата? Являются ли значения бутстрэпа более устойчивыми по сравнению с апостериорными вероятностями?

Выбор модели. Результаты Байесовского филогенетического анализа прямо коррелируют с выбранной моделью эволюции, поэтому важно выбрать модель, которая подходит наблюдаемым данным, иначе вывод о филогении может быть ошибочным. Многие ученые поднимали вопрос об интерпретации результатов байесовского анализа, когда модель неизвестна или неправильная. Например, слишком упрощенная модель может дать более высокие апостериорные вероятности^[14]^[15] или простые модели связаны с большей неопределённостью, чем с той, которая вытекает из анализа бустрэпом.

Программа MRBAYES

MrBayes Шаблон:Wayback — это бесплатная программа, осуществляющая байесовский анализ филогении. Первоначально написана Джоном Хюльсенбеком и Фредериком Ронкустом в 2001 году^[16]. Когда байесовские методы приобрели популярность, многие молекулярные филогенетики стали выбирать MrBayes. Программа использует стандартный алгоритм MCMC и алгоритм Метрополиса, связанный с MCMC.

MrBayes использует МСМС для приближённого вычисления апостериорных вероятностей деревьев^[5]. Пользователь может поменять предположения о модели замен, априорных вероятностей и деталей МС анализа. Также программа позволяет удалять и добавлять таксоны и символы для анализа. В программе можно использовать широкий спектр моделей замен -- от стандартной модели подстановок DNA 4х4, также называемой JC69, в которой считается, что частоты оснований равны и все замены нуклеотидов происходят с равной вероятностью^[17], до наиболее общей модели GTR, в которой различаются и частоты оснований, и вероятности замен. Также программа включает несколько 20х20 моделей замен аминокислот, кодоновые и дублетные модели замены ДНК. Программа предлагает различные методы для ослабления предположения о равных скоростях замен в нуклеотидных позициях^[18]. MrBayes также может выводить наследственные состояния, содержащие неопределённость филогенетического дерева и параметров модели.

MrBayes 3^[19] — это полностью реогранизованная и реконструированная версия первоначальной программы MrBayes. Главное новшество заключается в возможности программы приспосабливаться к неоднородности наборов данных. Такая структура позволяет пользователю смешивать модели и получать преимущество эффективности байесовского MCMC анализа, если он имеет дело с разными типами данных (например, белки, нуклеотиды, морфологические данные). По умолчанию программа использует алгоритм МСМС Метрополиса.

MrBayes 3.2 — это новая версия MrBayes, выпущенная в 2012 году^[20]. Новая версия позволяет пользователю запускать несколько анализов параллельно. Также она обеспечивает более быстрое вычисление вероятностей и даёт возможность использования ресурсов графического процессора для выполнения этих вычислений. Версия 3.2 предоставляет больше опций для выходных данных, совместимых с программой FigTree и другими программами для просмотра деревьев.

Список программ, использующих байесовский подход

Название программы	Описание	Метод	Авторы	Ссылка на сайт
Armadillo Workflow Platform	Программа, предназначенная для филогенетического и общего биоинформатического анализа	Вывод филогенетических деревьев с использованием методов ML, MP, байесовскийого подхода и др.	E. Lord, M. Leclercq, A. Boc, A.B. Diallo, V. Makarenkov^[21]	https://web.archive.org/web/20161024081942/http://www.bioinfo.uqam.ca/armadillo/.
Bali-Phy	Одновременное получение выравнивания и дерева на основе байесовскийого похода	Байесовский вывод выравниваний и филогенетических деревьев	M.A. Suchard, B. D. Redelings^[22]	http://www.bali-phy.org Шаблон:Wayback
BATWING	Вывод деревьев методом Байеса с созданием внутренних узлов	Байесовский анализ, демографическая история, метод расщепления популяций	I. J. Wilson, D. Weale, D.Balding^[23]	http://heidi.chnebu.ch/doku.php?id=batwing Шаблон:Wayback
Bayes Phylogenies	Вывод деревьев методом Байеса с использованием методов Монте-Карло для марковских цепей и Метрополиса в сочетании с MCMC	Байесовский анализ, множественные, смешанные модели (с автоматическим разбиением)	M. Pagel, A. Meade^[24]	http://www.evolution.rdg.ac.uk/BayesPhy.html Шаблон:Wayback
PhyloBayes / PhyloBayes MPI	MCMC семплер для филогенетических реконструкций.	MCMC, вероятностная модель CAT, учитывающая сайт-специфичные нуклеотиды или аминокислоты	N. Lartillot, N. Rodrigue, D. Stubbs, J. Richer^[25]	https://web.archive.org/web/20181218053945/http://www.phylobayes.org/
BEAST	Анализ молекулярных последовательностей с помощью MCMC (Bayesian Evolutionary Analysis Sampling Trees)	Байесовский анализ, релаксированные молекулярные часы, демографическая история	A. J. Drummond, A. Rambaut & M. A. Suchard^[26]	http://beast.bio.ed.ac.uk Шаблон:Wayback
BUCKy	Байесовское соответствие филогенетических деревьев для генов	Байесовское соответствие с использованием модифицированного жадного консенсуса для неукоренённых квартетов	C. Ané, B. Larget, D.A. Baum, S.D. Smith, A. Rokas, B. Larget, S.K. Kotha, C.N. Dewey, C. Ané^[27]	http://www.stat.wisc.edu/~ane/bucky/ Шаблон:Wayback
Geneious (MrBayes plugin)	Средства для исследования геномов и протеомов	Neighbor-joining, UPGMA, плагины MrBayes, PHYML, RAxML, FastTree, GARLi, PAUP*	A. J. Drummond,M.Suchard,V.Lefort и др.^[28]	http://www.geneious.com Шаблон:Wayback
TOPALi	Филогенетический вывод	Выбор филогенетической модели, байесовскийий анализ и оценка филогенетических деревьев методом максимального правдоподобия, определение сайтов, находящихся под позитивным отбором, анализ положения точек рекомбинации	I.Milne, D.Lindner и др.^[29]	http://www.topali.org Шаблон:Wayback

Приложения

Байесовский подход широко используется молекулярными филогенетиками для различных приложений:

Вывод филогений^[30]^[31]
Вывод и оценка неопределенности филогений^[32]
Датирование с помощью молекулярного анализа^[33]
Вывод черт предковых форм^[34]^[35]
Вывод ареалов предковых форм^[36]
Модель динамики диверсификации и вымирания видов^[37]
Объяснение закономерностей распространения патогенных организмов^[38]

Примечания

Шаблон:Примечания

[Laplace-1] 1,0 ^1,1 Шаблон:Статья

[Larget-2] 2,0 ^2,1 ^2,2 ^2,3 ^2,4 Шаблон:Статья

[3] Шаблон:Статья

[4] Шаблон:Статья

[Metropolis-5] 5,0 ^5,1 ^5,2 Шаблон:Статья

[Rannala-6] 6,0 ^6,1 Шаблон:Статья

[7] Шаблон:Статья

[8] Шаблон:Книга

[9] Шаблон:Статья

[10] Шаблон:Статья

[11] Шаблон:Статья

[Mau-12] 12,0 ^12,1 Шаблон:Статья

[13] Шаблон:Статья

[14] Шаблон:Статья

[15] Шаблон:Статья

[16] Шаблон:Статья

[17] Шаблон:Статья

[18] Шаблон:Статья

[19] Шаблон:Статья

[20] Шаблон:Статья

[21] Шаблон:Статья

[22] Шаблон:Статья

[23] Шаблон:Статья

[24] Шаблон:Статья

[25] Шаблон:Статья

[26] Шаблон:Статья

[27] Шаблон:Статья

[28] Шаблон:Статья

[29] Шаблон:Статья

[30] Шаблон:Статья

[31] Шаблон:Статья

[32] Шаблон:Статья

[33] Шаблон:Статья

[34] Шаблон:Статья

[35] Шаблон:Статья

[36] Шаблон:Статья

[37] Шаблон:Статья

[38] Шаблон:Статья

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

Байесовский подход в филогенетике

Содержание

История и основы метода

Алгоритм Метрополиса — Гастингса

Алгоритм Метрополиса в сочетании с МСМС

Алгоритмы GLOBAL и LOCAL

Критика и обсуждение

Программа MRBAYES

Список программ, использующих байесовский подход

Приложения

Примечания

Навигация

Байесовский подход в филогенетике

История и основы метода

Алгоритм Метрополиса — Гастингса

Алгоритм Метрополиса в сочетании с МСМС

Алгоритмы GLOBAL и LOCAL

Критика и обсуждение

Программа MRBAYES

Список программ, использующих байесовский подход

Приложения

Примечания

Навигация

Поиск