Дивергенция Йенсена — Шеннона

Материал из testwiki
Версия от 12:33, 21 октября 2021; imported>Jim Hokins (Восстановление работоспособности гарвардской системы цитирования.)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигации Перейти к поиску

Дивергенция Йенсена — Шеннона[1] — это метод измерения похожести двух распределений вероятностей. Она известна также как информационный радиусШаблон:Sfn или полное отклонение от среднегоШаблон:Sfn. Дивергенция базируется на дивергенции Кульбака — Лейблера с некоторыми существенными (и полезными) отличиями, среди которых, что она симметрична и всегда имеет конечное значение. Квадратный корень из дивергенции Йенсена — Шеннона является метрикой, которая часто упоминается как расстояние Йенсена — ШеннонаШаблон:SfnШаблон:SfnШаблон:Sfn.

Определение

Рассмотрим множество M+1(A) распределений вероятности, где A — это множество, снабжённое некоторой сигма-алгеброй измеримых подмножеств. В частности, мы можем взять в качестве A конечное или счётное множество, в котором все подмножества измеримы.

Дивергенция Йенсена — Шеннона (Шаблон:Lang-en, JSD) M+1(A)×M+1(A)[0,) — это симметризованная и сглаженная версия дивергенции Кульбака — Лейблера D(PQ). Она определяется как

JSD(PQ)=12D(PM)+12D(QM),

где M=12(P+Q)

Недавно было предложено обобщение дивергенции Йенсена — Шеннона, в котором вместо арифметического среднего используется абстрактное среднее (наподобие геометрического или гармонического среднего)Шаблон:R. Геометрическая дивергенция Йенсена — Шеннона (Шаблон:Lang-en) даёт явную a формулу дивергенции между двумя гауссовыми распределениями путём применения геометрического среднего.

Более общее определение, позволяющее сравнить более двух распределений вероятности (См):

JSDπ1,,πn(P1,P2,,Pn)=H(i=1nπiPi)i=1nπiH(Pi),

где π1,,πn являются весами, выбранными для распределений вероятности P1,P2,,Pn, а H(P) является энтропией Шеннона для распределения P. Для случая двух распределений

P1=P,P2=Q,π1=π2=12. 

Границы

Дивергенция Йенсена — Шеннона ограничена 1 для двух распределений вероятности, если (в дивергенции Кульбака — Лейблера) используется логарифм по основанию 2Шаблон:Sfn

0JSD(PQ)1

С такой нормализацией дивергенция Йенсена — Шеннона является нижней границей Шаблон:Не переведено 5 между P и Q:

JSD(PQ)12PQ1=12ωΩ|P(ω)Q(ω)|.

Для натурального логарифма, который обычно используется в статистической термодинамике, верхняя граница равна ln(2):

0JSD(PQ)ln(2)

Дивергенция Йенсена — Шеннона ограничена величиной log2(n) для более двух распределений вероятности, если используется логарифм по основанию 2Шаблон:Sfn

0JSDπ1,,πn(P1,P2,,Pn)log2(n)

Связь со взаимной информацией

Дивергенция Йенсена — Шеннона является взаимной информацией между случайной переменной X, ассоциированной со Шаблон:Не переведено 5 между P и Q и двоичной индикаторной переменной Z, которая используется для переключения между P и Q для получения смеси. Пусть X будет некоторой функцией на множестве событий, которая хорошо различает события, и выберем значение X согласно P, если Z=0, и согласно Q, если Z=1, где Z равновероятно. То есть мы выбираем X согласно мере M=(P+Q)/2, и его распределение является смесью распределений. Мы вычисляем

I(X;Z)=H(X)H(X|Z)=MlogM+12[PlogP+QlogQ]=P2logMQ2logM+12[PlogP+QlogQ]=12P(logPlogM)+12Q(logQlogM)=JSD(PQ)

Из результатов выше следует, что дивергенция Йенсена — Шеннона ограничена 0 и 1, поскольку взаимная информация неотрицательна и ограничена величиной H(Z)=1. Дивергенция Йенсена — Шеннона не всегда ограничена 0 и 1 — здесь верхняя граница 1 возникает из-за того, что мы рассматриваем конкретный случай двоичной переменной Z.

Можно применить тот же принцип для совместного распределения и произведения этих двух крайних распределений (по аналогии с дивергенцией Кульбака — Лейблера и взаимной информацией) и измерить, насколько достоверно можно решить, что результат получен от совместного распределения или от произведения распределений при предположении, что имеются только эти две возможностиШаблон:Sfn.

Квантовая дивергенция Йенсена — Шеннона

Обобщение распределений вероятности на матрицы плотности позволяет определить квантовую дивергенцию Йенсена — Шеннона (Шаблон:Lang-en, QJSD)Шаблон:SfnШаблон:Sfn. Она определяется для множества матриц плотности (ρ1,,ρn) и распределений вероятности π=(π1,,πn) как

QJSD(ρ1,,ρn)=S(i=1nπiρi)i=1nπiS(ρi)

где S(ρ) является Шаблон:Не переведено 5 плотности ρ. Эта величина вводится в теории квантовой информации, где называется информацией Холево — она даёт верхнюю границу для количества классической информации, закодированной квантовыми состояниями (ρ1,,ρn) при априорных распределениях π (см. статью «Теорема Холево»)Шаблон:Sfn. Квантовая Дивергенция Йенсена — Шеннона для π=(12,12) и двух матриц плотности является ограниченной всюду заданной симметричной функцией и равна нулю, только если две матрицы плотности совпадают. Она равна квадрату метрики чистых состоянийШаблон:Sfn и недавно было показано, что это метрическое свойство выполняется и для смешанных состоянийШаблон:RШаблон:R. Шаблон:Не переведено 5 тесно связана с квантовой дивергенцией Йенсена — Шеннона и является квантовым аналогом информационной метрики Фишера.

Обобщение

Нильсен ввёл косую K-дивергенциюШаблон:R: Kα(p||q)=KL(p||(1α)p+αq)=p(x)logp(x)(1α)p(x)+αq(x)dx. Отсюда получаем однопараметрическое семейство дивергенций Йенсена — Шеннона, называемое α-дивергенциями Йенсена — Шеннона:

JSα(p,q)=12(Kα(p||q)+Kα(q||p))=JSα(q,p),

которое включает дивергенцию Йенсена — Шеннона (для α=12) и половину дивергенции Джеффриса (для α=1).

Приложения

Дивергенция Йенсена — Шеннона применяется в биоинформатике и Шаблон:Не переведено 5Шаблон:SfnШаблон:Sfn, при сравнении поверхностей белковШаблон:Sfn, в общественных наукахШаблон:Sfn, при количественных исследованиях в историиШаблон:Sfn, экспериментах с огнёмШаблон:Sfn и машинном обучении Шаблон:Sfn.

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend

Литература для дальнейшего чтения

Ссылки

Шаблон:Rq

  1. В русскоязычной литературе чаще встречается неверное название «Дивергенция Дженсена — Шеннона»