Дивергенция Йенсена — Шеннона
Дивергенция Йенсена — Шеннона[1] — это метод измерения похожести двух распределений вероятностей. Она известна также как информационный радиусШаблон:Sfn или полное отклонение от среднегоШаблон:Sfn. Дивергенция базируется на дивергенции Кульбака — Лейблера с некоторыми существенными (и полезными) отличиями, среди которых, что она симметрична и всегда имеет конечное значение. Квадратный корень из дивергенции Йенсена — Шеннона является метрикой, которая часто упоминается как расстояние Йенсена — ШеннонаШаблон:SfnШаблон:SfnШаблон:Sfn.
Определение
Рассмотрим множество распределений вероятности, где A — это множество, снабжённое некоторой сигма-алгеброй измеримых подмножеств. В частности, мы можем взять в качестве A конечное или счётное множество, в котором все подмножества измеримы.
Дивергенция Йенсена — Шеннона (Шаблон:Lang-en, JSD) — это симметризованная и сглаженная версия дивергенции Кульбака — Лейблера . Она определяется как
- ,
где
Недавно было предложено обобщение дивергенции Йенсена — Шеннона, в котором вместо арифметического среднего используется абстрактное среднее (наподобие геометрического или гармонического среднего)Шаблон:R. Геометрическая дивергенция Йенсена — Шеннона (Шаблон:Lang-en) даёт явную a формулу дивергенции между двумя гауссовыми распределениями путём применения геометрического среднего.
Более общее определение, позволяющее сравнить более двух распределений вероятности (См):
- ,
где являются весами, выбранными для распределений вероятности , а является энтропией Шеннона для распределения . Для случая двух распределений
Границы
Дивергенция Йенсена — Шеннона ограничена 1 для двух распределений вероятности, если (в дивергенции Кульбака — Лейблера) используется логарифм по основанию 2Шаблон:Sfn
С такой нормализацией дивергенция Йенсена — Шеннона является нижней границей Шаблон:Не переведено 5 между P и Q:
Для натурального логарифма, который обычно используется в статистической термодинамике, верхняя граница равна ln(2):
Дивергенция Йенсена — Шеннона ограничена величиной для более двух распределений вероятности, если используется логарифм по основанию 2Шаблон:Sfn
Связь со взаимной информацией
Дивергенция Йенсена — Шеннона является взаимной информацией между случайной переменной , ассоциированной со Шаблон:Не переведено 5 между и и двоичной индикаторной переменной , которая используется для переключения между и для получения смеси. Пусть будет некоторой функцией на множестве событий, которая хорошо различает события, и выберем значение согласно , если , и согласно , если , где равновероятно. То есть мы выбираем согласно мере , и его распределение является смесью распределений. Мы вычисляем
Из результатов выше следует, что дивергенция Йенсена — Шеннона ограничена 0 и 1, поскольку взаимная информация неотрицательна и ограничена величиной . Дивергенция Йенсена — Шеннона не всегда ограничена 0 и 1 — здесь верхняя граница 1 возникает из-за того, что мы рассматриваем конкретный случай двоичной переменной .
Можно применить тот же принцип для совместного распределения и произведения этих двух крайних распределений (по аналогии с дивергенцией Кульбака — Лейблера и взаимной информацией) и измерить, насколько достоверно можно решить, что результат получен от совместного распределения или от произведения распределений при предположении, что имеются только эти две возможностиШаблон:Sfn.
Квантовая дивергенция Йенсена — Шеннона
Обобщение распределений вероятности на матрицы плотности позволяет определить квантовую дивергенцию Йенсена — Шеннона (Шаблон:Lang-en, QJSD)Шаблон:SfnШаблон:Sfn. Она определяется для множества матриц плотности и распределений вероятности как
где является Шаблон:Не переведено 5 плотности . Эта величина вводится в теории квантовой информации, где называется информацией Холево — она даёт верхнюю границу для количества классической информации, закодированной квантовыми состояниями при априорных распределениях (см. статью «Теорема Холево»)Шаблон:Sfn. Квантовая Дивергенция Йенсена — Шеннона для и двух матриц плотности является ограниченной всюду заданной симметричной функцией и равна нулю, только если две матрицы плотности совпадают. Она равна квадрату метрики чистых состоянийШаблон:Sfn и недавно было показано, что это метрическое свойство выполняется и для смешанных состоянийШаблон:RШаблон:R. Шаблон:Не переведено 5 тесно связана с квантовой дивергенцией Йенсена — Шеннона и является квантовым аналогом информационной метрики Фишера.
Обобщение
Нильсен ввёл косую K-дивергенциюШаблон:R: Отсюда получаем однопараметрическое семейство дивергенций Йенсена — Шеннона, называемое -дивергенциями Йенсена — Шеннона:
которое включает дивергенцию Йенсена — Шеннона (для ) и половину дивергенции Джеффриса (для ).
Приложения
Дивергенция Йенсена — Шеннона применяется в биоинформатике и Шаблон:Не переведено 5Шаблон:SfnШаблон:Sfn, при сравнении поверхностей белковШаблон:Sfn, в общественных наукахШаблон:Sfn, при количественных исследованиях в историиШаблон:Sfn, экспериментах с огнёмШаблон:Sfn и машинном обучении Шаблон:Sfn.
Примечания
Литература
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
Литература для дальнейшего чтения
Ссылки
- Ruby gem for calculating JS divergence
- Python code for calculating JS divergence
- THOTH: a python package for the efficient estimation of information-theoretic quantities from empirical data
- statcomp R library for calculating complexity measures including Jensen-Shannon Divergence
- ↑ В русскоязычной литературе чаще встречается неверное название «Дивергенция Дженсена — Шеннона»