Матрица расстояний

Матрица расстояний — это квадратная матрица типа «объект-объект» (порядка n), содержащая в качестве элементов расстояния между объектами в метрическом пространстве.

Свойства

Свойства матрицы являются отражением свойств самих расстояний^[1]:

симметричность относительно диагонали, то есть $d_{i j} = d_{j i}$ ;
отражение свойства тождественности расстояния $d_{i j} = 0 \Leftrightarrow i = j$ в матрице расстояний проявляется в наличии 0 по диагонали матрицы, так как расстояние объекта с самим собой очевидно равно 0, а также в наличии нулевых значений для абсолютно сходных объектов;
значения расстояний в матрице всегда неотрицательны $d_{i j} ⩾ 0$
неравенство треугольника принимает форму $d_{i j} + d_{j k} ⩾ d_{i k}$ для всех $i$ , $j$ и $k$ .

В общем виде матрица выглядит так:

[\begin{matrix} 0 & \dots & d_{1 j} & \dots & d_{1 n} \\ ⋮ & \dots & ⋮ & \dots & ⋮ \\ d_{i 1} & \dots & d_{i j} & \dots & d_{i n} \\ ⋮ & \dots & ⋮ & \dots & ⋮ \\ d_{n 1} & \dots & d_{n j} & \dots & 0 \end{matrix}]

В широком смысле расстояния являются отражением такого понятия как различие, что двойственно понятию сходства, а элементы матрицы различия (в общем виде — матрицы дивергенций) двойственны элементам матрицы сходства (в общем виде — матрицы конвергенций). Связь между мерой сходства и мерой различия можно записать как $F = 1 - K$ , где F — мера различия; K — мера сходства. Следовательно, все свойства мер сходства можно экстраполировать на соответствующие им меры различия с помощью простого преобразования и наоборот.
Визуально отношения между объектами можно представить с помощью графовых алгоритмов кластеризации. Можно сказать, что расстояния используются намного чаще, чем меры сходства: их чаще реализуют в статистических программах (Statistica, SPSS и др.) в модуле кластерного анализа.

Расстояния

Известно^[2], что существует обобщённая мера расстояний, предложенная Германом Минковским:

d_{i j} = {[\sum_{k = 1}^{n} {| x_{i k} - x_{j k} |}^{p}]}^{\frac{1}{p}} .

В вышеуказанное семейство расстояний входит:

при p = 1 — «манхэттенское расстояние» («расстояние городских кварталов», Шаблон:Lang-en), или « $l$ -норма». Обобщённая мера Хэмминга^[3]^[4] в теоретико-множественной записи (после нормировки) может быть представлена как $d_{i j} = n (A) + n (B) - 2 n (A \cap B)$ и являться двойственной мере абсолютного сходства.
при p = 2 — расстояние Евклида. Часто используется и квадрат этого расстояния.
при p → ∞ — sup-метрика, или метрика «доминирования». Также известна как расстояние Чебышёва.

Существуют используемые расстояния и вне данного семейства. Наиболее известным является расстояние Махаланобиса.

Также интересно в качестве удачной иллюстрации связи мер сходства и различия расстояние Юрцева, двойственное мере сходства Браун-Бланке^[5]:

F_{Yu} = 1 - K_{B-B} = 1 - \frac{n (A \cap B)}{\max (n (A), n (B))} = \frac{n (A) + n (B) - 2 n (A \cap B) + | n (A) - n (B) |}{n (A) + n (B) + | n (A) - n (B) |} .

Пример

На плоскости расположено шесть различных точек (см. изображение). В качестве метрики выбрано расстояние Евклида в пикселях.

Соответствующая матрица расстояний будет равна

	a	b	c	d	e	f
a	0	184	222	177	216	231
b	184	0	45	123	128	200
c	222	45	0	129	121	203
d	177	123	129	0	46	83
e	216	128	121	46	0	83
f	231	200	203	83	83	0

Полученную матрицу можно изобразить в виде тепловой карты. Здесь более тёмный цвет соответствует меньшему расстоянию между точками.

Матрица расстояний в виде тепловой карты

Примечания

Шаблон:Примечания

Шаблон:Math-stub

[1] Шаблон:Книга

[2] Шаблон:Книга

[3] Шаблон:Книга

[4] Шаблон:Статья

[5] Шаблон:Статья

[1]

[2]

[3]

[4]

[5]

Матрица расстояний

Содержание

Свойства

Расстояния

Пример

Примечания

Навигация

	a	b	c	d	e	f
a	0	184	222	177	216	231
b	184	0	45	123	128	200
c	222	45	0	129	121	203
d	177	123	129	0	46	83
e	216	128	121	46	0	83
f	231	200	203	83	83	0

	a	b	c	d	e	f
a	0	184	222	177	216	231
b	184	0	45	123	128	200
c	222	45	0	129	121	203
d	177	123	129	0	46	83
e	216	128	121	46	0	83
f	231	200	203	83	83	0

Матрица расстояний

Свойства

Расстояния

Пример

Примечания

Навигация

Поиск

	a	b	c	d	e	f
a	0	184	222	177	216	231
b	184	0	45	123	128	200
c	222	45	0	129	121	203
d	177	123	129	0	46	83
e	216	128	121	46	0	83
f	231	200	203	83	83	0