UMAP

Uniform Manifold Approximation and Projection (UMAP) — алгоритм машинного обучения, выполняющий нелинейное снижение размерности Шаблон:Sfn.

История создания и описание

UMAP был создан Лилендом Макиннесом совместно с его коллегами из Таттского института. Целью было получить алгоритм, похожий на t-SNE Шаблон:Sfn, но с более сильным математическим обоснованием^[1].

При снижении размерности UMAP сначала выполняет построение взвешенного графа, соединяя ребрами только те объекты, которые являются ближайшими соседями. Множество из ребер графа — это нечёткое множество с функцией принадлежности, она определяется как вероятность существования ребра между двумя вершинами. Затем алгоритм создает граф в низкоразмерном пространстве и приближает его к исходному, минимизируя сумму дивергенций Кульбака-Лейблера Шаблон:Efn для каждого ребра из множествШаблон:Sfn^[2].

Алгоритм UMAP используется в различных областях науки: биоинформатика, материаловедение, машинное обучение^[3].

Принцип работы алгоритма

На обработку алгоритму поступает выборка из $n$ объектов: $X = {x_{1}, \dots, x_{n}}$ . UMAP рассчитывает расстояние между объектами по заданной метрике и для каждого объекта $x_{i}$ определяет список из его $k$ ближайших соседей: $T = {t_{1}, \dots, t_{k}}$ .

Помимо этого, для каждого объекта рассчитывается расстояние до его ближайшего соседа: $ρ_{i} = \min_{t \in T} d (x_{i}, t)$ . А также величина $σ_{i}$ , заданная уравнением:

\sum_{t \in T} \exp (- \frac{d (x_{i}, t) - ρ_{i}}{σ_{i}}) = \log_{2} k

.

Далее алгоритм выполняет построение взвешенного ориентированного графа, в котором ребра соединяют каждый объект с его соседями. Вес ребра от $x_{i}$ объекта до его $t_{j}$ соседа рассчитывается следующим образом:

w (x_{i} \to t_{j}) = \exp (- \frac{d (x_{i}, t_{j}) - ρ_{i}}{σ_{i}})

Полученная ранее $σ_{i}$ нормирует сумму весов для каждого объекта к заданному числу $\log_{2} k$ .

Так как UMAP строит взвешенный ориентированный граф, то между вершинами могут существовать два ребра с разными весами. Вес ребра интерпретируется как вероятность существования данного ребра от одного объекта к другому. Исходя из этого, ребра между двумя вершинами объединяются в одно с весом, равным вероятности существования хотя бы одного ребра:

w (x_{i}, x_{j}) = w (x_{i} \to x_{j}) + w (x_{j} \to x_{i}) - w (x_{i} \to x_{j}) \cdot w (x_{j} \to x_{i})

.

Таким образом, алгоритм получает взвешенный неориентированный графШаблон:Sfn.

Множество ребер $E$ такого графа является нечетким множеством из случайных величин Бернулли. Алгоритм создает новый граф в низкоразмерном пространстве и приближает множество его ребер к исходному. Для этого он минимизирует сумму дивергенций Кульбака-Лейблера для каждого ребра $e$ из исходного и нового нечетких множеств:

\sum_{e \in E} w_{h} (e) \log \frac{w_{h} (e)}{w_{l} (e)} + (1 - w_{h} (e)) \log (\frac{1 - w_{h} (e)}{1 - w_{l} (e)}) \to \min_{w_{l}}

Шаблон:Sfn,

w_{h} (e)

— функция принадлежности нечеткого множества из ребёр в высокоразмерном пространстве,

w_{l} (e)

— функция принадлежности нечеткого множества из ребёр в низкоразмерном пространстве.

UMAP решает задачу минимизации с помощью стохастического градиентного спуска. Полученное множество из ребер определяет новое расположение объектов и, соответственно, низкоразмерное отображение исходного пространства.

Программное обеспечение

Руководство по установке библиотеки
Применение в языке R

Литература

Примечания

Шаблон:Примечания Шаблон:Комментарии

Ссылки

Авторская презентация алгоритма
Авторский туториал и преимущества UMAP
Примеры работ в UMAP: 1 и 2
Обзор алгоритма
Принцип работы алгоритма и примеры

[1] Шаблон:Cite web

[2] Шаблон:Cite web

[3] Шаблон:Cite web

[1]

[2]

[3]

UMAP

Содержание

История создания и описание

Принцип работы алгоритма

Программное обеспечение

Литература

Примечания

Ссылки

Навигация

UMAP

История создания и описание

Принцип работы алгоритма

Программное обеспечение

Литература

Примечания

Ссылки

Навигация

Поиск