Стохастическое вложение соседей с t-распределением

Стохастическое вложение соседей с t-распределением (Шаблон:Lang-en, t-SNE) — это алгоритм машинного обучения для визуализации, разработанный Лоренсом ван дер Маатеном и Джеффри Хинтоном Шаблон:Sfn. Он является техникой Шаблон:Не переведено 5, хорошо подходящей для вложения данных высокой размерности для визуализации в пространство низкой размерности (двух- или трехмерное). В частности, метод моделирует каждый объект высокой размерности двух- или трёхмерной точкой таким образом, что похожие объекты моделируются близко расположенными точками, а непохожие точки моделируются с большой вероятностью точками, далеко друг от друга отстоящими.

Описание

Алгоритм t-SNE состоит из двух главных шагов. Сначала t-SNE создаёт распределение вероятностей по парам объектов высокой размерности таким образом, что похожие объекты будут выбраны с большой вероятностью, в то время как вероятность выбора непохожих точек будет мала. Затем t-SNE определяет похожее распределение вероятностей по точкам в пространстве малой размерности и минимизирует расстояние Кульбака — Лейблера между двумя распределениями с учётом положения точек. Заметим, что исходный алгоритм использует евклидово расстояние между объектами как базу измерения сходства, это может быть изменено сообразно обстоятельствам.

Алгоритм t-SNE использовался для визуализации широкого ряда приложений, включая исследование компьютерной безопасности Шаблон:Sfn, Шаблон:Не переведено 5 Шаблон:Sfn, Шаблон:Не переведено 5 Шаблон:Sfn, биоинформатику Шаблон:Sfn и обработку биомедицинских сигналовШаблон:Sfn. Алгоритм часто используется для визуализации высокоуровневых представлений, полученных из искусственной нейронной сети Шаблон:Sfn.

Поскольку t-SNE отображения часто используются для показа кластеров, а на визуализацию кластеров может оказывать значительное влияние выбранная параметризация, постольку необходимо умение работать с параметрами алгоритма t-SNE. Для выбора параметров и проверки результатов могут оказаться необходимы Шаблон:Термин исследованияШаблон:Sfn Шаблон:Sfn. Было продемонстрировано, что алгоритм t-SNE часто способен обнаружить хорошо отделённые друг от друга кластеры, а при специальном выборе параметров аппроксимировать простой вид спектральной кластеризации Шаблон:Sfn.

Детали

Если дан набор из $N$ объектов высокой размерности $𝐱_{1}, \dots, 𝐱_{N}$ , t-SNE сначала вычисляет вероятности $p_{i j}$ , которые пропорциональны похожести объектов $𝐱_{i}$ и $𝐱_{j}$ следующим образом:

p_{j ∣ i} = \frac{\exp (- ‖ 𝐱_{i} - 𝐱_{j} ‖^{2} / 2 σ_{i}^{2})}{\sum_{k \neq i} \exp (- ‖ 𝐱_{i} - 𝐱_{k} ‖^{2} / 2 σ_{i}^{2})},

Ван дер Маатен и Хинтон объясняли: «Похожесть точки данных $x_{j}$ точке $x_{i}$ является условной вероятностью $p_{j | i}$ , что для $x_{i}$ будет выбрана $x_{j}$ в качестве соседней точки, если соседи выбираются пропорционально их гауссовой плотности вероятности с центром в $x_{i}$ »Шаблон:Sfn.

p_{i j} = \frac{p_{j ∣ i} + p_{i ∣ j}}{2 N}

Более того, вероятности с $i = j$ принимаются равными нулю: $p_{i i} = 0$

Полоса пропускания гауссовых ядер $σ_{i}$ устанавливается с помощью метода бисекции так, что Шаблон:Не переведено 5 условного распределения равна предопределённой перплексивности. Как результат полоса пропускания адаптируется плотности данных — меньшие значения $σ_{i}$ используются в более плотных частях пространства данных.

Поскольку гауссово ядро использует евклидово расстояние $‖ x_{i} - x_{j} ‖$ , оно подвержено проклятию размерности и в данных высокой размерности, когда расстояния теряют возможность различать, $p_{i j}$ становятся слишком похожи (асимптотически, они сходятся к константе). Предлагается подкорректировать расстояние с помощью экспоненциального преобразования, основываясь на Шаблон:Не переведено 5 каждой точки, чтобы смягчить проблемуШаблон:Sfn.

Алгоритм t-SNE стремится получить отображение $𝐲_{1}, \dots, 𝐲_{N}$ в $d$ -мерное пространство (с $𝐲_{i} \in ℝ^{d}$ ), которое отражает похожести $p_{i j}$ , насколько это возможно. Для этого алгоритм измеряет похожесть $q_{i j}$ между двумя точками $𝐲_{i}$ и $𝐲_{j}$ с помощью очень похожего подхода. Конкретно, $q_{i j}$ определяется как

q_{i j} = \frac{(1 + ‖ 𝐲_{i} - 𝐲_{j} ‖^{2})^{- 1}}{\sum_{k \neq l} (1 + ‖ 𝐲_{k} - 𝐲_{l} ‖^{2})^{- 1}}

Здесь имеющее утяжелённый хвост t-распределение Стьюдента (с одной степенью свободы, которое является тем же, что и распределение Коши) используется для измерения похожести между точками в пространстве низкой размерности, чтобы иметь возможность непохожие объекты расположить на карте далеко друг от друга. Заметим, что в этом случае мы также устанавливаем $q_{i i} = 0$

Расположения точек $𝐲_{i}$ в пространстве малой размерности определяется минимизацией (несимметричной) расстояния Кульбака — Лейблера распределения $Q$ от распределения $P$ , то есть

K L (P | | Q) = \sum_{i \neq j} p_{i j} \log \frac{p_{i j}}{q_{i j}}

Минимизация расстояния Кульбака — Лейблера по отношению к точкам $𝐲_{i}$ осуществляется с помощью градиентного спуска. Результатом оптимизации является отображение, которое отражает похожесть между объектами пространства высокой размерности.

Программное обеспечение

Алгоритм Лоуренса ван дер Маатена «t-Distributed Stochastic Neighbor Embedding» https://lvdmaaten.github.io/tsne/
Шаблон:Не переведено 5 содержит tSNE с аппроксимацией Барнеса-Хата. https://github.com/elki-project/elki/blob/master/elki/src/main/java/de/lmu/ifi/dbs/elki/algorithm/projection/TSNE.java Шаблон:Недоступная ссылка

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend

Ссылки

Visualizing Data Using t-SNE, Google Tech Talk about t-SNE

Шаблон:Машинное обучение Шаблон:Rq

Стохастическое вложение соседей с t-распределением

Содержание

Описание

Детали

Программное обеспечение

Примечания

Литература

Ссылки

Навигация

Стохастическое вложение соседей с t-распределением

Описание

Детали

Программное обеспечение

Примечания

Литература

Ссылки

Навигация

Поиск