Стохастическое вложение соседей с t-распределением

Материал из testwiki
Версия от 03:36, 3 февраля 2023; imported>Robiteria (стандартизация терминологии)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигации Перейти к поиску

Стохастическое вложение соседей с t-распределением (Шаблон:Lang-en, t-SNE) — это алгоритм машинного обучения для визуализации, разработанный Лоренсом ван дер Маатеном и Джеффри ХинтономШаблон:Sfn. Он является техникой Шаблон:Не переведено 5, хорошо подходящей для вложения данных высокой размерности для визуализации в пространство низкой размерности (двух- или трехмерное). В частности, метод моделирует каждый объект высокой размерности двух- или трёхмерной точкой таким образом, что похожие объекты моделируются близко расположенными точками, а непохожие точки моделируются с большой вероятностью точками, далеко друг от друга отстоящими.

Описание

Алгоритм t-SNE состоит из двух главных шагов. Сначала t-SNE создаёт распределение вероятностей по парам объектов высокой размерности таким образом, что похожие объекты будут выбраны с большой вероятностью, в то время как вероятность выбора непохожих точек будет мала. Затем t-SNE определяет похожее распределение вероятностей по точкам в пространстве малой размерности и минимизирует расстояние Кульбака — Лейблера между двумя распределениями с учётом положения точек. Заметим, что исходный алгоритм использует евклидово расстояние между объектами как базу измерения сходства, это может быть изменено сообразно обстоятельствам.

Алгоритм t-SNE использовался для визуализации широкого ряда приложений, включая исследование компьютерной безопасностиШаблон:Sfn, Шаблон:Не переведено 5Шаблон:Sfn, Шаблон:Не переведено 5Шаблон:Sfn, биоинформатикуШаблон:Sfn и обработку биомедицинских сигналовШаблон:Sfn. Алгоритм часто используется для визуализации высокоуровневых представлений, полученных из искусственной нейронной сетиШаблон:Sfn.

Поскольку t-SNE отображения часто используются для показа кластеров, а на визуализацию кластеров может оказывать значительное влияние выбранная параметризация, постольку необходимо умение работать с параметрами алгоритма t-SNE. Для выбора параметров и проверки результатов могут оказаться необходимы Шаблон:Термин исследованияШаблон:SfnШаблон:Sfn. Было продемонстрировано, что алгоритм t-SNE часто способен обнаружить хорошо отделённые друг от друга кластеры, а при специальном выборе параметров аппроксимировать простой вид спектральной кластеризацииШаблон:Sfn.

Детали

Если дан набор из N объектов высокой размерности 𝐱1,,𝐱N, t-SNE сначала вычисляет вероятности pij, которые пропорциональны похожести объектов 𝐱i и 𝐱j следующим образом:

pji=exp(𝐱i𝐱j2/2σi2)kiexp(𝐱i𝐱k2/2σi2),

Ван дер Маатен и Хинтон объясняли: «Похожесть точки данных xj точке xi является условной вероятностью pj|i, что для xi будет выбрана xj в качестве соседней точки, если соседи выбираются пропорционально их гауссовой плотности вероятности с центром в xi»Шаблон:Sfn.

pij=pji+pij2N

Более того, вероятности с i=j принимаются равными нулю: pii=0

Полоса пропускания гауссовых ядер σi устанавливается с помощью метода бисекции так, что Шаблон:Не переведено 5 условного распределения равна предопределённой перплексивности. Как результат полоса пропускания адаптируется плотности данных — меньшие значения σi используются в более плотных частях пространства данных.

Поскольку гауссово ядро использует евклидово расстояние xixj, оно подвержено проклятию размерности и в данных высокой размерности, когда расстояния теряют возможность различать, pij становятся слишком похожи (асимптотически, они сходятся к константе). Предлагается подкорректировать расстояние с помощью экспоненциального преобразования, основываясь на Шаблон:Не переведено 5 каждой точки, чтобы смягчить проблемуШаблон:Sfn.

Алгоритм t-SNE стремится получить отображение 𝐲1,,𝐲N в d-мерное пространство (с 𝐲id), которое отражает похожести pij, насколько это возможно. Для этого алгоритм измеряет похожесть qij между двумя точками 𝐲i и 𝐲j с помощью очень похожего подхода. Конкретно, qij определяется как

qij=(1+𝐲i𝐲j2)1kl(1+𝐲k𝐲l2)1

Здесь имеющее утяжелённый хвост t-распределение Стьюдента (с одной степенью свободы, которое является тем же, что и распределение Коши) используется для измерения похожести между точками в пространстве низкой размерности, чтобы иметь возможность непохожие объекты расположить на карте далеко друг от друга. Заметим, что в этом случае мы также устанавливаем qii=0

Расположения точек 𝐲i в пространстве малой размерности определяется минимизацией (несимметричной) расстояния Кульбака — Лейблера распределения Q от распределения P, то есть

KL(P||Q)=ijpijlogpijqij

Минимизация расстояния Кульбака — Лейблера по отношению к точкам 𝐲i осуществляется с помощью градиентного спуска. Результатом оптимизации является отображение, которое отражает похожесть между объектами пространства высокой размерности.

Программное обеспечение

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend

Ссылки

Шаблон:Машинное обучение Шаблон:Rq