Локальный уровень выброса

Локальный уровень выброса — алгоритмШаблон:Уточнить нахождения аномальных точек данных путём измерения локального отклонения данной точки с учётом её соседейШаблон:Sfn.

Имеет общие концепции с DBSCAN и OPTICS, такие как понятия «основное расстояние» и «достижимое расстояние»^[1], которые используются для оценки локальной плотностиШаблон:Sfn.

Базовая идея

Локальный уровень выброса основывается на концепции локальной плотности, где локальность задаётся $k$ ближайшими соседями, расстояния до которых используются для оценки плотности. Путём сравнения локальной плотности объекта с локальной плотностью его соседей можно выделить области с аналогичной плотностью и точки, которые имеют существенно меньшую плотность, чем её соседи. Эти точки считаются выбросами.

Локальная плотность оценивается типичным расстоянием, с которым точка может быть «достигнута» от соседних точек. Определение «расстояния достижимости», используемого в алгоритме, является дополнительной мерой для получения более устойчивых результатов внутри кластеров.

Формальное описание

Пусть $k-distance (A)$ является расстоянием от объекта $A$ до k-ого ближайшего соседа. Заметим, что множество k ближайших соседей включает все объекты на этом расстоянии и в случае «узла» может содержать более k объектов. Мы обозначаем множество k ближайших соседей как $N_{k} (A)$ .

Это расстояние используется для определения достижимого расстояния (Шаблон:Lang-en):

${reachability-distance}_{k} (A, B) = \max {k-distance (B), d (A, B)}$

Иллюстрация расстояния достижимости. Объекты B и C имеют одно и то же расстояние достижимости (k=3), в то время как D не является k-ближайшим соседом

Говоря словами, достижимое расстояние объекта $A$ из $B$ является истинным расстоянием двух объектов. Объекты, которые принадлежат к k ближайшим соседям точки $B$ («основные точки» точки $B$ , см. DBSCAN), считаются находящимися на одинаковом расстоянии для получения более стабильных результатов. Заметим, что это расстояние не является расстоянием в математическом смысле, поскольку оно не симметрично. (Общей ошибкой является применение $k-distance$ всегда, так что это даёт слегка другой метод, называемый упрощённым методом локального уровня выбросаШаблон:Sfn)

Локальная плотность достижимости объекта $A$ определяется как

${lrd}_{k} (A) := 1 / (\frac{\sum_{B \in N_{k} (A)} {reachability-distance}_{k} (A, B)}{| N_{k} (A) |})$ ,

которая является обратным значением среднему расстоянию достижимости объекта $A$ из его соседей. Заметим, что это не является средним расстоянием достижимости соседей из точки $A$ (которое по определению должно было бы быть $k-distance (A)$ ), а является расстоянием, на котором A может быть «достигнуто» из его соседей. С дубликатами точек это значение может стать бесконечным.

Локальные плотности достижимости затем сравниваются с локальными плотностями достижимости соседей

${LOF}_{k} (A) := \frac{\sum_{B \in N_{k} (A)} \frac{lrd (B)}{lrd (A)}}{| N_{k} (A) |} = \frac{\sum_{B \in N_{k} (A)} lrd (B)}{| N_{k} (A) |} / lrd (A)$

что есть средняя локальная плотность достижимости соседей, делённая на локальную плотность достижимости самого объекта. Значение, примерно равное $1$ , означает, что объект сравним с его соседями (а тогда он не является выбросом). Значение меньше $1$ означает плотную область (которая может быть внутренностью), а значения, существенно большие $1$ , свидетельствуют о выбросах.

Преимущества

Оценки алгоритма «Локальный уровень выброса», визуализированные Шаблон:Нп5. В то время как верхний правый кластер имеет сравнимую плотность с выбросом, близком к левому нижнему кластеру, они определяются корректно.

Вследствие локальности подхода алгоритм локального уровня выброса способен выявить выбросы в наборе данных, которые могли бы не быть выбросами в других областях набора данных. Например, точка на «малом» расстоянии до любого плотного кластера является выбросом, в то время как точка внутри редкого кластера может иметь похожие расстояния с её соседями.

В то время как геометрическая интуиция алгоритма применима только к векторным пространствам низкой размерности, алгоритм может быть применён в любом контексте, где функция непохожести может быть определена. Экспериментально было показано, что алгоритм хорошо работает в большом числе ситуаций, часто превосходя соперников, например в системах обнаружения вторжений Шаблон:Sfn и на обработанных классификационных данных Шаблон:Sfn.

Семейство методов локального уровня выброса может быть легко обобщено и затем применено к различным другим задачам, таким как выявление выбросов в географических данных, видеопотоках или сетях ссылок на авторствоШаблон:Sfn.

Недостатки и расширения

Получающиеся значения трудно интерпретировать. Значение 1 или даже меньше единицы говорит, что точка чисто внутренняя, но нет никакого ясного правила, по которому точка будет выбросом. В одном наборе данных значение 1,1 может уже означать выбросом, в другом наборе данных и параметризации (с сильными локальными флуктуациями) значение 2 может ещё означать внутренность. Эти различия могут случаться внутри одного набора данных ввиду локальности метода. Существуют расширения метода, которые пытаются улучшить алгоритм:

Бэггинг признаков для обнаружения обособленностейШаблон:Sfn выполняет алгоритм локального уровня выброса на нескольких проекциях и комбинирует результаты для улучшенного качества обнаружения в высоких размерностях. Это первый подход на основе ансамблевого обучения для обнаружения обособленияШаблон:Sfn.
Локальная вероятность выброса (ЛВВ, Шаблон:Lang-en, LoOP)Шаблон:Sfn является методом, полученным из метода локального уровня выброса, но использующий экономную локальную статистику, чтобы сделать метод менее чувствительным к выбору параметра k. Кроме того, результирующие значения масштабируются к значению $[0 : 1]$ .
Интерпретация и унификация степени выброса (Шаблон:Lang-en)Шаблон:Sfn предполагает нормализацию оценки выброса к интервалу $[0 : 1]$ с помощью статистического масштабирования с целью увеличения удобства использования и можно рассматривать алгоритм как улучшенную версию идеи локальной вероятности выброса.
Оценка распределения выбросов и степени выброса (Шаблон:Lang-en)Шаблон:Sfn предлагает средства измерения похожести и отличия методов для построения продвинутого ансамбля методов выявления выбросов с помощью вариантов алгоритма локального уровня выброса и других алгоритмов и улучшения подхода бэггинга признаков.
Пересмотренное локальное выявление выбросов: обобщённый взгляд на локальность с приложениями в пространственное выявление выбросов, в выявлении выбросов в видео и сетяхШаблон:Sfn обсуждает общую схему в различных методах локального выявления выбросов (включая алгоритм локального уровня выброса, его упрощённую версию и ЛЛВ) и переводит рассмотрение в общие принципы. Эти принципы применяются затем, например, к выявлению выбросов в географических данных, видеопотоках и сети ссылок на авторство.

Примечания

Шаблон:Примечания

Литература

Шаблон:Rq Шаблон:Машинное обучение

↑ Вместо «достижимое расстояние» в литературе встречается также название «досягаемость»

[1] Вместо «достижимое расстояние» в литературе встречается также название «досягаемость»

[1]

Локальный уровень выброса

Содержание

Базовая идея

Формальное описание

Преимущества

Недостатки и расширения

Примечания

Литература

Навигация

Локальный уровень выброса

Базовая идея

Формальное описание

Преимущества

Недостатки и расширения

Примечания

Литература

Навигация

Поиск