BIRCH

Сбалансированное итеративное сокращение и кластеризация с помощью иерархий (BIRCH, Шаблон:Lang-en) — это алгоритм интеллектуального анализа данных без учителя, используемый для осуществления иерархической кластеризации на наборах данных большого размераШаблон:Sfn. Преимуществом BIRCH является возможность метода динамически кластеризовать по мере поступления многомерных метрических Шаблон:Не переведено 5 в попытке получить кластеризацию лучшего качества для имеющегося набора ресурсов (памяти и Шаблон:Не переведено 5). В большинстве случаев алгоритм BIRCH требует одного прохода по базе данных.

Разработчики BIRCH утверждали, что это был «первым алгоритмом кластеризации, предлагающим в базах данных эффективно обрабатывать 'шум' (точки данных, которые не являются частью схемы)»Шаблон:Sfn побивший DBSCAN за два месяца. Алгоритм получил в 2006 году приз SIGMOD после 10 лет тестирования^[1].

Проблема с предыдущими методами

Предыдущие алгоритмы кластеризации работали менее эффективно на больших базах данных и неадекватно вели себя в случае, когда данные были слишком большие, чтобы поместиться в оперативную память. Как результат имелось много затрат для получения высокого качества кластеризации при минимизации цены дополнительных операций ввода/вывода. Более того, большинство предшественников BIRCH просматривали все точки данных (или всех выделенных кластеров на текущий момент) одинаково для каждого 'решения кластеризации' и не делали эвристического взвешивания на базе расстояний между этими точками данных.

Преимущества BIRCH

Каждое решение кластеризации локально и осуществляется без просмотра всех точек данных и существующих на текущий момент кластеров. Метод работает на наблюдениях, пространство данных которых обычно не однородно заполнено и не каждая точка данных одинаково важна. Метод позволяет использовать всю доступную память для получения наиболее точных возможных подкластеров при минимизации цены ввода/вывода. Метод является инкрементальным и не требует наличия полного набора данных сразу.

Алгоритм

Алгоритм BIRCH берёт в качестве входа набор из Шаблон:Mvar точек данных, представленный как вещественные вектора, и желаемое число кластеров Шаблон:Mvar. Алгоритм разбит на четыре фазы, вторая из которых не обязательна.

Первая фаза строит CF дерево точек данных, высоко сбалансированную древесную структуру, определённую следующим образом:

Если дан набор N d-мерных точек данных, признак кластеризации (Шаблон:Lang-en) $C F$ набора определяется как тройка $C F = (N, L S, S S)$ , где $\vec{L S} = \sum_{i = 1}^{N} \vec{X_{i}}$ является линейной суммой, а $\vec{S S} = \sum_{i = 1}^{N} (\vec{X_{i}})^{2}$ является суммой квадратов точек данных.
Признаки кластеризации организуются в CF-дерево, высоко сбалансированное дерево с двумя параметрами: коэффициентом ветвления $B$ и порогом $T$ . Каждый нелистовой узел состоит максимум из $B$ входов вида $[C F_{i}, c h i l d_{i}]$ , где $c h i l d_{i}$ является указателем на его $i$ -ого потомка, а $C F_{i}$ является признаком кластеризации, представляющим связанный подкластер. Лист содержит не более $L$ входов, каждый вида $[C F_{i}]$ . Он также имеет два указателя, prev и next, которые используются для соединения в цепь все листы. Размер дерева зависит от параметра T. Требуется, чтобы узел A вмещался на страницу размера P. B и L определяются значением P. Таким образом, P может меняться для Шаблон:Не переведено 5. Это очень компактное представление набора данных, поскольку каждый лист не является отдельной точкой данных, а является подкластером.

На втором шаге алгоритм просматривает все листья в начальном CF-дереве, чтобы построить меньшее CF-дерево путём удаления выпадений и группирования переполненных подклассов в бо́льшие подклассы. Этот шаг в исходном представлении BIRCH помечен как необязательный.

На третьем шаге используется существующий алгоритм для кластеризации всех листов. Здесь применяется агломерирующий иерархический алгоритм кластеризации непосредственно к подкластерам, представленным их CF-векторами. Это также обеспечивает гибкость, позволяющую пользователю указать либо желаемое число кластеров, либо желаемый порог диаметра кластеров. После этого шага получаем набор кластеров, которые содержат главные схемы распределения в данных. Однако могут существовать небольшие локальные неточности, которые могут быть обработаны необязательным шагом 4. На шаге 4 центры тяжести кластеров, полученных на шаге 3, используются как зародыши и точки перераспределения точек данных для получения нового набора кластеров. Шаг 4 обеспечивает также возможность отбрасывания выбросов. То есть точка, которая слишком далека от ближайшего зародыша, может считаться выбросом.

Вычисление признаков кластеров

Если дано только $C F = [N, \vec{L S}, \vec{S S}]$ , те же измерения могут быть получены без знания истинных значений.

Центроид: $\vec{C} = \frac{\sum_{i = 1}^{N} \vec{X_{i}}}{N} = \frac{\vec{L S}}{N}$

Радиус: $R = \sqrt{\frac{\sum_{i = 1}^{N} (\vec{X_{i}} - \vec{C})^{2}}{N}} = \sqrt{\frac{N \cdot \overset{2}{\vec{C}} + \vec{S S} - 2 \cdot \vec{C} \cdot \vec{L S}}{N}}$

Среднее расстояние между кластерами $C F_{1} = [N_{1}, \vec{L S_{1}}, \vec{S S_{1}}]$ и $C F_{2} = [N_{2}, \vec{L S_{2}}, \vec{S S_{2}}]$ : $D_{2} = \sqrt{\frac{\sum_{i = 1}^{N_{1}} \sum_{j = 1}^{N_{2}} (\vec{X_{i}} - \vec{Y_{j}})^{2}}{N_{1} \cdot N_{2}}} = \sqrt{\frac{N_{1} \cdot \vec{S S_{2}} + N_{2} \cdot \vec{S S_{1}} - 2 \cdot \vec{L S_{1}} \cdot \vec{L S_{2}}}{N_{1} \cdot N_{2}}}$

В мультифакторных случаях квадратный корень может быть заменён подходящей нормой.

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Книга

Шаблон:Refend Шаблон:Машинное обучение Шаблон:Rq

↑ Шаблон:Cite web

[1] Шаблон:Cite web

[1]

BIRCH

Содержание

Проблема с предыдущими методами

Преимущества BIRCH

Алгоритм

Вычисление признаков кластеров

Примечания

Литература

Навигация

BIRCH

Проблема с предыдущими методами

Преимущества BIRCH

Алгоритм

Вычисление признаков кластеров

Примечания

Литература

Навигация

Поиск