XGBoost

Шаблон:Infobox software XGBoost^[1] (eXtreme Gradient Boosting) — это библиотека с открытым исходным кодом, используемая в машинном обучении и предоставляющая функциональность для решения задач, связанных с регуляризацией градиентного бустинга. Библиотека поддерживается языками программирования C++, Java, Python^[2], R^[3], Julia^[4], Perl^[5] и Scala. Библиотека работает под ОС Linux, Windows^[6], и macOS^[7]. Она работает как на одной машине, так и на системах распределенной обработки Apache Hadoop, Apache Spark и Apache Flink.

В последнее время эта библиотека приобрела большую популярность и привлекла внимание как выбор многих команд-победителей соревнований по машинному обучению^[8].

История

XGBoost изначально начинался как исследовательский проект Чэн Тяньци^[9] как часть группы Distributed (Deep) Machine Learning Community (DMLC). Изначально она начиналась как консольная программа, которую можно было настроить с помощью конфигурационного файла libsvm. XGBoost стал широко известен в кругах участников соревнований по машинному обучению после его использования в решении победителя конкурса Higgs Machine Learning Challenge. Вскоре после этого были созданы пакеты для Python и R, и теперь XGBoost имеет реализации пакетов для Java, Scala, Julia, Perl и других языков. Это позволило привлечь к библиотеке больше разработчиков и способствовало ее популярности среди сообщества Kaggle, где она использовалась для проведения большого количества соревнований^[8].

Вскоре XGBoost был интегрирован с рядом других пакетов, что упростило его использование в соответствующих сообществах. Сейчас он интегрирован в scikit-learn для пользователей Python и в пакет caret для пользователей R. Он также может быть интегрирован в такие фреймворки Data Flow, как Apache Spark, Apache Hadoop и Apache Flink с помощью абстрактного Rabit^[10] и XGBoost4J^[11]. XGBoost также доступен на OpenCL для ПЛИС^[12]. Эффективная, масштабируемая реализация XGBoost была опубликована Чэн Тяньци и Карлосом Густрином^[13].

Хотя модель XGBoost часто достигает более высокой точности, чем одно дерево решений, она жертвует присущей деревьям решений интерпретируемостью. Например, проследить путь, по которому дерево решений принимает решение, тривиально и самообъяснимо, но проследить пути сотен или тысяч деревьев гораздо сложнее. Для достижения производительности и интерпретируемости некоторые методы сжатия моделей позволяют преобразовать XGBoost в одно "перерожденное" дерево решений, которое аппроксимирует ту же функцию принятия решений^[14].

Функционал

Основные особенности XGBoost, отличающие его от других алгоритмов градиентного бустинга, включают:^[15]^[16]^[17].

Умная штрафовка деревьев
Пропорциональное уменьшение узлов листьев
Метод Ньютона в оптимизации
Дополнительный параметр рандомизации
Реализация на одиночных, распределенных системах и out-of-core вычислениях
Автоматический отбор признаков

Описание алгоритма

XGBoost использует Метод Ньютона-Рафсона в пространстве функций, в отличие от градиентного бустинга, который работает как градиентный спуск в пространстве функций, в функции потерь используется ряд Тейлора второго порядка для связи с методом Ньютона-Рафсона.

Общий вид нерегуляризованного алгоритма XGBoost: Шаблон:Начало коробки Вход: обучающее множество ${(x_{i}, y_{i})}_{i = 1}^{N}$ , дифференцируемая функция потерь $L (y, F (x))$ , число слабых обучающихся $M$ и скорость обучения $α$ .

Алгоритм:

Инициализировать модель постоянным значением:
${\hat{f}}_{(0)} (x) = \underset{θ}{\arg \min} \sum_{i = 1}^{N} L (y_{i}, θ) .$
Для Шаблон:Mvar = от 1 до Шаблон:Mvar:
1. Вычислите "градиенты" и "гессианы":
  ${\hat{g}}_{m} (x_{i}) = {[\frac{\partial L (y_{i}, f (x_{i}))}{\partial f (x_{i})}]}_{f (x) = {\hat{f}}_{(m - 1)} (x)} .$
  
  ${\hat{h}}_{m} (x_{i}) = {[\frac{\partial^{2} L (y_{i}, f (x_{i}))}{\partial f (x_{i})^{2}}]}_{f (x) = {\hat{f}}_{(m - 1)} (x)} .$
2. Подогнать базового/слабого обучающегося, используя обучающее множество ${x_{i}, - \frac{{\hat{g}}_{m} (x_{i})}{{\hat{h}}_{m} (x_{i})}}_{i = 1}^{N}$ , решив следующую оптимизационную задачу:
  ${\hat{ϕ}}_{m} = \underset{ϕ \in 𝜱}{\arg \min} \sum_{i = 1}^{N} \frac{1}{2} {\hat{h}}_{m} (x_{i}) {[- \frac{{\hat{g}}_{m} (x_{i})}{{\hat{h}}_{m} (x_{i})} - ϕ (x_{i})]}^{2} .$
  
  ${\hat{f}}_{m} (x) = α {\hat{ϕ}}_{m} (x) .$
3. Обновление модели:
  ${\hat{f}}_{(m)} (x) = {\hat{f}}_{(m - 1)} (x) + {\hat{f}}_{m} (x) .$
Результат: $\hat{f} (x) = {\hat{f}}_{(M)} (x) = \sum_{m = 0}^{M} {\hat{f}}_{m} (x) .$

Шаблон:Конец коробки

Награды

Премия John Chambers (2016)^[18]
Премия High Energy Physics meets Machine Learning award (HEP meets ML) (2016)^[19]

Примечания

Шаблон:Примечания

[source-code-1] Шаблон:Cite web

[xgboost-python-2] Шаблон:Cite web

[xgboost-cran-3] Шаблон:Cite web

[xgboost-julia-4] Шаблон:Cite web

[xgboost-perl-5] Шаблон:Cite web

[xgboost-windows-6] Шаблон:Cite web

[xgboost-macos-7] Шаблон:Cite web

[xgboost-competition-winners-8] 8,0 ^8,1 Шаблон:Cite web

[history-9] Шаблон:Cite web

[rabit-10] Шаблон:Cite web

[xgboost4j-11] Шаблон:Cite web

[xgboost_FPGA-12] Шаблон:Cite web

[paper-13] Шаблон:Cite conference

[14] Шаблон:Cite journal

[15] Шаблон:Cite web

[16] Шаблон:Cite web

[17] Шаблон:Cite web

[john-chambers-18] Шаблон:Cite web

[hep-meets-ml-19] Шаблон:Cite web

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

XGBoost

Содержание

История

Функционал

Описание алгоритма

Награды

Примечания

Навигация

XGBoost

История

Функционал

Описание алгоритма

Награды

Примечания

Навигация

Поиск