Дилемма смещения-дисперсии

Шаблон:Кратное изображение

Компромисс отклонение-дисперсия в статистике и в машинном обучении — это свойство набора моделей предсказания, когда модели с меньшим отклонением от имеющихся данных имеют более высокую дисперсию на новых данных (то есть подвержены переобучению), и наоборот. Компромисс отклонение-дисперсия — конфликт при попытке одновременно минимизировать эти два источника Шаблон:Не переведено 5, которые мешают алгоритмам обучения с учителем делать обобщение за пределами тренировочного набора.

Смещение — это погрешность оценки, возникающая в результате ошибочного предположения в алгоритме обучения. В результате большого смещения алгоритм может пропустить связь между признаками и выводом (недообучение).
Дисперсия — это ошибка чувствительности к малым отклонениям в тренировочном наборе. При высокой дисперсии алгоритм может как-то трактовать случайный Шаблон:Не переведено 5 в тренировочном наборе, а не желаемый результат (переобучение).

Разложение смещения-дисперсии — это способ анализа ожидаемой Шаблон:Не переведено 5 алгоритма обучения для частной задачи сведением к сумме трёх членов — смещения, дисперсии и величины, называемой неустранимой погрешностью, которая является результатом шума в самой задаче.

Дилемма возникает во всех формах обучения с учителем — в классификации, регрессии (аппроксимация функции)Шаблон:Sfn Шаблон:Sfn и в структурном прогнозировании. Дилемма также используется для объяснения эффективности эвристики при обучении людейШаблон:Sfn.

Побудительные причины

Дилемма смещения-дисперсии является центральной проблемой в обучении с учителем. Выбираемая модель должна, с одной стороны, точно уловить все закономерности в обучающих данных, а с другой стороны — обобщить закономерности на неизвестные данные. К сожалению, обычно это невозможно сделать одновременно. Методы обучения с высокой дисперсией могут хорошо представлять тренировочный набор, но имеют риск быть переобученными для данных с шумом или непрезентативных данных. В отличие от них, алгоритмы с низкой дисперсией обычно дают более простые модели, не склонно к переобучению, но может оказаться недообученным, что приводит к пропуску важных свойств.

Модели с малым смещением обычно более сложны (например, в них регрессионные многочлены имеют более высокий порядок), что позволяет им представлять тренировочное множество более точно. Однако они могут иметь большую компоненту Шаблон:Не переведено 5 тренировочного набора, что делает предсказание менее точным вопреки добавленной сложности. Для контраста, модели с высоким смещением относительно более просты (имеют многочлены меньшего порядка или даже линейные), но могут давать низкую дисперсию предсказаний, если применяются вне тренировочного набора.

Разложение смещения-дисперсии квадратичной ошибки

Предположим, что у нас есть тренировочное множество, состоящее из набора точек $x_{1}, \dots, x_{n}$ и вещественных значений $y_{i}$ , связанных с каждой из этих точек $x_{i}$ . Мы предполагаем, что есть функция с шумом $y = f (x) + ε$ , где шум $ε$ имеет нулевое среднее и дисперсию $σ^{2}$ .

Мы хотим найти функцию $\hat{f} (x)$ , которая аппроксимирует истинную функцию $f (x)$ настолько хорошо, насколько возможно, в смысле некоторого алгоритма обучения. Мы делаем понятие «настолько хорошо, насколько возможно» точным путём измерения Шаблон:Не переведено 5 между $y$ и $\hat{f} (x)$ — мы хотим, чтобы значение $(y - \hat{f} (x))^{2}$ было минимальным как для точек $x_{1}, \dots, x_{n}$ , так и за пределами нашей выборки. Естественно, мы не можем сделать это идеально, поскольку $y_{i}$ содержит шум $ε$ . Это означает, что мы должны быть готовы принять неустранимую ошибку в любой функции, с которой будем работать.

Поиск функции $\hat{f}$ , которая обобщается для точек вне тренировочного набора, может быть осуществлён любым из несчётного числа алгоритмов, используемых для обучения с учителем. Оказывается, что какую бы функцию $\hat{f}$ мы ни выбрали, мы можем разложить её ожидаемую ошибку на непросмотренном экземпляре данных $x$ следующим образом:Шаблон:Sfn Шаблон:Sfn.

\begin{matrix} E [(y - \hat{f} (x))^{2}] & = (Bias [\hat{f} (x)])^{2} + Var [\hat{f} (x)] + σ^{2} \end{matrix}

,

где

\begin{matrix} Bias [\hat{f} (x)] = E [\hat{f} (x) - f (x)] \end{matrix}

и

\begin{matrix} Var [\hat{f} (x)] = E [\hat{f} (x)^{2}] - (E [\hat{f} (x)])^{2} \end{matrix}

Математические ожидания пробегают разные варианты выбора тренировочного набора $x_{1}, \dots, x_{n}, y_{1}, \dots, y_{n}$ из одного и того же совместного распределения $P (x, y)$ . Три члена представляют

квадрат смещения метода обучения, который можно рассматривать как ошибку, вызванную упрощением предположений, принятых в методе. Например, когда применяется аппроксимация нелинейной функции $f (x)$ при использовании метода обучения для Шаблон:Не переведено 5, будет появляться ошибка в оценке $\hat{f} (x)$ как результат такого допущения;
дисперсия метода обучения, или, интуитивно, как далеко метод обучения $\hat{f} (x)$ уведёт от среднего значения;
неустранимая ошибка $σ^{2}$ . Поскольку все три величины неотрицательны, они формируют нижнюю границу ожидаемой ошибки на непросмотренных данныхШаблон:Sfn.

Чем более сложна модель $\hat{f} (x)$ , тем больше точек данных она захватывает и тем меньше будет смещение. Однако сложность приводит модель к захвату большего числа точек, а потому её дисперсия будет больше.

Вывод

Вывод разложения смещения-дисперсии для среднеквадратичной ошибки приведён нижеШаблон:Sfn Шаблон:Sfn. Для удобства введём обозначения $f = f (x)$ и $\hat{f} = \hat{f} (x)$ . Во-первых, вспомним, что по определению для любой случайной переменной $X$ мы имеем

\begin{matrix} Var [X] = E [X^{2}] - (E [X])^{2} \end{matrix}

Переставив члены получим:

\begin{matrix} E [X^{2}] = Var [X] + (E [X])^{2} \end{matrix}

Поскольку $f$ детерминирована,

\begin{matrix} E [f] = f \end{matrix}

.

Тогда из $y = f + ε$ и $E [ε] = 0$ вытекает, что $E [y] = E [f + ε] = E [f] = f$ .

Но поскольку $Var [ε] = σ^{2},$ , получаем

\begin{matrix} Var [y] = E [(y - E [y])^{2}] = E [(y - f)^{2}] = E [(f + ε - f)^{2}] = E [ε^{2}] = Var [ε] + (E [ε])^{2} = σ^{2} \end{matrix}

Так как $ε$ и $\hat{f}$ независимы, мы можем записать

\begin{matrix} E [(y - \hat{f})^{2}] & = E [y^{2} + {\hat{f}}^{2} - 2 y \hat{f}] \\ = E [y^{2}] + E [{\hat{f}}^{2}] - E [2 y \hat{f}] \\ = Var [y] + E [y]^{2} + Var [\hat{f}] + E [\hat{f}]^{2} - 2 f E [\hat{f}] \\ = Var [y] + Var [\hat{f}] + (f^{2} - 2 f E [\hat{f}] + E [\hat{f}]^{2}) \\ = Var [y] + Var [\hat{f}] + (f - E [\hat{f}])^{2} \\ = σ^{2} + Var [\hat{f}] + Bias [\hat{f}]^{2} \end{matrix}

Применение для регрессии

Разложение смещения-дисперсии образует концептуальный базис для методов регуляризации регрессии, таких как Lasso и гребневая регрессия. Методы регуляризации вносят смещение в решение регрессии, которое может значительно уменьшить дисперсию по сравнению с Шаблон:Не переведено 5 (ОМНК, Шаблон:Lang-en, OLS). Хотя решение ОМНК даёт несмещённую оценку регрессии, решения с меньшей дисперсией, полученные путём регуляризации, обеспечивают превосходную среднеквадратичную ошибку.

Применение для классификации

Разложение смещение-дисперсия первоначально было сформулировано для линейной регрессии методом наименьших квадратов. Для случая классификации с 0-1 функцией потерь (доля неправильно классифицированных), можно найти похожее разложениеШаблон:Sfn Шаблон:Sfn. Альтернативно, если задача классификации может быть сформулирована как вероятностная классификация, ожидание квадрата ошибки предсказанных вероятностей по отношению к истинным вероятностям может быть разложено как и ранееШаблон:Sfn.

Подходы

Снижение размерности и отбор признаков могут уменьшить дисперсию путём упрощения моделей. Аналогично, больше тренировочное множество приводит к уменьшению дисперсии. Добавление признаков (предсказателей) ведёт к уменьшению смещения за счёт увеличения дисперсии. Алгоритмы обучения обычно имеют некоторые настраиваемые параметры, которые контролируют смещение и дисперсию. Например,

(Обобщённые) линейные модели могут быть регуляризованы для уменьшения дисперсии за счёт увеличения смещения Шаблон:Sfn.
в искусственных нейронных сетях дисперсия увеличивается и смещение уменьшается с увеличением числа скрытых единицШаблон:Sfn. Подобно обобщённым линейным моделям для них тоже обычно применяется регуляризация.
В моделях k ближайших соседей большое значение Шаблон:Mvar ведёт к большому смещению и низкой дисперсии (см. ниже).
В обучении на примерах, регуляризация может быть получена путём смешения прототипов и примеровШаблон:Sfn.
В деревьях решений глубина дерев определяет дисперсию. Деревья решений обычно обрезаются для контроля дисперсииШаблон:Sfn.

Один из способов разрешения дилеммы — использование Шаблон:Не переведено 5 и ансамблевого обучения Шаблон:Sfn Шаблон:Sfn. Например, бустинг комбинирует несколько «слабых» (с высоким смещением) моделей в сборку, которая имеет более низкое смещение, чем каждая из индивидуальных моделей, в то время как бэггинг комбинирует «строгое» обучение так, что уменьшается дисперсия.

k-ближайших соседей

В случае [[Метод k ближайших соседей|регрессии Шаблон:Mvar-ближайших соседей]] существует выражение в замкнутой форме, связывающее разложение смещение-дисперсия с параметром Шаблон:Mvar Шаблон:Sfn:

E [(y - \hat{f} (x))^{2} ∣ X = x] = {(f (x) - \frac{1}{k} \sum_{i = 1}^{k} f (N_{i} (x)))}^{2} + \frac{σ^{2}}{k} + σ^{2}

где $N_{1} (x), \dots, N_{k} (x)$ являются Шаблон:Mvar ближайшими соседями Шаблон:Mvar в тренировочном наборе. Смещение (первый член) является монотонно возрастающей функцией от Шаблон:Mvar, в то время как дисперсия (второй член) убывает по мере роста Шаблон:Mvar. Фактически, при «разумных предположениях» оценщика смещения ближайшего соседа (1-NN) полностью обращается в нуль, когда размер тренировочного множества стремится к бесконечностиШаблон:Sfn.

Применение для обучения людей

В то время как дилемма смещения-дисперсии широко обсуждается в контексте машинного обучения, она была проверена в контексте когнитивных способностей человека, прежде всего Гердом Гигеренцером с соавторами. Они утверждают, что (см. ссылки ниже) человеческий мозг решает дилемму в случае разреженных плохо описанных тренировочных наборов, полученных в результате личного опыта, путём использования эвристики высокого смещения/низкой дисперсия. Это отражает факт, что подход с нулевым смещением имеет плохую обобщаемость к новым ситуациям, а также беспричинно предполагает точное знание состояния мира. Получающаяся эвристика относительно проста, но даёт лучшее соответствие широкому разнообразию ситуацийШаблон:Sfn.

Гиман и др.Шаблон:Sfn возражают, что из дилеммы смещения-дисперсии следует, что такие возможности, как распознавание общих объектов, не может быть получено с нуля, а требует определённого «жёсткого монтажа», который затем превращается в опыт. Именно поэтому подходы к заключениям без модели требуют неоправданно больших наборов тренировочных наборов, если нужно избежать высокой дисперсии.