Логистическая регрессия

Материал из testwiki
Перейти к навигации Перейти к поиску

Логистическая регрессия или логит-модель (Шаблон:Lang-en) — статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём его сравнения с логистической кривой. Эта регрессия выдаёт ответ в виде вероятности бинарного события (1 или 0).

Описание

Логистическая функция: f(x)=11+ex.

Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится так называемая зависимая переменная y, принимающая лишь одно из двух значений — как правило, это числа 0 (событие не произошло) и 1 (событие произошло), и множество независимых переменных (также называемых признаками, предикторами или регрессорами) — вещественных x1,x2,...,xn, на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной. Как и в случае линейной регрессии, для простоты записи вводится фиктивный признак x0=1.

Делается предположение о том, что вероятность наступления события y=1 равна:

{y=1x}=f(z),

где z=θTx=θ0+θ1x1++θnxn, x и θ — векторы-столбцы значений независимых переменных 1,x1,,xn и параметров (коэффициентов регрессии) — вещественных чисел θ0,...,θn, соответственно, а f(z) — так называемая логистическая функция (иногда также называемая сигмоидой или логит-функцией):

f(z)=11+ez.

Так как y принимает лишь значения 0 и 1, то вероятность принять значение 0 равна:

{y=0x}=1f(z)=1f(θTx).

Для краткости функцию распределения y при заданном x можно записать в таком виде:

{yx}=f(θTx)y(1f(θTx))1y,y{0,1}.

Фактически, это есть распределение Бернулли с параметром, равным f(θTx).

Подбор параметров

Для подбора параметров θ0,...,θn необходимо составить обучающую выборку, состоящую из наборов значений независимых переменных и соответствующих им значений зависимой переменной y. Формально, это множество пар (x(1),y(1)),...,(x(m),y(m)), где x(i)n — вектор значений независимых переменных, а y(i){0,1} — соответствующее им значение y. Каждая такая пара называется обучающим примером.

Обычно используется метод максимального правдоподобия, согласно которому выбираются параметры θ, максимизирующие значение функции правдоподобия на обучающей выборке:

θ^=argmaxθL(θ)=argmaxθi=1m{y=y(i)x=x(i)}.

Максимизация функции правдоподобия эквивалентна максимизации её логарифма:

lnL(θ)=i=1mlog{y=y(i)x=x(i)}=i=1m[y(i)lnf(θTx(i))+(1y(i))ln(1f(θTx(i)))], где θTx(i)=θ0+θ1x1(i)++θnxn(i).

Для максимизации этой функции может быть применён, например, метод градиентного спуска. Он заключается в выполнении следующих итераций, начиная с некоторого начального значения параметров θ:

θ:=θ+αlnL(θ)=θ+αi=1m(y(i)f(θTx(i)))x(i),α>0.

На практике также применяют метод Ньютона и стохастический градиентный спуск.

Регуляризация

Для улучшения обобщающей способности получающейся модели, то есть уменьшения эффекта переобучения, на практике часто рассматривается логистическая регрессия с регуляризацией.

Регуляризация заключается в том, что вектор параметров θ рассматривается как случайный вектор с некоторой заданной априорной плотностью распределения p(θ). Для обучения модели вместо метода наибольшего правдоподобия при этом используется метод максимизации апостериорной оценки, то есть ищутся параметры θ, максимизирующие величину:

i=1m{y(i)x(i),θ}p(θ).

В качестве априорного распределения часто выступает многомерное нормальное распределение 𝒩(0,σ2I) с нулевым средним и матрицей ковариации σ2I, соответствующее априорному убеждению о том, что все коэффициенты регрессии должны быть небольшими числами, идеально — многие малозначимые коэффициенты должны быть нулями. Подставив плотность этого априорного распределения в формулу выше, и прологарифмировав, получим следующую оптимизационную задачу:

i=1mlog{y(i)x(i),θ}λθ2max,

где λ=const/σ2 — параметр регуляризации. Этот метод известен как L2-регуляризованная логистическая регрессия, так как в целевую функцию входит L2-норма вектора параметров для регуляризации.

Если вместо L2-нормы использовать L1-норму, что эквивалентно использованию распределения Лапласа, как априорного, вместо нормального, то получится другой распространённый вариант метода — L1-регуляризованная логистическая регрессия:

i=1mlog{y(i)x(i),θ}λθ1max.

Применение

Эта модель часто применяется для решения задач классификации — объект x можно отнести к классу y=1, если предсказанная моделью вероятность {y=1x}>0,5, и к классу y=0 в противном случае. Получающиеся при этом правила классификации являются линейными классификаторами.

Связанные методы

На логистическую регрессию очень похожа пробит-регрессия, отличающаяся от неё лишь другим выбором функции f(z). Softmax-регрессия обобщает логистическую регрессию на случай многоклассовой классификации, то есть когда зависимая переменная y принимает более двух значений. Все эти модели в свою очередь являются представителями широкого класса статистических моделей — обобщённых линейных моделей.

См. также

Литература

Шаблон:Навигационная таблица Шаблон:Машинное обучение