Модель бинарного выбора

Материал из testwiki
Перейти к навигации Перейти к поиску

Модель бинарного выбора — применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения — 0 и 1) от совокупности факторов. Построение обычной линейной модели для таких зависимых переменных теоретически некорректно, так как условное математическое ожидание таких переменных равно вероятности того, что зависимая переменная примет значение 1, а линейная модель допускает в том числе отрицательные значения и значения выше 1 (притом что вероятность должна быть от 0 до 1). Поэтому обычно используются некоторые интегральные функции распределения. Чаще всего используются нормальное распределение (пробит), логистическое распределение (логит) , распределение Гомперца (гомпит).

Сущность модели

Пусть переменная Y является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными 1 и 0. Например, Y может означать наличие/отсутствие каких-либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов) X, которые оказывают влияние на Y.

Регрессионная модель имеет дело с условным по факторам математическим ожиданием зависимой переменной, которое в данном случае равно вероятности того, что зависимая переменная равна 1. В самом деле, по определению математического ожидания и с учетом всего двух возможных значений имеем:

E(YX=x)=1P(Y=1X=x)+0P(Y=0X=x)=P(Y=1X=x)=p(x)

В связи с этим применение, например, стандартной модели линейной регрессии y=xTb+ε теоретически некорректно хотя бы потому, что вероятность по определению принимает ограниченные значения от 0 до 1. В связи с этим разумно моделировать p(x) через интегральные функции тех или иных распределений.

Обычно предполагается, что имеется некая скрытая (не наблюдаемая) "обычная" переменная Y*, в зависимости от значений которой наблюдаемая переменная Y принимает значение 0 или единица:

Y={1,Y*>00,Y*<0

Предполагается, что скрытая переменная зависит от факторов X в смысле обычной линейной регрессии y*=xTb+ε, где случайная ошибка имеет распределение F. Тогда

p(x)=P(Y*>0|X=x)=P(xTb+ε>0)=P(ε>xTb)=1F(xTb)

Если распределение симметричное, то можно записать

p(x)=F(xTb)

Экономическая интерпретация

Ещё одно обоснование заключается в использовании понятия полезности альтернатив — не наблюдаемой функции U(y,x), то есть фактически двух функций U1(x)=xTb1+ε1 и U0(x)=xTb0+ε0 соответственно для двух альтернатив. Логично предположить, что если при заданных значениях факторов полезность одной альтернативы больше полезности другой, то выбирается первая и наоборот. В связи с этим разумно рассмотреть функцию разности полезностей альтернатив ΔU(x)=U1(x)U0(x)=xT(b1b0)+(ε1ε0)=xTb+ε. Если она больше нуля, то выбирается первая альтернатива, если меньше или равна нулю — то вторая. Таким образом, функция разности полезностей альтернатив здесь выполняет роль той самой скрытой переменной. Наличие случайной ошибки в моделях полезностей позволяет учесть не абсолютную детерминированность выбора (по крайней мере не детерминированность данным набором факторов, хотя элемент случайности выбора есть при любом наборе факторов).

Модели по видам распределений

Пробит. В пробит-модели в качестве F используется интегральная функция стандартного нормального распределения Φ:

p(x)=1Φ(xTb)=Φ(xTb)

Логит. В логит-модели используется CDF логистического распределения:

p(x)=1exTb/(1+exTb)=exTb/(1+exTb)

Гомпит. Используется распределение экстремальных значений - распределение Гомперца:

p(x)=1(1eexTb)=eexTb

Оценка параметров

Оценка обычно производится методом максимального правдоподобия. Пусть имеется выборка объёма n факторов X и зависимой переменной Y. Для данного номера наблюдения используем индекс t. Вероятность получения в наблюдении t значения yt можно смоделировать следующим образом:

P(Y=yt)=pyt(xt)(1p(xt))1yt=(1F(xtTb))ytF1yt(xtTb)

В самом деле, если yt=1, то второй множитель очевидно равен 1, а первый как раз p(xt), если же yt=0, то первый множитель равен единице, а второй — (1p(xt)). Предполагается, что данные независимы. Поэтому функцию правдоподобия можно получить как произведение вышеуказанных вероятностей:

L(b)=t=1n(1F(xtTb))ytF1yt(xtTb)

Соответственно логарифмическая функция правдоподобия имеет вид:

l(b)=t=1nytln(1F(xtTb))+(1yt)lnF(xtTb)

Максимизация данной функции по неизвестным параметрам позволяет получить состоятельные, асимптотически эффективные и асимптотически нормальные оценки параметров. Последнее означает, что:

n(b^b) d 𝒩(0,Ω1),

где Ω1 — асимптотическая ковариационная матрица оценок параметров, которая определяется стандартным для метода максимального правдоподобия способом (через гессиан или градиент логарифмической функции правдоподобия в оптимальной точке).

Показатели качества и тестирование модели

LR=2(l1l0),

где l1,l0 — значения логарифмической функции правдоподобия оцененной модели и ограниченной модели, в которой p(x) является константой (не зависит от факторов x, исключая константу из множества факторов).

Данная статистика, как и в общем случае использования метода максимального правдоподобия, позволяет тестировать статистическую значимость модели в целом. Если её значение достаточно большое (больше критического значения распределения χ2(k), где k-количество факторов (без константы) модели), то модель можно признать статистически значимой.

Также используются аналоги классического коэффициента детерминации, например:

  • Псевдо-коэффициент детерминации:
Rpseudo2=111+LR/n=LRLR+n
  • Коэффициент детерминации МакФаддена (индекс отношения правдоподобия):
RMcFadden2=LRI=1l1/l0

Оба показателя меняются в пределах от 0 до 1.

  • Информационные критерии: информационный критерий Акаике (AIC), байесовский информационный критерий Шварца (BIC, SC), критерий Хеннана-Куина (HQ).

Важное значение имеет анализ доли правильных прогнозов в зависимости от выбранного порога классификации (с какого уровня вероятности принимается значение 1). Обычно применяется ROC-кривая для оценки качества модели и показатель AUC - площадь под ROC-кривой.

  • Статистика Хосмера-Лемешоу (H-L, HL, Hosmer-Lemeshow). Для расчета данной статистики выборка разбивается на несколько подвыборок, по каждой из которых определяются — фактическая доля данных со значением зависимой переменной 1, то есть фактически среднее значение зависимой переменной по подвыборке
pj=yj=i=1njyij/nj
и предсказанная средняя вероятность по подгруппе
p^j=i=1njp^ij/nj.
Тогда значение статистики HL определяется по формуле
HL=j=1Jnj(pjp^j)2p^j(1p^j)

Точное распределение данной статистики неизвестно, однако авторы методом симуляций установили, что оно аппроксимируется распределением χ2(J2).

  • Статистика Эндрюса (Andrews)

См. также

Литература

  • Greene, William H. (1997) Econometric Analysis, 3rd edition, Prentice-Hall.
  • Andrews, Donald W.K. (1988) “Chi-Square Diagnostic Tests for Econometric Models: Theory,” Econometrica, 56, 1419–1453.
  • Andrews, Donald W.K. (1988) “Chi-Square Diagnostic Tests for Econometric Models: Introduction and Applications,” Journal of Econometrics, 37, 135–156.
  • Hosmer, David W. Jr. and Stanley Lemeshow (1989) Applied Logistic Regression, John Wiley & Sons.