Линейная регрессия

Материал из testwiki
Перейти к навигации Перейти к поиску
y=ax+b
Пример линии (красная), построенной с использованием линейной регрессии

Линейная регрессия (Шаблон:Lang-en) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной y от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) x с линейной функцией зависимости.

Модель линейной регрессии является часто используемой и наиболее изученной в эконометрике. А именно изучены свойства оценок параметров, получаемых различными методами при предположениях о вероятностных характеристиках факторов, и случайных ошибок модели. Предельные (асимптотические) свойства оценок нелинейных моделей также выводятся исходя из аппроксимации последних линейными моделями. С эконометрической точки зрения более важное значение имеет линейность по параметрам, чем линейность по факторам модели.

Определение

Регрессионная модель

y=f(x,b)+ε,

где b — параметры модели, ε — случайная ошибка модели; называется линейной регрессией, если функция регрессии f(x,b) имеет вид

f(x,b)=b0+b1x1+b2x2+...+bkxk,

где bj — параметры (коэффициенты) регрессии, xj — регрессоры (факторы модели), k — количество факторов моделиШаблон:Sfn.

Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна):

jbj=fxj=const

Параметр b0, при котором нет факторов, называют часто константой. Формально — это значение функции при нулевом значении всех факторов. Для аналитических целей удобно считать, что константа — это параметр при «факторе», равном 1 (или другой произвольной постоянной, поэтому константой называют также и этот «фактор»). В таком случае, если перенумеровать факторы и параметры исходной модели с учетом этого (оставив обозначение общего количества факторов — k), то линейную функцию регрессии можно записать в следующем виде, формально не содержащем константу:

f(x,b)=b1x1+b2x2++bkxk=j=1kbjxj=xTb,

где xT=(x1,x2,...,xk) — вектор регрессоров, b=(b1,b2,,bk)T — вектор-столбец параметров (коэффициентов).

Линейная модель может быть как с константой, так и без константы. Тогда в этом представлении первый фактор либо равен единице, либо является обычным фактором соответственно.

Парная и множественная регрессия

В частном случае, когда фактор единственный (без учёта константы), говорят о парной или простейшей линейной регрессии:

yt=a+bxt+εt

Когда количество факторов (без учёта константы) больше одного, то говорят о множественной регрессии:

Y=b0+b1xi1+...+bjxij+...+bkxik+ei

Примеры

Модель затрат организации (без указания случайной ошибки)

TC=FC+VC=FC+vQ

Простейшая модель потребительских расходов (Кейнс)

C=a+bY+ε
  • C — потребительские расходы
  • Y — располагаемый доход
  • b — «предельная склонность к потреблению»
  • a — автономное (не зависящее от дохода) потребление.

Матричное представление

Пусть дана выборка объёмом n наблюдений переменных y и x. Обозначим t — номер наблюдения в выборке. Тогда yt — значение переменной y в t-м наблюдении, xtj — значение j-го фактора в t-м наблюдении. Соответственно, xtT=(xt1,xt2,...,xtk) — вектор регрессоров в t-м наблюдении. Тогда линейная регрессионная зависимость имеет место в каждом наблюдении:

yt=b1xt1+b2xt2+...+bkxtk=j=1kbjxtj=xtTb+εt,E(εt)=0,t=1..n

Введём обозначения:

y=(y1y2...yn) — вектор наблюдений зависимой переменой y
X=(x11x12...x1kx21x22...x2k...xn1xn2...xnk) — матрица факторов.
ε=(ε1ε2...εn) — вектор случайных ошибок.

Тогда модель линейной регрессии можно представить в матричной форме:

y=Xb+ε

Классическая линейная регрессия

В классической линейной регрессии предполагается, что наряду со стандартным условием E(εt)=0 выполнены также следующие предположения (условия Гаусса — Маркова):

  1. Гомоскедастичность (постоянная или одинаковая дисперсия) или отсутствие гетероскедастичности случайных ошибок модели: V(εt)=σ2=const
  2. Отсутствие автокорреляции случайных ошибок: i,j,i=jcov(εi,εj)=0

Данные предположения в матричном представлении модели формулируются в виде одного предположения о структуре ковариационной матрицы вектора случайных ошибок: V(ε)=σ2In

Помимо указанных предположений, в классической модели факторы предполагаются детерминированными (нестохастическими). Кроме того, формально требуется, чтобы матрица X имела полный ранг (k), то есть предполагается, что отсутствует полная коллинеарность факторов.

При выполнении классических предположений обычный метод наименьших квадратов позволяет получить достаточно качественные оценки параметров модели, а именно: они являются несмещёнными, состоятельными и наиболее эффективными оценками.

Методы оценки

См. также

Примечания

Шаблон:Примечания

Литература

Шаблон:Вс Шаблон:Навигационная таблица Шаблон:Машинное обучение Шаблон:Нет ссылок