Регрессионный анализ

Материал из testwiki
Перейти к навигации Перейти к поиску

Шаблон:К объединению Шаблон:Не путать Регрессио́нный анализ — набор статистических методов исследования влияния одной или нескольких независимых переменных X1,X2,...,Xp на зависимую переменную Y. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными или регрессантами. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Корреляция), а не причинно-следственные отношения. Наиболее распространённый вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая (или гиперплоскость), сумма квадратов отклонений между которой и данными минимальна.

Цели регрессионного анализа

  1. Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
  2. Предсказание значения зависимой переменной с помощью независимой(-ых)
  3. Определение вклада отдельных независимых переменных в вариацию зависимой

Математическое определение регрессии

Строго регрессионную зависимость можно определить следующим образом. Пусть Y,X1,X2,,Xp — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений X1=x1,X2=x2,,Xp=xp определено условное математическое ожидание

y(x1,x2,,xp)=𝔼(YX1=x1,X2=x2,,Xp=xp) (уравнение регрессии в общем виде),

то функция y(x1,x2,,xp) называется регрессией величины Y по величинам X1,X2,,Xp, а её график — линией регрессии Y по X1,X2,,Xp, или уравнением регрессии.

Зависимость Y от X1,X2,,Xp проявляется в изменении средних значений Y при изменении X1,X2,,Xp. Хотя при каждом фиксированном наборе значений X1=x1,X2=x2,,Xp=xp величина Y остаётся случайной величиной с определённым распределением.

Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y при изменении X1,X2,...,Xp, используется средняя величина дисперсии Y при разных наборах значений X1,X2,...,Xp (фактически речь идёт о мере рассеяния зависимой переменной вокруг линии регрессии).

В матричной форме уравнение регрессии (УР) записывается в виде: Y=BX+U, где U — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.

Метод наименьших квадратов (расчёт коэффициентов)

На практике линия регрессии чаще всего ищется в виде линейной функции Y=b0+b1X1+b2X2++bNXN (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых Y от их оценок Y^ (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

k=1M(YkYk^)2min

(M — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда Y=y(x1,x2,...xN).

Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:

σ(b¯)=12k=1M(YkY^k)2

Условие минимума функции невязки:

{σ(b¯)bi=0i=0...N{i=1Myi=i=1Mj=1Nbjxi,j+b0Mi=1Myixi,k=i=1Mj=1Nbjxi,jxi,k+b0i=1Mxi,kk=1,,N

Полученная система является системой N+1 линейных уравнений с N+1 неизвестными b0,,bN.

Если представить свободные члены левой части уравнений матрицей

B=(i=1Myii=1Myixi,1i=1Myixi,N),

а коэффициенты при неизвестных в правой части — матрицей

A=(Mi=1Mxi,1i=1Mxi,2...i=1Mxi,Ni=1Mxi,1i=1Mxi,1xi,1i=1Mxi,2xi,1...i=1Mxi,Nxi,1i=1Mxi,2i=1Mxi,1xi,2i=1Mxi,2xi,2...i=1Mxi,Nxi,2i=1Mxi,Ni=1Mxi,1xi,Ni=1Mxi,2xi,N...i=1Mxi,Nxi,N),

то получаем матричное уравнение: A×X=B, которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

X=(b0b1bN)

Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса — Маркова). В англоязычной литературе такие оценки называются Шаблон:Lang-en2 (Шаблон:Lang-en2 — «наилучшие линейные несмещённые оценки»). Большинство исследуемых зависимостей может быть представлено с помощью МНК нелинейными математическими функциями.

Интерпретация параметров регрессии

Параметры bi являются частными коэффициентами корреляции; (bi)2 интерпретируется как доля дисперсии Y, объяснённая Xi, при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад Xi в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.

Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идёт ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида X1X2, X1X2X3, свидетельствующее о наличии взаимодействий между признаками X1, X2 и т. д. (см. Мультиколлинеарность).

См. также

Литература

Шаблон:Вс Шаблон:Машинное обучение