Метод наименьших полных квадратов

Материал из testwiki
Перейти к навигации Перейти к поиску
Двумерный случай метода наименьших полных квадратов (регрессия Деминга). Красные отрезки показывают ошибку как по x, так и по y, что отличается от традиционного метода наименьших квадратов, в котором ошибка измеряется только по оси y.

В прикладной статистике метод наименьших полных квадратов (МНПК, TLS — Шаблон:Lang-en) — это вид Шаблон:Не переведено 5, техника моделирования данных с помощью метода наименьших квадратов, в которой принимаются во внимание ошибки как в зависимых, так и в независимых переменных. Метод является обобщением регрессии Деминга и ортогональной регрессии и может быть применён как к линейным, так и нелинейным моделям.

Аппроксимация данных методом наименьших полных квадратов в общем виде эквивалентна лучшей по норме Фробениуса Шаблон:Не переведено 5 матрицы данныхШаблон:Sfn.

Линейная модель

Основы

В методе наименьших квадратов моделирования данных минимизируется функция потерь S,

S=𝐫𝐓𝐖𝐫,

где r — вектор Шаблон:Не переведено 5, а W — весовая матрица. В линейном методе наименьших квадратов модель содержит уравнения, которые линейны от параметров в векторе β, так что отклонения вычисляются по формуле

𝐫=𝐲𝐗β.

Имеется m наблюдений в векторе y и n параметров в β при m>n. X является m×n матрицей, элементы которой либо константы, либо функции от независимых переменных x. Весовая матрица W, в идеале, является обратной к дисперсионно-ковариационной матрице 𝐌y наблюдений y. Предполагается, что независимые переменные ошибок не имеют. Параметры оценки находятся путём приравнивания градиента нулю, что приводит к уравнению [note 1]

𝐗𝐓𝐖𝐗β=𝐗𝐓𝐖𝐲

Возможность ошибок наблюдений для всех переменных

Предположим теперь, что как x, так и y наблюдаются с ошибками с дисперсионно-ковариационными матрицами 𝐌x и 𝐌y соответственно. В этом случае функция потерь записывается как

S=r𝐱𝐓M𝐱𝟏𝐫𝐱+r𝐲𝐓M𝐲𝟏𝐫𝐲,

где 𝐫x и 𝐫y являются отклонениями для x и y соответственно. Ясно, что эти отклонения не могут быть независимыми и между ними должна быть какая-то связь. Если записать функцию как 𝐟(𝐫𝐱,𝐫𝐲,β), ограничения выражаются m условиямиШаблон:Sfn.

𝐅=Δ𝐲frx𝐫𝐱fry𝐫𝐲𝐗Δβ=𝟎

Таким образом, задача сводится к минимизации функции потерь при m ограничениях. Задача решается с помощью множителей Лагранжа. После некоторых алгебраических преобразованийШаблон:Sfn получим

𝐗𝐓𝐌𝟏𝐗Δβ=𝐗𝐓𝐌𝟏Δ𝐲,

или, альтернативно, 𝐗𝐓𝐌𝟏𝐗β=𝐗𝐓𝐌𝟏𝐲

Здесь M — дисперсионно-ковариационная матрица, относящаяся как к независимым, так и зависимым переменным.

𝐌=𝐊𝐱𝐌𝐱K𝐱𝐓+𝐊𝐲𝐌𝐲K𝐲𝐓; 𝐊𝐱=frx, 𝐊𝐲=fry

Пример

В случае, когда ошибки данных не коррелируют, все матрицы M и W диагональны. Тогда используем построение прямой по точкам.

f(xi,β)=α+βxi

И в этом случае

Mii=σy,i2+β2σx,i2

что показывает, как дисперсия в i-ой точке определяется дисперсией независимых и зависимых переменных, а также моделью, используемой для согласования данных. Выражение можно обобщить, если заметить, что параметр β является наклоном прямой.

Mii=σy,i2+(dydx)i2σx,i2

Выражение такого вида используется для аппроксимации Шаблон:Не переведено 5, когда малые ошибки в x дают большие ошибки y в случае большого наклона.

С алгебраической точки зрения

Прежде всего следует заметить, что задача МНПК в общем случае решения не имеет, что было показано ещё в 1980Шаблон:Sfn. Рассмотрим простой случай, где единственное решение существует без каких-либо предположений.

Вычисление МНПК с помощью сингулярного разложения описан в стандартных текстахШаблон:Sfn. Мы можем решить уравнение

XBY

относительно B, где X — матрица m-на-n, а Y — матрица m-на-k[note 2]

То есть мы пытаемся найти матрицу B, минимизирующую матрицы ошибок R и F для X и Y соответственно. То есть

argminR,F[RF]F,(X+R)B=Y+F,

где [RF]расширенная матрица с R и F рядом и F является нормой матрицы, квадратным корнем из суммы квадратов всех элементов матриц, что эквивалентно квадратному корню из суммы квадратов длин строк или столбцов матрицы.

Это можно переписать как

[(X+R)(Y+F)][BEk]=0.

Где Ek является k×k единичной матрицей. Целью является нахождение матрицы [RF], которая уменьшает ранг [XY] на k. Определим [U][Σ][V]* как сингулярное разложение расширенной матрицы [XY].

[XY]=[UXUY][ΣX00ΣY][VXXVXYVYXVYY]*=[UXUY][ΣX00ΣY][VXX*VYX*VXY*VYY*],

где V разбита на блоки, соответствующие формам матриц X и Y.

Если использовать теорему Экарта-Янга, аппроксимация, минимизирующая норму ошибки, это такая аппроксимация, что матрицы U и V не меняются, в то время как k наименьших сингулярных значений заменяются нулями. То есть мы хотим

[(X+R)(Y+F)]=[UXUY][ΣX000k×k][VXXVXYVYXVYY]*

так что, ввиду линейности,

[RF]=[UXUY][0n×n00ΣY][VXXVXYVYXVYY]*.

Мы можем удалить блоки из матриц U и Σ, упростив выражение до

[RF]=UYΣY[VXYVYY]*=[XY][VXYVYY][VXYVYY]*.

Это даёт R и F, таки что

[(X+R)(Y+F)][VXYVYY]=0.

Теперь, если VYY не вырождена, что не всегда верно (заметим, что поведение МНПК в случае вырожденности VYY не вполне понятно), мы можем умножить справа обе части на VYY1, чтобы привести нижний блок правой матрицы к отрицательной единичной матрице, что даётШаблон:Sfn

[(X+R)(Y+F)][VXYVYY1VYYVYY1]=[(X+R)(Y+F)][BEk]=0,

а тогда

B=VXYVYY1.

Имплементация в системе GNU Octave:

function B = tls(X,Y)

[m n]   = size(X);            % n является шириной матрицы X (X[m x n])
Z       = [X Y];              % Z является расширением X на Y.
[U S V] = svd(Z,0);           % находим [[Сингулярное разложение|SVD]] матрицы Z.
VXY     = V(1:n,1+n:end);     % Берём блок матрицы V, состоящий из первых n строк и n+1 последних столбцов
VYY     = V(1+n:end,1+n:end); % Берём нижний правы блок матрицы V.
B       = -VXY/VYY;

end

Метод решения задачи, описанный выше и требующий, чтобы матрица VYY не была вырожденной, может быть слегка расширен так называемым классическим МНПК алгоритмомШаблон:Sfn.

Вычисление

Стандартная имплементация классического алгоритма МНПК доступна на Netlib, см. также статьиШаблон:SfnШаблон:Sfn. Все современные имплементации, базирующиеся, например, на использовании обычного метода наименьших квадратов, аппроксимируют матрицу B (которая в литературе обозначается как X), как это делают Ван Хуффель и Вандевалле. Стоит заметить, однако, что полученная матрица B во многих случаях не является решением МНПКШаблон:Sfn.

Нелинейная модель

Для Шаблон:Не переведено 5 похожие рассуждения показывают, что нормальное уравнение для итерационного цикла может быть переписано как

𝐉𝐓𝐌𝟏𝐉Δβ=𝐉𝐓𝐌𝟏Δ𝐲.

Геометрическая интерпретация

Шаблон:Основная статья Шаблон:Подробно Если независимые переменные ошибок не имеют, отклонения представляют «вертикальное» расстояние между точкой данных и аппроксимирующей кривой (или поверхностью). В методе наименьших полных квадратов отклонения представляют расстояние между точкой данных и аппроксимирующей кривой, измеряемое в некотором направлении. Фактически, если обе переменные измеряются в одинаковых единицах и ошибки обоих переменных те же самые, то отклонение представляет кратчайшее расстояние от точки данных до аппроксимирующее кривой, то есть вектор отклонения перпендикулярен касательной к кривой. По этой причине этот тип регрессии называют иногда двумерной евклидовой регрессиейШаблон:Sfn или ортогональной регрессией.

Масштабно-инвариантные методы

Серьёзная трудность появляется, если переменные не измеряются в тех же самых единицах. Сначала рассмотрим измерение расстояния между точками данных и кривой — какова будет единица измерения для расстояния? Если мы будем измерять расстояние на основе теоремы Пифагора, ясно, что нам придётся складывать единицы, измеряемые в различных единицах, что приводит к бессмысленным результатам. Если мы заменим масштаб одной из переменных, например, будем измерять в граммах, а не килограммах, мы получим другие результаты (другую кривую). Чтобы избежать этой проблемы несоизмеримости, иногда предлагается переводить их в безразмерные величины — это можно назвать нормализацией или стандартизацией. Существуют, однако, различные пути сделать это, приводящие к неэквивалентным моделям. Один из подходов — нормализовать с помощью известной (или оценочной) точности измерения, минимизируя тем самым расстояние Махаланобиса до точек на линии и обеспечивая решение с максимальным правдоподобием. Неизвестные точности измерения могут быть найдены с помощью дисперсионного анализа.

Кратко, метод наименьших полных квадратов не имеет свойства инвариантности по единицам измерения, т.е. он не является масштабно инвариантным. Для полноценности модели мы требуем, чтобы это свойство выполнялось. Дальнейшее продвижение вперёд, это понимание, что отклонения (расстояния), измеряемые в других единицах, могут быть скомбинированы, если используется умножение, а не сложение. Рассмотрим аппроксимацию прямой, для каждой точки данных произведение горизонтального и вертикального отклонений равно удвоенной площади треугольника, образованного отрезками отклонений и аппроксимирующей прямой. Мы выбираем прямую, минимизирующую сумму этих площадей. Нобелевский лауреат Пол Самуэльсон доказал в 1942, что в двумерном случае эта прямая выражается исключительно в терминах отношений квадратических отклонений и корреляции коэффициентов, которые (1) удовлетворяют уравнению, если наблюдения находятся на прямой линии; (2) обнаруживают масштабную инвариантность, (3) обнаруживают инвариантность при обмене переменныхШаблон:Sfn. Эта прямая переоткрывалась в различных дисциплинах и известна как стандартизованная главная осьШаблон:SfnШаблон:Sfn, приведённая главная ось, функциональная зависимость средних геометрическихШаблон:Sfn, регрессия наименьших квадратов, диагональная регрессия и прямая наименьших площадей. ТофаллисШаблон:Sfn расширил этот подход для работы с несколькими переменными.

См. также

Примечания

Шаблон:Reflist Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend

Дополнительная литература

Шаблон:Навигационная таблица Шаблон:Rq
Ошибка цитирования Для существующих тегов <ref> группы «note» не найдено соответствующего тега <references group="note"/>