Метод наименьших полных квадратов

В прикладной статистике метод наименьших полных квадратов (МНПК, TLS — Шаблон:Lang-en) — это вид Шаблон:Не переведено 5, техника моделирования данных с помощью метода наименьших квадратов, в которой принимаются во внимание ошибки как в зависимых, так и в независимых переменных. Метод является обобщением регрессии Деминга и ортогональной регрессии и может быть применён как к линейным, так и нелинейным моделям.
Аппроксимация данных методом наименьших полных квадратов в общем виде эквивалентна лучшей по норме Фробениуса Шаблон:Не переведено 5 матрицы данныхШаблон:Sfn.
Линейная модель
Основы
В методе наименьших квадратов моделирования данных минимизируется функция потерь S,
где r — вектор Шаблон:Не переведено 5, а W — весовая матрица. В линейном методе наименьших квадратов модель содержит уравнения, которые линейны от параметров в векторе , так что отклонения вычисляются по формуле
Имеется m наблюдений в векторе y и n параметров в β при m>n. X является m×n матрицей, элементы которой либо константы, либо функции от независимых переменных x. Весовая матрица W, в идеале, является обратной к дисперсионно-ковариационной матрице наблюдений y. Предполагается, что независимые переменные ошибок не имеют. Параметры оценки находятся путём приравнивания градиента нулю, что приводит к уравнению [note 1]
Возможность ошибок наблюдений для всех переменных
Предположим теперь, что как x, так и y наблюдаются с ошибками с дисперсионно-ковариационными матрицами и соответственно. В этом случае функция потерь записывается как
- ,
где и являются отклонениями для x и y соответственно. Ясно, что эти отклонения не могут быть независимыми и между ними должна быть какая-то связь. Если записать функцию как , ограничения выражаются m условиямиШаблон:Sfn.
Таким образом, задача сводится к минимизации функции потерь при m ограничениях. Задача решается с помощью множителей Лагранжа. После некоторых алгебраических преобразованийШаблон:Sfn получим
или, альтернативно,
Здесь M — дисперсионно-ковариационная матрица, относящаяся как к независимым, так и зависимым переменным.
Пример
В случае, когда ошибки данных не коррелируют, все матрицы M и W диагональны. Тогда используем построение прямой по точкам.
И в этом случае
что показывает, как дисперсия в i-ой точке определяется дисперсией независимых и зависимых переменных, а также моделью, используемой для согласования данных. Выражение можно обобщить, если заметить, что параметр является наклоном прямой.
Выражение такого вида используется для аппроксимации Шаблон:Не переведено 5, когда малые ошибки в x дают большие ошибки y в случае большого наклона.
С алгебраической точки зрения
Прежде всего следует заметить, что задача МНПК в общем случае решения не имеет, что было показано ещё в 1980Шаблон:Sfn. Рассмотрим простой случай, где единственное решение существует без каких-либо предположений.
Вычисление МНПК с помощью сингулярного разложения описан в стандартных текстахШаблон:Sfn. Мы можем решить уравнение
относительно B, где X — матрица m-на-n, а Y — матрица m-на-k[note 2]
То есть мы пытаемся найти матрицу B, минимизирующую матрицы ошибок R и F для X и Y соответственно. То есть
- ,
где — расширенная матрица с R и F рядом и является нормой матрицы, квадратным корнем из суммы квадратов всех элементов матриц, что эквивалентно квадратному корню из суммы квадратов длин строк или столбцов матрицы.
Это можно переписать как
Где является единичной матрицей. Целью является нахождение матрицы , которая уменьшает ранг на k. Определим как сингулярное разложение расширенной матрицы .
- ,
где V разбита на блоки, соответствующие формам матриц X и Y.
Если использовать теорему Экарта-Янга, аппроксимация, минимизирующая норму ошибки, это такая аппроксимация, что матрицы и не меняются, в то время как наименьших сингулярных значений заменяются нулями. То есть мы хотим
так что, ввиду линейности,
Мы можем удалить блоки из матриц U и Σ, упростив выражение до
Это даёт R и F, таки что
Теперь, если не вырождена, что не всегда верно (заметим, что поведение МНПК в случае вырожденности не вполне понятно), мы можем умножить справа обе части на , чтобы привести нижний блок правой матрицы к отрицательной единичной матрице, что даётШаблон:Sfn
а тогда
Имплементация в системе GNU Octave:
function B = tls(X,Y)
[m n] = size(X); % n является шириной матрицы X (X[m x n])
Z = [X Y]; % Z является расширением X на Y.
[U S V] = svd(Z,0); % находим [[Сингулярное разложение|SVD]] матрицы Z.
VXY = V(1:n,1+n:end); % Берём блок матрицы V, состоящий из первых n строк и n+1 последних столбцов
VYY = V(1+n:end,1+n:end); % Берём нижний правы блок матрицы V.
B = -VXY/VYY;
end
Метод решения задачи, описанный выше и требующий, чтобы матрица не была вырожденной, может быть слегка расширен так называемым классическим МНПК алгоритмомШаблон:Sfn.
Вычисление
Стандартная имплементация классического алгоритма МНПК доступна на Netlib, см. также статьиШаблон:SfnШаблон:Sfn. Все современные имплементации, базирующиеся, например, на использовании обычного метода наименьших квадратов, аппроксимируют матрицу (которая в литературе обозначается как ), как это делают Ван Хуффель и Вандевалле. Стоит заметить, однако, что полученная матрица во многих случаях не является решением МНПКШаблон:Sfn.
Нелинейная модель
Для Шаблон:Не переведено 5 похожие рассуждения показывают, что нормальное уравнение для итерационного цикла может быть переписано как
Геометрическая интерпретация
Шаблон:Основная статья Шаблон:Подробно Если независимые переменные ошибок не имеют, отклонения представляют «вертикальное» расстояние между точкой данных и аппроксимирующей кривой (или поверхностью). В методе наименьших полных квадратов отклонения представляют расстояние между точкой данных и аппроксимирующей кривой, измеряемое в некотором направлении. Фактически, если обе переменные измеряются в одинаковых единицах и ошибки обоих переменных те же самые, то отклонение представляет кратчайшее расстояние от точки данных до аппроксимирующее кривой, то есть вектор отклонения перпендикулярен касательной к кривой. По этой причине этот тип регрессии называют иногда двумерной евклидовой регрессиейШаблон:Sfn или ортогональной регрессией.
Масштабно-инвариантные методы
Серьёзная трудность появляется, если переменные не измеряются в тех же самых единицах. Сначала рассмотрим измерение расстояния между точками данных и кривой — какова будет единица измерения для расстояния? Если мы будем измерять расстояние на основе теоремы Пифагора, ясно, что нам придётся складывать единицы, измеряемые в различных единицах, что приводит к бессмысленным результатам. Если мы заменим масштаб одной из переменных, например, будем измерять в граммах, а не килограммах, мы получим другие результаты (другую кривую). Чтобы избежать этой проблемы несоизмеримости, иногда предлагается переводить их в безразмерные величины — это можно назвать нормализацией или стандартизацией. Существуют, однако, различные пути сделать это, приводящие к неэквивалентным моделям. Один из подходов — нормализовать с помощью известной (или оценочной) точности измерения, минимизируя тем самым расстояние Махаланобиса до точек на линии и обеспечивая решение с максимальным правдоподобием. Неизвестные точности измерения могут быть найдены с помощью дисперсионного анализа.
Кратко, метод наименьших полных квадратов не имеет свойства инвариантности по единицам измерения, т.е. он не является масштабно инвариантным. Для полноценности модели мы требуем, чтобы это свойство выполнялось. Дальнейшее продвижение вперёд, это понимание, что отклонения (расстояния), измеряемые в других единицах, могут быть скомбинированы, если используется умножение, а не сложение. Рассмотрим аппроксимацию прямой, для каждой точки данных произведение горизонтального и вертикального отклонений равно удвоенной площади треугольника, образованного отрезками отклонений и аппроксимирующей прямой. Мы выбираем прямую, минимизирующую сумму этих площадей. Нобелевский лауреат Пол Самуэльсон доказал в 1942, что в двумерном случае эта прямая выражается исключительно в терминах отношений квадратических отклонений и корреляции коэффициентов, которые (1) удовлетворяют уравнению, если наблюдения находятся на прямой линии; (2) обнаруживают масштабную инвариантность, (3) обнаруживают инвариантность при обмене переменныхШаблон:Sfn. Эта прямая переоткрывалась в различных дисциплинах и известна как стандартизованная главная осьШаблон:SfnШаблон:Sfn, приведённая главная ось, функциональная зависимость средних геометрическихШаблон:Sfn, регрессия наименьших квадратов, диагональная регрессия и прямая наименьших площадей. ТофаллисШаблон:Sfn расширил этот подход для работы с несколькими переменными.
См. также
Примечания
Шаблон:Reflist Шаблон:Примечания
Литература
- Шаблон:Книга
- Шаблон:Книга
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Книга Шаблон:Wayback
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Книга
Дополнительная литература
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Книга
- Шаблон:Книга
- Шаблон:Книга
- Perpendicular Regression Of A Line at MathPages
- Шаблон:Статья
Шаблон:Навигационная таблица
Шаблон:Rq
Ошибка цитирования Для существующих тегов <ref> группы «note» не найдено соответствующего тега <references group="note"/>