Оценочная функция Тейла – Сена

Материал из testwiki
Перейти к навигации Перейти к поиску
Оценочная функция Тейла — Сена множества точек выборки (чёрная линия) по сравнению с неробастными методом наименьших квадратов для того же множества (синия линия). Зелёная пунктирная линия представляет истинные данные, из которых выборки были сгенерированы.

В непараметрической статистике существует метод для робастного Шаблон:Не переведено 5 множества точек (простая линейная регрессия), в котором выбирается медиана наклонов всех прямых, проходящих через пары точек выборки на плоскости. Метод называется оценочной функцией Тейла — Сена, оценочной функцией Сена коэффициента наклонаШаблон:SfnШаблон:Sfn, выбором наклона[1][2], методом одной медианыШаблон:Sfn, методом Кендалла робастного приближения прямой Шаблон:SfnШаблон:Sfn и робастной прямой Кендалла — ТейлаШаблон:Sfn. Метод назван именами Анри Тейла и Пранаба К. Сена, опубликовавшими статьи об этом методе в 1950 и 1968 соответственно, а также именем Мориса Кендалла.

Эта оценочная функция может быть эффективно вычислена и она нечувствительна к выбросам. Она может быть существенно более точна, чем неробастный метод наименьших квадратов для несимметричных и гетероскедастичных данных и хорошо конкурирует с неробастным методом наименьших квадратов даже для нормально распределенных данных в терминах статистической мощностиШаблон:Sfn. Метод признан «наиболее популярной непараметрической техникой оценки линейного тренда»Шаблон:Sfn.

Определение

Как определил ТейлШаблон:Sfn, оценочная функция Тейла — Сена множества точек на плоскости Шаблон:Math — это медиана Шаблон:Mvar коэффициентов наклона Шаблон:Math по всем парам точек выборки. СенШаблон:Sfn расширил это определение для обработки случая, когда две точки имеют одинаковые координаты Шаблон:Mvar. По определению Сена медиана коэффициентов наклона берётся только по парам точек, имеющих различные координаты Шаблон:Mvar.

Когда наклон Шаблон:Mvar вычислен, можно определить прямую из точек выборки путём выбора точки Шаблон:Mvar пересечения оси Шаблон:Mvar, равной медиане значений Шаблон:Math Шаблон:Sfn. Как заметил Сен, это оценочная функция, которая делает τ-коэффициент ранговой корреляции Кендалла сравнения Шаблон:Mvar с остатком i-го наблюдения приблизительно равным нулюШаблон:Sfn.

Доверительный интервал для оценки угла наклона может быть определён как интервал, содержащий средние 95 % значений коэффициентов наклона прямых, проходящих через пары точек[3], и может быть быстро оценён семплированием пар и определением 95%-го интервала семплированных коэффициентов наклона. Согласно численному моделированию, выборка примерно 600 пар точек достаточна для определения точного доверительного интервалаШаблон:Sfn.

Вариации

Вариантом оценочной функции Тейла — Сена по СигелуШаблон:Sfn определяет для каждой точки выборки Шаблон:Math медиану Шаблон:Mvar коэффициентов наклона Шаблон:Math прямых, проходящих через эту точку, а затем вычисляется общая оценочная функция как медиана этих медиан.

Другой вариант выбирает пары точек выборки по рангу их Шаблон:Mvar-координат (точке с наименьшей координатой выбирается в пару первая точка выше координаты медианы и т. д.), затем вычисляются коэффициенты наклона прямых, определяемых этими парами точекШаблон:Sfn.

Изучаются также варианты оценочной функции Тейла — Сена, базирующиеся на Шаблон:Не переведено 5, основанные на принципе, что пары выборок, Шаблон:Mvar-координаты которых отличаются больше, более вероятно имеют более точный наклон, а потому должны иметь больший вес[4]

Для сезонных данных может быть уместным сглаживать сезонные переменные в данных путём отбора пар точек выборки, которые принадлежат одному месяцу или тому же сезону года, а уж затем вычислять медиану коэффициентов наклона прямых, определённых этими ограниченными парамиШаблон:Sfn.

Статистические свойства

Оценочная функция Тейла — Сена является несмещённой оценкой истинного наклона в простой линейной регрессииШаблон:SfnШаблон:Sfn. Для многих распределений неслучайной ошибки эта оценочная функция имеет высокую Шаблон:Не переведено 5 относительно метода наименьших квадратовШаблон:SfnШаблон:Sfn. Оценочные функции с низкой эффективностью требуют больше независимых наблюдений, чтобы достичь той же дисперсии, что и при эффективных несмещённых оценочных функциях.

Оценочная функция Тейла — Сена более робастна, чем оценочная функция метода наименьших квадратов, поскольку она существенно более устойчива к выбросам. Она имеет порог 11229.3%, что означает, что она может допустить искажение до 29,3 % входных данных без уменьшения точностиШаблон:Sfn. Однако порог уменьшается для многомерных обобщений методаШаблон:Sfn. Более высокий порог, 50 %, имеется у другого робастного алгоритма линейной оценки, повторной медианной оценочной функции СигелаШаблон:Sfn.

Оценочная функция Тейла — Сена является Шаблон:Не переведено 5 при любом линейном преобразовании её переменных отклика, что означает, что преобразование данных с последующим построением оценивающей прямой и построение прямой с последующим преобразованием данных приводит к одинаковым результатамШаблон:Sfn. Однако оценочная функция не является эквивариантной при одновременном аффинном преобразовании как предикторных переменных, так и переменных откликаШаблон:Sfn.

Алгоритмы

Медиана коэффициента наклона множества Шаблон:Mvar точек выборки может быть вычислена точно путём вычисления всех Шаблон:Math прямых через пары точек и применения алгоритма линейного времени для выбора медианы. Альтернативно, значение может быть оценено путём выборки пар точек. Задача эквивалентна, согласно проективной двойственности, задаче нахождения точки пересечения конфигурации прямых, которой принадлежит медиана Шаблон:Mvar координат среди всех таких точек пересечения.Шаблон:Sfn

Задача выбора коэффициента наклона точно, но эффективнее, чем грубый квадратичный перебор, интенсивно изучалась в вычислительной геометрии. Известны некоторые другие методы точного вычисления оценочной функции Тейла — Сена за время Шаблон:Math либо детерминированно[1], либо с использованием вероятностных алгоритмов[2]. Повторная медианная оценка Сигела может быть также построена эффективно за то же времяШаблон:Sfn. В моделях вычислений, в которых входные координаты являются целыми числами и битовые операции над целыми числами берут постоянное время, задача может быть решена даже быстрее, с математическим ожиданием времени вычисления O(nlogn)Шаблон:Sfn.

Оценочная функция коэффициента наклона с примерным рангом медианы, имеющая тот же порог, что и оценочная функция Тейла — Сена, может быть получена в поточной модели данных (в которой точки выборки обрабатываются алгоритмом одна за другой, и алгоритм не имеет достаточной памяти для постоянного хранения всего множества данных), используя алгоритм, основанный на Шаблон:Не переведено 5Шаблон:Sfn.

Приложения

Оценочная функция Тейла — Сена была использована в астрономии ввиду возможности работать с цензурированными моделями регрессииШаблон:Sfn. Фернандес и Леблан предложили использовать её в биофизикеШаблон:Sfn дистанционного зондирования, такого как оценка листовой поверхности путём измерения отражения, ввиду «простоты вычисления, аналитической оценки доверительного интервала, робастности по отношению к выбросам, проверяемые допущения относительно погрешности и … ограниченной априори информации относительно ошибок измерения». Для измерения сезонных данных окружающей среды, таких как качество воды, был предложен сезонный вариант оценочной функции Тейла — Сена как более предпочтительный по сравнению с методом наименьших квадратов, поскольку он даёт более высокую точность в случае асимметричных данныхШаблон:Sfn. В информатике метод Тейла — Сена использовался для оценки тренда Шаблон:Не переведено 5Шаблон:Sfn. Другое применение теста Тейла — Сена наблюдается в метеорологии и климатологииШаблон:Sfn, где используется для оценки устойчивых тенденций направления и скорости ветров.

См. также

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend

Ссылки

Шаблон:Rq

  1. 1,0 1,1 Шаблон:Harvnb; Шаблон:Harvnb; Шаблон:Harvnb.
  2. 2,0 2,1 Шаблон:Harvnb; Шаблон:Harvnb; Шаблон:Harvnb.
  3. Для определения доверительных интервалов пары точек должны быть семплированы с возвратом. Это означает, что множество пар, используемых в этом вычислении, включает полностью совпадающие пары. Эти пары всегда выбрасываются из доверительного интервала, поскольку они не определяют какого-либо конкретного коэффициента наклона, но учёт их при вычислениях делает доверительный интервал шире.
  4. Шаблон:Harvnb; Шаблон:Harvnb; Шаблон:Harvnb; Шаблон:Harvnb.