Метод максимального правдоподобия

Материал из testwiki
Перейти к навигации Перейти к поиску

Шаблон:ClearМе́тод максима́льного правдоподо́бия или метод наибольшего правдоподобия (ММП, ML, MLE — Шаблон:Lang-en) в математической статистике — это метод оценивания неизвестного параметра путём максимизации функции правдоподобия[1]. Основан на предположении о том, что вся информация о статистической выборке содержится в функции правдоподобия. Метод максимального правдоподобия был проанализирован, рекомендован и значительно популяризирован Р. Фишером между 1912 и 1922 годами (хотя ранее он был использован Гауссом, Лапласом и другими).

Оценка максимального правдоподобия является популярным статистическим методом, который используется для создания статистической модели на основе данных и обеспечения оценки параметров модели.

Метод максимального правдоподобия соответствует многим известным методам оценки в области статистики. Например, вы интересуетесь таким антропометрическим параметром, как рост жителей России. Предположим, у вас имеются данные о росте некоторого количества людей, а не всего населения. Кроме того, предполагается, что рост является нормально распределённой величиной с неизвестной дисперсией и средним значением. Среднее значение и дисперсия роста в выборке являются максимально правдоподобными к среднему значению и дисперсии всего населения.

Для фиксированного набора данных и базовой вероятностной модели, используя метод максимального правдоподобия, мы получим значения параметров модели, которые делают данные «более близкими» к реальным. Оценка максимального правдоподобия даёт уникальный и простой способ определить решения в случае нормального распределения.

Метод оценки максимального правдоподобия применяется для широкого круга статистических моделей, в том числе:

  • линейные модели и обобщённые линейные модели;
  • факторный анализ;
  • моделирование структурных уравнений;
  • многие ситуации, в рамках проверки гипотезы и доверительного интервала формирования;
  • дискретные модели выбора.

Сущность метода

Пусть есть выборка X1,,Xn из распределения θ, где θΘ — неизвестные параметры. Пусть L(𝐱θ):Θ — функция правдоподобия, где 𝐱n. Точечная оценка

θ^MΠ=θ^MΠ(X1,,Xn)=argmax\limits θΘL(X1,,Xnθ)

называется оце́нкой максима́льного правдоподо́бия параметра θ. Таким образом оценка максимального правдоподобия — это такая оценка, которая максимизирует функцию правдоподобия при фиксированной реализации выборки.

Часто вместо функции правдоподобия L используют логарифмическую функцию правдоподобия l=lnL. Так как функция xlnx,x>0 монотонно возрастает на всей области определения, максимум любой функции L(θ) является максимумом функции lnL(θ) и наоборот. Таким образом,

θ^MΠ=argmax\limits θΘl(X1,,Xnθ),

Если функция правдоподобия дифференцируема, то необходимое условие экстремума — равенство нулю её градиента:

g(θ)=l(𝐱,θ0)θ=0

Достаточное условие экстремума может быть сформулировано как отрицательная определённость гессиана — матрицы вторых производных:

H=2l(𝐱,θ0)θθT

Важное значение для оценки свойств оценок метода максимального правдоподобия играет так называемая информационная матрица, равная по определению:

I(θ)=E[g(θ)g(θ)T]

В оптимальной точке информационная матрица совпадает с математическим ожиданием гессиана, взятым со знаком минус:

I=E(H0)

Свойства

  • Оценки максимального правдоподобия, вообще говоря, могут быть смещёнными (см. примеры), но являются состоятельными, асимптотически эффективными и асимптотически нормальными оценками. Асимптотическая нормальность означает, что
n(θ^θ)dN(0,𝑰1)

где 𝑰=limn1n𝔼(𝑯) — асимптотическая информационная матрица.

Асимптотическая эффективность означает, что асимптотическая ковариационная матрица 𝑰1 является нижней границей для всех состоятельных асимптотически нормальных оценок.

  • Если θ^ — оценка метода максимального правдоподобия, параметров θ, то g(θ^) является оценкой максимального правдоподобия для g(θ), где g — непрерывная функция (функциональная инвариантность). Таким образом, законы распределения данных можно параметризовать различным образом.
  • Также необходимым условием МП-оценок является выполнение системы вида:
    {θ1lnLn(x,θ)=0θklnLn(x,θ)=0
где Ln(x,θ)=i=1nL1(xi,θ) — функция правдоподобия выборки x объёма n

Примеры

f(𝐱θ)={1θn,𝐱[0,θ]nn0,𝐱∉[0,θ]n.

Последнее равенство может быть переписано в виде:

f(𝐱θ)={1θn,θmax(x1,,xn)0,θ<max(x1,,xn),

где 𝐱=(x1,,xn), откуда видно, что своего максимума функция правдоподобия достигает в точке θ=max(x1,,xn). Таким образом

θ^MΠ=max(X1,,Xn).

Такая оценка будет смещенной: P{max(X1,,Xn)x}=(xθ)n, откуда Eθ^MΠ=0θxd(xθ)n=nn+1θ

  • Пусть X1,,XnN(μ,σ2) — независимая выборка из нормального распределения с неизвестными средним и дисперсией. Построим оценку максимального правдоподобия (μ^MΠ,σ2^MΠ)T для неизвестного вектора параметров (μ,σ2)T. Логарифмическая функция правдоподобия принимает вид
L(𝐱μ,σ2)=n2ln(2πσ2)12σ2i=1n(Xiμ)2.

Чтобы найти её максимум, приравняем к нулю частные производные:

{μL(𝐱μ,σ2)=0σ2L(𝐱μ,σ2)=0{i=1nXinμσ2=0n2σ2+i=1n(Xiμ)22(σ2)2=0,

откуда

μ^MΠ=X — выборочное среднее, а
σ2^MΠ=Sn2 — выборочная дисперсия.

Применение метода[2]

Обработка эксперимента

Предположим, что мы измеряем некоторую величину a. Сделав одно измерение, получили её значение x1 с ошибкой σ1: x1±σ1. Запишем плотность вероятности того, что величина a примет значение x1:

W(a)=12πσ12exp[(x1a)22σ12].

Теперь предположим, что мы провели несколько таких измерений и получили x1±σ1,x2±σ2xn±σn. Плотность вероятности того, что величина a примет значения x1,x2xn, будет:

W(a)=i=1n12πσi2exp[(xia)22σi2].

Эта функция называется функцией правдоподобия. Наиболее вероятное значение измеряемой величины a* определяется по максимуму функции правдоподобия. Более удобной является логарифмическая функция правдоподобия:

L(a)=lnW(a)=i=1n(xia)22σi2+i=1nln12πσi2.

Продифференцируем логарифмическую функцию правдоподобия по a:

La=i=1nxiaσi2.

Приравняем La к 0 и получим некоторое значение a=a*:

a*=i=1nxiσi2i=1n1σi2.

Крамер сформулировал следующую теорему:

Теорема: Не существует другого метода обработки результатов эксперимента, который дал бы лучшее приближение к истине, чем метод максимального правдоподобия.

Ошибки измерений

Предположим, что мы провели серию измерений и получили серию значений a*, естественно записать, что это распределение будет иметь гауссовский вид:

W(a)=12πσa*2exp[(a*a)22σa*2].

Запишем логарифмическую функцию правдоподобия:L(a)=lnW(a)=(a*a)22σa*2+ln12πσa*2.

Возьмем первую производную:

La=a*aσa*2.

Если La=0 , то a=a*. Теперь возьмем вторую производную:

2La2=1σa*2, откуда

σa*=(2La2|a=a*)1/2.

Это называется первой магической формулой[2].

Условный метод максимального правдоподобия

Условный метод максимального правдоподобия (Conditional ML) используется в регрессионных моделях. Суть метода заключается в том, что используется не полное совместное распределение всех переменных (зависимой и регрессоров), а только условное распределение зависимой переменной по факторам, то есть фактически распределение случайных ошибок регрессионной модели. Полная функция правдоподобия есть произведение «условной функции правдоподобия» и плотности распределения факторов. Условный ММП эквивалентен полному варианту ММП в том случае, когда распределение факторов никак не зависит от оцениваемых параметров. Это условие часто нарушается в моделях временных рядов, например в авторегрессионной модели. В данном случае, регрессорами являются прошлые значения зависимой переменной, а значит их значения также подчиняются той же AR-модели, то есть распределение регрессоров зависит от оцениваемых параметров. В таких случаях результаты применения условного и полного метода максимального правдоподобия будут различаться.

См. также

Примечания

Шаблон:Примечания

Литература

Шаблон:Вс Шаблон:Rq

  1. Фишер — 1912 г. Математический энциклопедический словарь, М.: Советская энциклопедия, 1988.
  2. 2,0 2,1 Шаблон:Книга