Анализ полных наблюдений

Материал из testwiki
Перейти к навигации Перейти к поиску
Пример анализа полных наблюдений. В ходе построения регрессии Y на X1,X2,X2 анализ полных наблюдений будет заключаться в удалении наблюдений у которых есть пропущенные значения (NA)

Анализ полных наблюдений (Шаблон:Lang-en, реже Шаблон:Lang-en) — статистический метод обработки пропущенных данных, основанный на удалении всех наблюдений с неполными признаковыми описаниями. Считается самым простым способом разрешения проблемы пропущенных данныхШаблон:Sfn.

Оценка регрессий при анализе полных наблюдений

Представим линейную регрессионную модель вида 𝐘=𝐗β+ϵ, где 𝐘 — вектор целевых значений, 𝐗 — матрица значений независимых переменных, β — вектор регрессионных коэффициентов, ϵ — вектор регрессионных остатков.

Пусть Oi=1, если Шаблон:Math-е наблюдение имеет полное признаковое описание и Oi=0 в противном случае — то есть 𝐎=diag(O1,...,On). Тогда модель с использованием исключительно полных наблюдений будет формулироваться следующим образом: 𝐎𝐘=𝐎𝐗θ+𝐎ε, где θ и ε — векторы новых регрессионных коэффициентов и остатков соответственно.

МНК-оценка вектора θ в таком случае выглядит следующим образомШаблон:Sfn: θ^=β+(𝐗𝐎𝐗)𝟏𝐗ϵ.

Ограничения метода

Шаблон:Проверить факты Анализ полных наблюдений позволяет получать несмещённые оценки при регрессионном анализе (с использованием МНК) при условии, что вероятность пропуска значения (P(Oi=0)) зависит от независимых переменных (𝐗), а не регрессионных остатков (ϵ)Шаблон:Sfn. Действительно, смещённость оценок может быть связана с тем, что пропуск данных не случаен (MNAR, Шаблон:Lang-en). Например, респонденты отказываются отвечать на какой-то сензитивный вопрос — в таком случае в выборке останутся только те респонденты, которые (по каким-то причинам) склонны отвечать на вопросы определённого типаШаблон:Sfn. Данное условие может не выполняться в двух случаях:

  • Невключение какой-то значимой переменной (omitted variable).
  • Неверная спецификация одной из независимых переменных (то есть включённая переменная некорректно отражает другую, «истинную»)Шаблон:Sfn.

Кроме того, вероятность пропуска может быть связана и с откликом (𝐘)[1]. Помимо этого условия несмещённости, определённого для «истинной» линейной регрессионной модели, большую роль играет корректность выбора функциональной формы зависимости между независимой и зависимой переменными. Эти допущения зачастую не работают в социальных науках: верная спецификация моделей и точная функциональная форма редко бывают доподлинно известныШаблон:Sfn.

Использование методики анализа полных наблюдений приводит к уменьшению размера исследуемой выборки, что также создаёт проблемы. Это сокращает статистическую мощность критериев, которые могут применяться на данныхШаблон:SfnШаблон:Sfn. Кроме того, метод может привести к получению неэффективных оценок, если удаление наблюдений значительно сократит объясняемую дисперсиюШаблон:Sfn.

Сравнение с другими методами

В случаях, когда изложенные недостатки и ограничения анализа полных наблюдений имеют место быть, рекомендуется прибегать к альтернативным, более сложным методам обработки пропущенных данных: попарное удаление пропущенных наблюдений (Шаблон:Lang-en), введение дамми на пропуск, а также множественная импутация (Шаблон:Lang-en)Шаблон:Sfn. Литтл и Рубин отмечали, что анализ полных наблюдений приводит к потере неоправданного объёма дисперсии, если статистический метод подразумевает исследование одной переменной (например, нахождение среднего значения), ведь в таком случае из выборки будут исключены даже те наблюдения, у которых значения в этой переменной не пропущены, и рекомендовали для таких случаев простую замену — анализ доступных значенийШаблон:Sfn.

Тем не менее, в ряде случаев анализ полных наблюдений может обладать преимуществами по сравнению с более сложными альтернативамиШаблон:Sfn.

Анализ полных наблюдений широко используется в анализе «Шаблон:Нп4», широко распространённом в экономике образования, где средний эффект от вмешательства на полных наблюдениях сравнивается с эффектом, рассчитанным с включением наблюдений с неполными признаковыми описаниямиШаблон:Sfn.

В статистических пакетах

  • В SPSS использование методики анализа полных наблюдений при корреляционном, регрессионном и других типах статистического анализа осуществляется посредством включения подкоманды /MISSING=LISTWISE в синтаксис применяемой функции[2].
  • В Шаблон:Нп4 при построении регрессий, корреляционных и ковариационных матриц по умолчанию удаляются наблюдения с пропущенными значениями[3].
  • В R есть несколько способов применения анализа полных наблюдений: стандартные функции na.omit(), complete.cases() и параметр na.rm = TRUE, «механически» удаляющие наблюдения с пропущенными значениями переменных[4], а также функция ld() для матричных объектов из пакета (библиотеки) ForImp[5].

Примечания

Шаблон:Примечания

Литература

Ссылки

Шаблон:Изолированная статья

  1. Тем не менее, показывается (Шаблон:Sfn0), что для валидности метода достаточно независимости от переменных-регрессоров, а не полное соответствие допущению MСAR (Шаблон:Lang-en).
  2. Шаблон:Cite web
  3. Шаблон:Cite web
  4. Шаблон:Cite web
  5. Шаблон:Cite web