Латентно-семантический анализ

Шаблон:Не путать Латентно-семантический анализ (ЛСА) (Шаблон:Lang-en) — это метод обработки информации на естественном языке, анализирующий взаимосвязь между библиотекой документов и терминами, в них встречающимися, и выявляющий характерные факторы (тематики), присущие всем документам и терминам.

В основе метода латентно-семантического анализа лежат принципы факторного анализа, в частности, выявление латентных связей изучаемых явлений или объектов. При классификации / кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших корпусов текстов^[1].

История

ЛСА был запатентован в 1988 году^[2] Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum и Lynn Streeter. В области информационного поиска данный подход называют латентно-семантическим индексированием (ЛСИ).

Впервые ЛСА был применен для автоматического индексирования текстов, выявления семантической структуры текста и получения псевдодокументов^[3]. Затем этот метод был довольно успешно использован для представления баз знаний^[4] и построения когнитивных моделей^[5].

В последние годы метод ЛСА часто используется для поиска информации (индексация документов), классификации документов^[6], моделях понимания^[7] и других областях, где требуется выявление главных факторов из массива информационных данных.

Описание работы ЛСА

Файл:Topic model scheme.webm

ЛСА можно сравнить с простым видом нейросети, состоящей из трех слоев: первый слой содержит множество слов (термов), второй — некое множество документов, соответствующих определённым ситуациям, а третий, средний, скрытый слой представляет собой множество узлов с различными весовыми коэффициентами, связывающих первый и второй слои.

В качестве исходной информации ЛСА использует матрицу термы-на-документы, описывающую набор данных, используемый для обучения системы. Элементы этой матрицы содержат, как правило, веса, учитывающие частоты использования каждого терма в каждом документе и участие терма во всех документах (TF-IDF). Наиболее распространенный вариант ЛСА основан на использовании разложения матрицы по сингулярным значениям (SVD — Singular Value Decomposition). С помощью SVD-разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице.

Говоря более формально, согласно теореме о сингулярном разложении^[9], любая вещественная прямоугольная матрица может быть разложена на произведение трех матриц:

$\begin{matrix} A = U S V^{T} \end{matrix}$ ,

где матрицы $𝐔$ и $𝐕$ — ортогональные, а $𝐒$ — диагональная матрица, значения на диагонали которой называются сингулярными значениями матрицы $𝐀$ . Буква Т в выражении $𝐕^{T}$ означает транспонирование матрицы.

Такое разложение обладает замечательной особенностью: если в матрице $𝐒$ оставить только $𝐤$ наибольших сингулярных значений, а в матрицах $𝐔$ и $𝐕$ — только соответствующие этим значениям столбцы, то произведение получившихся матриц $𝐒$ , $𝐔$ и $𝐕$ будет наилучшим приближением исходной матрицы $𝐀$ к матрице $\hat{𝐀}$ ранга $𝐤$ :

$\begin{matrix} \hat{A} \approx A = U S V^{T} \end{matrix}$ ,

Основная идея латентно-семантического анализа состоит в том, что если в качестве матрицы $𝐀$ использовалась матрица термы-на-документы, то матрица $\hat{𝐀}$ , содержащая только $𝐤$ первых линейно независимых компонент $𝐀$ , отражает основную структуру различных зависимостей, присутствующих в исходной матрице. Структура зависимостей определяется весовыми функциями термов.

Таким образом, каждый терм и документ представляются при помощи векторов в общем пространстве размерности $𝐤$ (так называемом пространстве гипотез). Близость между любой комбинацией термов и/или документов легко вычисляется при помощи скалярного произведения векторов.

Как правило, выбор $𝐤$ зависит от поставленной задачи и подбирается эмпирически. Если выбранное значение $𝐤$ слишком велико, то метод теряет свою мощность и приближается по характеристикам к стандартным векторным методам. Слишком маленькое значение k не позволяет улавливать различия между похожими термами или документами.

Применение

Существуют три основных разновидности решения задачи методом ЛСА:

сравнение двух термов между собой;
сравнение двух документов между собой;
сравнение терма и документа.

Достоинства и недостатки ЛСА

Достоинства метода:

метод является наилучшим для выявления латентных зависимостей внутри множества документов;
метод может быть применен как с обучением, так и без обучения (например, для кластеризации);
используются значения матрицы близости, основанной на частотных характеристиках документов и лексических единиц;
частично снимается полисемия и омонимия.

Недостатки:

Существенным недостатком метода является значительное снижение скорости вычисления при увеличении объёма входных данных (например, при SVD-преобразовании). Как показано в^[3], скорость вычисления соответствует порядку $𝐍^{2 * k}$ , где $𝐍 = 𝐍_{d o c} + 𝐍_{t e r m}$ — сумма количества документов и термов , $𝐤$ — размерность пространства факторов.
Вероятностная модель метода не соответствует реальности. Предполагается, что слова и документы имеют Нормальное распределение, хотя ближе к реальности Распределение Пуассона. В связи с этим для практических применений лучше подходит Вероятностный латентно-семантический анализ, основанный на мультиномиальном распределении.

Примечания

Шаблон:Примечания

Ссылки

https://web.archive.org/web/20090131212818/http://www-timc.imag.fr/Benoit.Lemaire/lsa.html - Readings in Latent Semantic Analysis for Cognitive Science and Education. — Сборник статей и ссылок о ЛСА.
http://lsa.colorado.edu/ - сайт, посвященный моделированию ЛСА.

Шаблон:Обработка естественного языка

↑ Шаблон:Статья
↑ Шаблон:US patent
↑ ^3,0 ^3,1 Шаблон:Статья
↑ Шаблон:Статья
↑ Шаблон:Статья Шаблон:Недоступная ссылка
↑ Некрестьянов И. С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.
↑ Соловьев А. Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа / Диссертация на соискание степени к.ф.н. СПбГУ, 2008.
↑ Шаблон:Cite web
↑ Голуб Дж., Ван Лоун Ч. Матричные вычисления. М.: «Мир», 1999.

[1] Шаблон:Статья

[2] Шаблон:US patent

[автоссылка1-3] 3,0 ^3,1 Шаблон:Статья

[4] Шаблон:Статья

[5] Шаблон:Статья Шаблон:Недоступная ссылка

[6] Некрестьянов И. С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.

[7] Соловьев А. Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа / Диссертация на соискание степени к.ф.н. СПбГУ, 2008.

[8] Шаблон:Cite web

[9] Голуб Дж., Ван Лоун Ч. Матричные вычисления. М.: «Мир», 1999.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[9]

Латентно-семантический анализ

Содержание

История

Описание работы ЛСА

Применение

Достоинства и недостатки ЛСА

Примечания

Ссылки

Навигация

Латентно-семантический анализ

История

Описание работы ЛСА

Применение

Достоинства и недостатки ЛСА

Примечания

Ссылки

Навигация

Поиск