Закон Хипса

Зако́н Хи́пса — эмпирическая закономерность в лингвистике, описывающая распределение числа уникальных слов в документе (или наборе документов) как функцию от его длины. Описывается формулой
- ,
где VR — число уникальных слов в тексте размера n. K и β — свободные параметры, определяются эмпирически. Для английского корпуса текстов K обычно лежит между 10 и 100, а β между 0,4 и 0,6.
Закон часто приписывается Гарольду Стэнли Хипсу, но впервые был открыт Густавом Герданом.[1] С некоторым приближением закон Гердана — Хипса асимптотически эквивалентен закону Ципфа о частоте отдельных слов в тексте.[2]
Примечания
Ссылки
- Шаблон:Citation.
- Шаблон:Citation.
- Шаблон:Citation. Heaps' law is proposed in Section 7.5 (pp. 206—208).
- Шаблон:Citation.
- Шаблон:Citation.
- Шаблон:Citation.
- Шаблон:Citation.
- ↑ Шаблон:Harvtxt: «Herdan’s law in linguistics and Heaps' law in information retrieval are different formulations of the same phenomenon».
- ↑ Шаблон:Harvtxt; Шаблон:Harvtxt; Шаблон:Harvtxt.