Скользящий хеш

Скользящий хеш (Шаблон:Lang-en, также кольцевой хеш) — хеш-функция, обрабатывающая вход в рамках некоторого окна. Получение значения хеш-функции для сдвинутого окна в таких функциях является дешевой операцией. Для пересчета значения требуется знать лишь предыдущее значение хеша, значение входных данных, которые остались за пределами окна, и значение данных, которые попали в окно. Другими словами, если $x = h (a_{1} a_{2} \dots a_{n})$ представляет собой хеш последовательности $a_{1} a_{2} \dots a_{n}$ , то хеш $h (a_{2} a_{3} \dots a_{n} a_{n + 1})$ для «сдвинутой» последовательности $a_{2} a_{3} \dots a_{n} a_{n + 1}$ может быть получен с помощью легко вычислимой функции $f (x, a_{1}, a_{n + 1})$ .

Возможность быстрого «сдвига» хеша накладывает некоторые ограничения на теоретические гарантии. В частности, показаноШаблон:Sfn, что семейства кольцевых хешей не могут быть Шаблон:Iw; максимум — универсальными или Шаблон:Iw. Впрочем, для большинства приложений достаточно универсальности (даже приблизительной).

Кольцевой хеш применяется для поиска подстроки в алгоритме Рабина — Карпа, для вычисления хешей N-грамм в текстеШаблон:Sfn, а также в программе rsync для сравнения двоичных файлов (используется кольцевая версия adler-32).

Полиномиальный хеш

В алгоритме Рабина — Карпа часто используется простой полиномиальный кольцевой хеш, построенный на операциях умножения и сложенияШаблон:Sfn Шаблон:Sfn:

h (a_{1} a_{2} \dots a_{n}) = (a_{1} x^{n - 1} + a_{2} x^{n - 2} + a_{3} x^{n - 3} + \dots + a_{n} x^{0}) mod q

.

Чтобы избежать использования целочисленной арифметики произвольной точности, используется арифметика в кольце вычетов по модулю $q$ , умещающемуся в одно машинное слово. Выбор констант $x$ и $q$ очень важен для получения качественного хеша. В исходном варианте хеша предполагалось, что $q$ должно быть случайно выбранным простым числом, а $x = 2$ .Шаблон:Sfn Но ввиду того, что алгоритм выбора случайного простого числа не такой простой, предпочитают использовать вариант хеша, в котором $q$ является фиксированным простым числом, а $x$ выбирается случайно из диапазона ${0, 1, \dots, q - 1}$ . Дитзфелбингер и др.Шаблон:Sfn показали, что такой вариант хеша имеет те же теоретические характеристики, что и исходный. В частности, вероятность совпадения значений хешей двух различных строк $a_{1} a_{2} \dots a_{n}$ и $b_{1} b_{2} \dots b_{n}$ не превосходит $1 / n^{c}$ , если $a_{1}, \dots, a_{n}$ и $b_{1}, \dots, b_{n}$ представляют собой целые числа из диапазона $[0, q)$ , $q > n^{c + 1}$ и $x$ выбирается действительно случайно.

Удаление старых входных символов и добавление новых производится путём прибавления или вычитания первого или последнего члена формулы (по модулю $q$ ). Для удаления члена $a_{1} x^{n - 1}$ хранят заранее посчитанное значение $x^{n - 1} mod q$ . Сдвиг окна производится путём домножения всего многочлена $h (a_{1} a_{2} \dots a_{n})$ на $x$ либо делением на $x$ (если $q$ простое, то в кольце вычетов возможно вместо деления производить умножение на обратную величину). На практике удобнее всего полагать $q = 2^{31} - 1$ или $q = 2^{61} - 1$ для, соответственно, 32- и 64-битовых машинных слов (это так называемые простые числа Мерсенна). В таком случае операция взятия модуля может быть выполнена на многих компьютерах с помощью быстрых операций побитового сдвига и сложения^[1]. Другой возможный выбор — значения $q = 2^{32} - 5$ или $q = 2^{64} - 59$ , для которых тоже существуют быстрые алгоритмы взятия остатка от деления на $q$ (при этом диапазон допустимых значений $x$ немного сужают)Шаблон:Sfn. Частое заблуждение — полагать $q = 2^{32}$ . Существуют семейства строк, на которых хеш с $q = 2^{L}$ будет всегда давать множество коллизий, независимо от выбора $L$ .Шаблон:Sfn Эти и другие дальнейшие детали реализации и теоретического анализ полиномиального хеша можно найти в статье об алгоритме Рабина — Карпа.

Полиномиальный хеш над полем GF(2^L)

Данный хеш похож на обычный полиномиальный хеш, но все вычисления в нём производятся в конечном поле $G F (2^{L})$ . Обычно $L$ выбирается равным 64. Элементы поля — это числа $0, 1, \dots, 2^{L} - 1$ . Сложение в поле реализуется с помощью операции побитового исключающего «или» $\oplus$ , а умножение выполняется с помощью операции $a ⋆ b$ , которая сначала Шаблон:Iw $a$ на $b$ , а потом берёт остаток от «беспереносного» деления результата на некоторый выбранный фиксированный элемент $q \in {2^{L}, 2^{L} + 1, \dots, 2^{L + 1} - 1}$ (беспереносным делением здесь названа операция, обратная беспереносному умножению). Элемент $q = 2^{i_{1}} + 2^{i_{2}} + \dots + 2^{i_{k}}$ должен быть выбран так, что $L = i_{1} > i_{2} > \dots > i_{k} \geq 0$ и $x^{i_{1}} + x^{i_{2}} + \dots + x^{i_{0}}$ — это неприводимый многочлен над полем $G F (2)$ (на поле $G F (2^{L})$ часто смотрят как на множество многочленов над полем $G F (2)$ по модулю произвольного неприводимого многочлена степени $L$ ). Например, можно положить $q = 2^{64} + 2^{4} + 2^{3} + 2 + 1$ Шаблон:Sfn. Тогда хеш вычисляется следующим образомШаблон:Sfn:

h (a_{1} a_{2} \dots a_{n}) = (a_{1} ⋆ x^{n - 1}) \oplus (a_{2} ⋆ x^{n - 2}) \oplus \dots \oplus (a_{n - 1} ⋆ x) \oplus a_{n}

,

где $x$ — это случайно выбранное на этапе инициализации хеша число из диапазона ${0, 1, \dots, 2^{L} - 1}$ , а $x^{m}$ — это короткая запись для $x ⋆ x ⋆ \dots ⋆ x$ , где $x$ повторён $m$ раз. С помощью основной теоремы алгебры можно показать, что вероятность коллизии хешей двух различных строк длины $n$ не превосходит $n / 2^{L}$ . ПоказаноШаблон:Sfn, что на современных процессорах Intel и AMD вся необходимая для хеша арифметика над полем $G F (2^{L})$ может быть эффективно вычислена с помощью инструкций из расширения Шаблон:Iw.

Хеш циклическими полиномами (Buzhash)

Пусть $h^{'}$ — какой-то хеш, который отображает символы $a_{1}, \dots, a_{n}$ хешируемой строки в $L$ -битовые числа (обычно $L = 32$ или $L = 64$ ). Хеш циклическими полиномами определяется следующим образомШаблон:Sfn:

h (a_{1} a_{2} \dots a_{n}) = s^{n - 1} (h^{'} (a_{1})) \oplus s^{n - 2} (h^{'} (a_{2})) \oplus \dots \oplus s (h^{'} (a_{n - 1})) \oplus h^{'} (a_{n}),

где $\oplus$ — это операция побитового исключающего «или», а $s^{i} (x)$ — это операция циклического сдвига $L$ -битового числа $x$ на $i$ битов влево. Несложно показать, что данный хеш кольцевой:

h (a_{2} a_{3} \dots a_{n + 1}) = s (h (a_{1} a_{2} \dots a_{n})) \oplus s^{n} (h^{'} (a_{1})) \oplus h^{'} (a_{n + 1}) .

Главное преимущество этого хеша в том, что он использует только быстрые побитовые операции доступные на многих современных компьютерах. Качество хеша напрямую зависит от выбора функции $h^{'}$ . Лемире и КасерШаблон:Sfn доказали, что если функция $h^{'}$ выбирается случайно из семейства Шаблон:Iw, то вероятность совпадения хешей двух различных строк длины $n$ не превосходит $1 / 2^{L - n + 1}$ . Это накладывает определённые ограничения на диапазон задач, в которых данный хеш может использоваться. Во-первых, длина хешируемых строк должна быть меньше $L$ . Для алгоритмов хеширования общего назначения это условие может быть проблемой, но, например, для хеширования $n$ -грамм, где $n$ обычно не превосходит 16, такое ограничение является естественным (в случае $n$ -грамм роль символов играют отдельные лексемы текста). Во-вторых, выбор семейства независимых функций $h^{'}$ в некоторых случаях тоже может быть проблемой. Для байтового алфавита свойством независимости обладает семейство функций $h^{'}$ , закодированных таблицей из 256-и различных случайных $L$ -битовых чисел (выбор функции — это заполнение таблицы). Для хеширования $n$ -грамм можно присваивать различные случайные $L$ -битовые числа различным лексемам (обычно число разных лексем в таких задачах относительно невелико) и такое семейство хеш-функций $h^{'}$ тоже имеет свойство независимости.

Хеш Рабина

Данный хеш применим только в специальном случае, когда символы хешируемой строки $a_{1} a_{2} \dots a_{n}$ суть числа 0 и 1. Идея хеша в том, чтобы смотреть на входную строку $a_{1} a_{2} \dots a_{n}$ как на многочлен $A (x) = a_{1} x^{n - 1} \oplus a_{2} x^{n - 2} \oplus \dots \oplus a_{n - 1} x \oplus a_{n} x^{0}$ над полем $G F (2)$ , а сам хеш представляет собой взятие остатка от деления $A (x)$ на случайно выбранный на этапе инициализации хеша неприводимый многочлен $P (x)$ степени $L$ над полем $G F (2)$ . По существу это та же процедура, что используется в CRC. Рассмотрим её более подробно.

Результат хеширования строки $a_{1} a_{2} \dots a_{n}$ — это последовательность битов $b_{L - 1} b_{L - 2} \dots b_{0}$ . Число $L$ выбирается простымШаблон:Sfn и достаточно большим, но так чтобы последовательность $b_{L - 1} b_{L - 2} \dots b_{0}$ умещалась в одно машинное слово (обычно берут $L = 31$ или $L = 61$ Шаблон:Sfn). Пусть $P (x) = p_{L} x^{L} \oplus p_{L - 1} x^{L - 1} \oplus \dots \oplus p_{1} x \oplus p_{0}$ представляет собой некоторый неприводимый многочлен степени $L$ над полем $G F (2)$ . Обозначим через $p$ соответствующее число с битовым представлением $p_{L} p_{L - 1} \dots p_{0}$ . Хеш-функция $h (a_{1} a_{2} \dots a_{n})$ определяется как число с битовым представлением $b_{L - 1} b_{L - 2} \dots b_{0},$ таким что многочлен $B (x) = b_{L - 1} x^{L - 1} \oplus b_{L - 2} x^{L - 2} \oplus \dots \oplus b_{1} x \oplus b_{0}$ является остатком от деления многочлена $A (x) = a_{1} x^{n - 1} \oplus a_{2} x^{n - 2} \oplus \dots \oplus a_{n - 1} x \oplus a_{n}$ на многочлен $P (x)$ , то есть $B (x) = A (x) mod P (x)$ .

Несмотря на весьма запутанное определение, хеш Рабина довольно просто реализуем (если неприводимый многочлен $P (x)$ уже найден). Вычисления опираются на такое несложное наблюдение: если число $b$ с битовым представлением $b_{L - 1} b_{L - 2} \dots b_{0}$ кодирует многочлен $B (x) = b_{L - 1} x^{L - 1} \oplus b_{L - 2} x^{L - 2} \oplus \dots \oplus b_{1} x \oplus b_{0}$ , то число $s h (b)$ кодирует многочлен $x \cdot B (x)$ , где $s h (b)$ обозначает операцию побитового сдвига числа $b$ на один бит влево с замещением младшего бита нулём (не путать с циклическим сдвигом $s$ , определённым выше!). Пусть $b = h (a_{1} a_{2} \dots a_{i})$ , и $b_{L - 1} b_{L - 2} \dots b_{0}$ — это битовое представление $b$ . Тогда $h (a_{1} a_{2} \dots a_{i} a_{i + 1})$ вычисляется следующим образом:

s h (b) \oplus a_{i + 1},

если

b_{L - 1} = 0,

s h (b) \oplus p \oplus a_{i + 1},

если

b_{L - 1} = 1.

Хеш является кольцевым. Пусть $b = h (a_{1} a_{2} \dots a_{n})$ и $b_{L - 1} b_{L - 2} \dots b_{0}$ — это битовое представление $b$ . Хеш $h (a_{2} a_{3} \dots a_{n} a_{n + 1})$ вычисляется следующим образомШаблон:Sfn:

s h (b) \oplus a_{n} \oplus (a_{1} \cdot c),

если

b_{L - 1} = 0,

s h (b) \oplus p \oplus a_{n} \oplus (a_{1} \cdot c),

если

b_{L - 1} = 1,

где $c$ — это $L$ -битовое число, битовое представление которого соответствует многочлену $x^{n} mod P (x)$ . Число $c$ вычисляют заранее при инициализации хеша строки длины $n$ .

Главная сложность — случайным образом выбрать неприводимый многочлен $P (x)$ степени $L$ . РабинШаблон:Sfn описал эффективный алгоритм, позволяющий это сделать, и доказал, что вероятность коллизии хешей двух различных строк длины $n$ при случайном выборе $P (x)$ не превосходит $n / 2^{L}$ .

Отметим, что данный хеш часто путают с полиномиальным хешем из-за схожей области применения, рассмотрения многочленов и общего автора.

Ссылки

ngramhashing — свободная C++-реализация нескольких кольцевых хеш-функций
rollinghashjava — Java-реализация кольцевых хеш-функций под лицензией Apache

Примечания

Шаблон:Примечания

Литература

↑ S. E. Anderson. Bit twiddling hacks. Шаблон:Wayback

[Bit-1] S. E. Anderson. Bit twiddling hacks. Шаблон:Wayback

[1]

Скользящий хеш

Содержание

Полиномиальный хеш

Полиномиальный хеш над полем GF(2^L)

Хеш циклическими полиномами (Buzhash)

Хеш Рабина

Ссылки

Примечания

Литература

Навигация

Скользящий хеш

Полиномиальный хеш

Полиномиальный хеш над полем GF(2L)

Хеш циклическими полиномами (Buzhash)

Хеш Рабина

Ссылки

Примечания

Литература

Навигация

Поиск

Полиномиальный хеш над полем GF(2^L)