Дельта-правило

Де́льта-пра́вило — метод обучения перцептрона по принципу градиентного спуска по поверхности ошибки. Его дальнейшее развитие привело к созданию метода обратного распространения ошибки.

Дельта-правило

Собственно дельта-правилом называют математическую форму записи. Пусть вектор $𝐗 = x_{1}, x_{2}, ... x_{r}, ... x_{m}$ — вектор входных сигналов, а вектор $𝐃 = d_{1}, d_{2}, ... d_{k}, ... d_{n}$ — вектор сигналов, которые должны быть получены от перцептрона под воздействием входного вектора. Здесь $n$ — число нейронов, составляющих перцептрон. Входные сигналы, поступив на входы перцептрона, были взвешены и просуммированы, в результате чего получен вектор $𝐘 = y_{1}, y_{2}, ... y_{k}, ... y_{n}$ выходных значений перцептрона. Тогда можно определить вектор ошибки $𝐄 = e_{1}, e_{2}, ... e_{k}, ... e_{n}$ , размерность которого совпадает с размерностью вектора выходных сигналов. Компоненты вектора ошибок определяются как разность между ожидаемым и реальным значением выходного сигнала перцептронного нейрона:

𝐄 = 𝐃 - 𝐘

При таких обозначениях формулу для корректировки j-го веса i-го нейрона можно записать следующим образом:

w_{j} (t + 1) = w_{j} (t) + e_{i} x_{j}

Номер сигнала $j$ изменяется в пределах от единицы до размерности входного вектора $m$ . Номер нейрона $i$ изменяется в пределах от единицы до количества нейронов $n$ . Величина $t$ — номер текущей итерации обучения. Таким образом, вес входного сигнала нейрона изменяется в сторону уменьшения ошибки пропорционально величине суммарной ошибки нейрона. Часто вводят коэффициент пропорциональности $η$ , на который умножается величина ошибки. Этот коэффициент называют скоростью или нормой^[1] обучения. Таким образом, итоговая формула для корректировки весов:

w_{j} (t + 1) = w_{j} (t) + η e_{i} x_{j}

Обобщенное дельта-правило

С целью расширения круга задач, решаемых перцептроном, Уидроу и Хоффом^[2] была предложена сигмоидальная функция активации для нейронов. Это позволило перцептрону оперировать с непрерывными сигналами, но потребовало модификации алгоритма обучения^[3]. Модифицированный алгоритм направлен на минимизацию функции среднеквадратичной ошибки:

ϵ = \frac{1}{2} \sum_{i = 1}^{n} (d_{i} - y_{i})^{2}

Эта функция определяется матрицей весовых коэффициентов $w_{i j}$ . Здесь $i$ — номер нейрона, а $j$ — номер входа. Поверхность, описываемая этой функцией имеет форму псевдопараболоида^[4]. Задачей обучения является нахождение глобального минимума этой поверхности. Одним из способов нахождения минимума является метод градиентного спуска. Корректировка весов производится в направлении антиградиента поверхности:

Δ w_{i j} = - η \frac{\partial ϵ}{\partial w_{i j}}

Здесь $η$ — коэффициент скорости обучения.

Функция ошибки является сложной и зависит в первую очередь от выходных сигналов перцептрона. В соответствии с правилами дифференцирования сложных функций:

\frac{\partial ϵ}{\partial w_{i j}} = \frac{\partial ϵ}{\partial y_{i}} \frac{\partial y_{i}}{\partial w_{i j}}

(*)

Выходной сигнал $y_{i}$ каждого нейрона определяется по формуле:

y_{i} = f (S_{i}), S_{i} = \sum_{j = 1}^{m} w_{i j} x_{j}

Здесь $m$ — число входов перцептрона, $x_{j}$ — сигнал на j-ом входе, а $f (S)$ — функция активации. Тогда получим:

\frac{\partial y_{i}}{\partial w_{i j}} = (\frac{\partial f (S)}{\partial S}) ∣_{S = S_{i}} \frac{\partial S_{i}}{\partial w_{i j}} = f^{'} (S_{i}) x_{j}

(**)

Продифференцировав функцию ошибки по значению выходного сигнала получим:

\frac{\partial ϵ}{\partial y_{i}} = - (d_{i} - y_{i})

(***)

Подставив формулы (**) и (***) в выражение (*) получим выражение для корректировки веса j-го входа у i-го нейрона при любой активационной функции^[5]:

Δ w_{i j} = η (d_{i} - y_{i}) f^{'} (S_{i}) x_{j}

Из этой формулы видно, что в качестве активационной функции при использовании обобщенного дельта-правила функция активации нейронов должна быть непрерывно дифференцируемой на всей оси абсцисс. Преимущество имеют функции активации с простой производной (например — логистическая кривая или гиперболический тангенс).

На основе дельта-правила Уидроу и Хопфом был создан один из первых аппаратных нейрокомпьютеров Адалин (1960).

Примечания

Шаблон:Примечания

См. также

Литература

Rosenblatt F. Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Washington, DC: Spartan Books (1962).
Russell, Ingrid. "The Delta Rule". University of Hartford. Archived from the original on 4 March 2016. Retrieved 5 November 2012.
Головко, В. А. Нейронные сети: обучение, организация и применение: Кн.4 : Учебное пособие для вузов по направлению "Прикладные математика и физика" / В. А. Головко ; Общ. ред. А. И. Галушкин . – М. : ИПРЖР, 2001 . – 256 с. – (Нейрокомпьютеры и их применение) : 5-93108-05-8 .
Осовский С. Нейронные сети для обработки информации (2002)
Hebb, D. O. The organization of behavior: a neuropsychological theory. New York (2002) (Оригинальное издание — 1949)
Hebb, D. O. Conditioned and unconditioned reflexes and inhibition. Unpublished MA Thesis, McGill University, Montreal, Quebec, (1932)
Lakhmi C. Jain; N.M. Martin Fusion of Neural Networks, Fuzzy Systems and Genetic Algorithms: Industrial Applications. — CRC Press, CRC Press LLC, 1998

↑ Шаблон:Статья
↑ Widrow B., Hoff M.E. — Adaptive switching circuits. 1969 IRE WESTCON Conferencion Record. — New York, 1960
↑ Л. Н. Ясницкий — Введение в искусственный интеллект. — с.34-36
↑ Л. Н. Ясницкий — Введение в искусственный интеллект. — с.35
↑ Л. Н. Ясницкий — Введение в искусственный интеллект. — с.36

[1] Шаблон:Статья

[2] Widrow B., Hoff M.E. — Adaptive switching circuits. 1969 IRE WESTCON Conferencion Record. — New York, 1960

[3] Л. Н. Ясницкий — Введение в искусственный интеллект. — с.34-36

[4] Л. Н. Ясницкий — Введение в искусственный интеллект. — с.35

[5] Л. Н. Ясницкий — Введение в искусственный интеллект. — с.36

[1]

[2]

[3]

[4]

[5]

Дельта-правило

Содержание