Метод коллинеарных градиентов

Метод коллинеарных градиентов (МКГ)^[1] — итерационный метод направленного поиска локального экстремума гладкой функции многих переменных $J (u) : ℝ^{n} \to ℝ$ с движением к экстремуму вдоль вектора $d \in ℝ^{n}$ такого, где градиенты $\nabla J (u)$ и $\nabla J (u + d)$ коллинеарные. Это метод перового порядка (использует только первые производные $\nabla J$ ) с квадратичной скоростью сходимости. Может применяться к функциям высокой размерности $n$ с несколькими локальными экстремумами. МКГ можно отнести к семейству методов Truncated Newton method

Коллинеарные векторы $\nabla J (u^{k})$ и $\nabla J (u^{k_{*}})$ с направлением минимизации $d^{k}$ для выпуклой квадратичной функции, $n = 2$

Идея метода

Для гладкой функции $J (u)$ в относительно большой окрестности точки $u^{k}$ найдётся точка $u^{k_{*}}$ , где градиенты $\nabla J^{k} \overset{def}{=} \nabla J (u^{k})$ и $\nabla J^{k_{*}} \overset{def}{=} \nabla J (u^{k_{*}})$ коллинеарные. Направлением на экстремум $u_{*}$ из точки $u^{k}$ будет направление $d^{k} = (u^{k_{*}} - u^{k})$ . Вектор $d^{k}$ указывает на максимум или на минимум в зависимости от положения точки $u^{k_{*}}$ . Она может быть спереди или сзади от $u^{k}$ относительно направления на $u_{*}$ (см. рисунок). Далее будем рассматривать минимизацию.

Очередная Шаблон:Font color:

(1)  $u^{k + 1} = u^{k} + b^{k} d^{k}, k \in {0, 1 \dots},$

где оптимальное $b^{k} \in ℝ$ находится аналитически из предположения квадратичности одномерной функции $J (u^{k} + b d^{k})$ :

(2)

b^{k} = {(1 - \frac{⟨ \nabla J (u^{k_{*}}, d^{k} ⟩}{⟨ \nabla J (u^{k}), d^{k} ⟩})}^{- 1}, \forall u^{k_{*}} .

Угловые скобки — это скалярное произведение в евклидовом пространстве $ℝ^{n}$ . Если $J (u)$ выпуклая функция в окрестности $u^{k}$ , то для передней точки $u^{k_{*}}$ получаем число $b^{k} > 0$ , для задней $b^{k} < 0$ . Делаем шаг (1).

Для строго выпуклой квадратичной функции $J (u)$ Шаблон:Font color

  $b^{k} d^{k} = - H^{- 1} \nabla J^{k},$

т.е. Шаблон:Font color (метод второго порядка с квадратичной скоростью сходимости), где $H$ — матрица Гессе. Такие шаги обеспечивают МКГ квадратичную скорость сходимости.

В общем случае, если $J (u)$ имеет переменную выпуклость и возможны седловые точки, то следует контролировать направление минимизации по углу $γ$ между векторами $\nabla J^{k}$ и $d^{k}$ . Если $\cos (γ) = \frac{⟨ \nabla J^{k}, d^{k} ⟩}{| | \nabla J (u^{k}) | | | | d^{k} | |} \geq 0$ , то $d^{k}$ — это направление максимизации и в (1) следует брать $b^{k}$ с обратным знаком.

Поиск коллинеарных градиентов

Шаблон:Font color оценивается невязкой их ортов, которая имеет вид системы $n$ уравнений для поиска корня $u = u^{k_{*}}$ :

(3)  $r^{k} (u) = \frac{\nabla J (u)}{| | \nabla J (u) | |} s - \frac{\nabla J (u^{k})}{| | \nabla J (u^{k}) | |} = 0 \in ℝ^{n},$

где знак $s = sgn ⟨ \nabla J (u), \nabla J (u^{k}) ⟩$ позволяет одинаково оценивать коллинеарность градиентов по одну или разные стороны от минимума $u_{*}$ , $| | r^{k} (u) | | \leq \sqrt{2}$ .

Система (3) решается итерационно (подитерации $l$ ) методом сопряжённых градиентов в предположении, что она линейна в окрестности $u^{k}$ :

(4)

u^{k_{l + 1}} = u^{k_{l}} + τ^{l} p^{l}, l = 1, 2 \dots,

где вектор $p^{l} \overset{def}{=} p (u^{k_{l}}) = - r^{l} + {β^{l} p}^{l - 1}$ , $r^{l} \overset{def}{=} r (u^{k_{l}})$ , $β^{l} = | | r^{l} | |^{2} / | | r^{l - 1} | |^{2}, β^{1, n, 2 n ...} = 0$ , $τ^{l} = | | r^{l} | |^{2} / ⟨ p^{l}, H^{l} p^{l} ⟩$ , произведение матрицы Гессе $H^{l}$ на $p^{l}$ находится численным дифференцированием:

(5)

H^{l} p^{l} \approx \frac{r (u^{k_{h}}) - r (u^{k_{l}})}{h / | | p^{l} | |},

где $u^{k_{h}} = u^{k_{l}} + h p^{l} / | | p^{l} | |$ , $h$ — малое положительное число такое, что $⟨ p^{l}, H^{l} p^{l} ⟩ \neq 0$ .

Начальное приближение задаётся под 45° ко всем осям координат длинной $δ^{k}$ :

(6)

u_{i}^{k_{1}} = u_{i}^{k} + \frac{δ^{k}}{\sqrt{n}} sgn {\nabla_{i} J}^{k}, i = 1 \dots n .

Начальный радиус $δ^{k}$ -окрестности точки $u^{k}$ корректируется:

(7)

δ^{k} = \max [\min (δ^{k - 1} \frac{| | \nabla J (u^{k}) | |}{| | \nabla J (u^{k - 1}) | |}, δ^{0}), δ_{m}], k > 0.

Необходимо $| | u^{k_{l}} - u^{k} | | \geq δ^{m}, l \geq 1$ . Здесь малое положительное число $δ_{m}$ заметно больше машинного эпсилон.

Подитерации $l$ завершаются при выполнении хотя бы одного из условий:

$| | r^{l} | | \leq c_{1} \sqrt{2}, 0 \leq c_{1} < 1$ — достигнута точность;
$| \frac{| | r^{l} | | - | | r^{l - 1} | |}{| | r^{l} | |} | \leq c_{1}, l > 1$ — прекратилась сходимость;
$l \leq l_{m a x} = integer | c_{2} \ln c_{1} \ln n |, c_{2} \geq 1$ — избыточность подитераций.

Алгоритм выбора направления минимизации

Параметры: $c_{1}, c_{2}, δ^{0}, δ_{m} = 1 0^{- 15} δ^{0}, h = 1 0^{- 5}$ .
Входные данные: $n, k = 0, u^{k}, J (u^{k}), \nabla J (u^{k}), \nabla J^{k}$ .

$l = 1$ . Если $k > 0$ задаём $δ^{k}$ из (7).
Находим $u^{k_{l}}$ из (6).
Вычисляем $\nabla J^{l}, | | \nabla J^{l} | |$ и находим $r^{l}$ из (3) при $u = u^{k_{l}}$ .
Если $| | r^{l} | | \leq c_{1} \sqrt{2}$ или $l \geq l_{m a x}$ , или $| | u^{k_{l}} - u^{k} | | < δ_{m}$ , или { $l > 1$ и $| \frac{| | r^{l} | | - | | r^{l - 1} | |}{| | r^{l} | |} | \leq c_{1}$ }, то принимаем $u^{k_{*}} = u^{k_{l}}$ , возвращаем $\nabla J (u^{k_{*}})$ , $d^{k} = {(u^{k_{*}} - u}^{k})$ , Шаблон:Font color.
Если $l \neq 1, n, 2 n, 3 n \dots$ , задаём $β^{l} = | | r^{l} | |^{2} / | | r^{l - 1} | |^{2}$ , иначе $β^{l} = 0$ .
Вычисляем $p^{l} = - r^{l} + β^{l} p^{l - 1}$ .
Находим шаговый множитель $τ^{l}$ для подитераций:
1. запоминаем $u^{k_{l}}$ , $\nabla J^{l}$ , $| | \nabla J^{l} | |$ , $r^{l}$ , $| | r^{l} | |$ ;
2. задаём $u^{k_{h}} = u^{k_{l}} + h p^{l} / | | p^{l} | |$ , вычисляем $\nabla J (u^{k_{h}})$ , $r (u^{k_{h}})$ и находим $H^{l} p^{l}$ из (5), присваиваем $w \leftarrow ⟨ p^{l}, H^{l} p^{l} ⟩$ ;
3. если $w = 0$ , тогда $h \leftarrow 10 h$ , возвращаемся к шагу 7.2;
4. восстанавливаем $u^{k_{l}}$ , $\nabla J^{l}$ , $| | \nabla J^{l} | |$ , $r^{l}$ , $| | r^{l} | |$ ;
5. находим $τ^{l} = | | r^{l} | |^{2} / w$ .
Делаем подитерацию $u^{k_{l + 1}}$ из (4).
$l \leftarrow l + 1$ , переходим к шагу 3.

Параметр $c_{2} = 3 \div 5$ . Для функций без седловых точек рекомендуется $c_{1} \approx 1 0^{- 8}$ , $δ \approx 10^{- 5}$ . Для «обхода» седловых точек рекомендуется $c_{1} \approx 0.1$ , $δ \approx 0.1$ .

Описанный алгоритм позволяет приблизительно найти коллинеарные градиенты из системы уравнений (3). Полученное направление $b^{k} d^{k}$ для алгоритма МКГ (1) будет Шаблон:Font color (truncated Newton method).

Демонстрации^[2]

Во всех демонстрациях МКГ показывает сходимость не хуже, а иногда и лучше (для функций переменной выпуклости), чем метод Ньютона.

Тестовая функция «повёрнутый эллипсоид»

Строго выпуклая квадратичная функция:

J (u) = \sum_{i = 1}^{n} {(\sum_{j = 1}^{i} u_{j})}^{2}, u_{*} = (0...0) .

На рисунке для $n = 2$ заданы три чёрные стартовые точки $u^{0}$ . Серые точки — подитерации $u^{0_{l}}$ с $δ^{0} = 0.5$ (показано пунктиром, завышено для демонстрации). Параметры $c_{1} = 1 0^{- 8}$ , $c_{2} = 4$ . Для всех $u^{0}$ потребовалась одна итерация и подитераций $l$ не более двух.

При $n = 1000$ (параметр $δ^{0} = 10^{- 5}$ ) с начальной точкой $u^{0} = (- 1...1)$ МКГ достиг $u_{*}$ с точностью 1 % за 3 итерации и 754 вычисления $J$ и $\nabla J$ . Другие методы первого порядка: Квазиньютоновский BFGS (работа с матрицами) потребовал 66 итераций и 788 вычислений; сопряжённых градиентов (Fletcher-Reeves) — 274 итерации и 2236 вычислений; конечно-разностный метод Ньютона — 1 итерация и 1001 вычислений. Метод Ньютона второго порядка — 1 итерация.

С ростом размерности $n$ , вычислительные погрешности при реализации условия коллинеарности (3), могут заметно возрастать. Поэтому МКГ, по сравнению с методом Ньютона, в рассматриваемом примере потребовал более одной итерации.

Минимизация МКГ и методом Ньютона: 3 итерации. МКГ сделал 16 вычислений $J$ и $\nabla J$

Тестовая функция Розенброка

J (u) = 100 (u_{1}^{2} - u_{2})^{2} + (u_{1} - 1)^{2}, u_{*} = (1, 1) .

Параметры $c_{1} = 1 0^{- 8}$ , $c_{2} = 4$ , $δ^{0} = 10^{- 5}$ . Траектория спуска МКГ полностью совпадает с методом Ньютона. На рисунке синяя начальная точка $u^{0} = (- 0.8; - 1.2)$ , красная — $u_{*}$ . В каждой точке нарисованы орты градиентов.

Тестовая функция Химмельблау

J (u) = (u_{1}^{2} + u_{2} - 11)^{2} + (u_{1} + u_{2}^{2} - 7)^{2} .

Параметры $c_{1} = 0.1$ , $c_{2} = 4$ , $δ^{0} = 0.05$ .

Минимизация МКГ: 7 итераций и 22 вычисления $J$ и $\nabla J$ . Красные линии — $\cos γ \geq 0$ .	Минимизация методом Ньютона: 9 итераций ( $b^{k} = 1$ )
Метод сопряжённых градиентов (Fletcher-Reeves): 9 итерации и 62 вычисления $J$ и $\nabla J$	Квазиньютоновский BFGS: 6 итераций и 55 вычислений $J$ и $\nabla J$ . Красная линия (нарушение условия кривизны) — метод наискорейшего спуска.

Шаблон:Font color по количеству вычислений $J$ и $\nabla J$ . Благодаря формуле (2), он не требует затратных вычислений шагового множителя $b^{k}$ посредством линейного поиска (например, методом золотого сечения и т.п.).

Примечания

Шаблон:Примечания

↑ Tolstykh V.K. Collinear Gradients Method for Minimizing Smooth Functions // Oper. Res. Forum. — 2023. — Vol. 4. — No. 20. — doi: s43069-023-00193-9
↑ Tolstykh V.K. Демонстрационное Windows-приложение Optimization (для разархивирования удалите тип .txt)

[1] Tolstykh V.K. Collinear Gradients Method for Minimizing Smooth Functions // Oper. Res. Forum. — 2023. — Vol. 4. — No. 20. — doi: s43069-023-00193-9

[2] Tolstykh V.K. Демонстрационное Windows-приложение Optimization (для разархивирования удалите тип .txt)

[1]

[2]

Метод коллинеарных градиентов

Содержание

Идея метода

Поиск коллинеарных градиентов

Алгоритм выбора направления минимизации

Демонстрации^[2]

Тестовая функция «повёрнутый эллипсоид»

Тестовая функция Розенброка

Тестовая функция Химмельблау

Примечания

Навигация

Метод коллинеарных градиентов

Идея метода

Поиск коллинеарных градиентов

Алгоритм выбора направления минимизации

Демонстрации[2]

Тестовая функция «повёрнутый эллипсоид»

Тестовая функция Розенброка

Тестовая функция Химмельблау

Примечания

Навигация

Поиск

Демонстрации^[2]