Алгоритм Франк — Вульфа

Алгоритм Франк — Вульфа^[1] — это итеративный алгоритм оптимизации Шаблон:Не переведено 5 для выпуклой оптимизации Шаблон:Не переведено 5. Алгоритм известен также как метод условного градиентаШаблон:Sfn, метод приведённого градиента и алгоритм выпуклых комбинаций. Метод первоначально предложили Шаблон:Не переведено 5 и Шаблон:Не переведено 5 в 1956Шаблон:Sfn. На каждой итерации алгоритм Франк — Вульфа рассматривает линейное приближение целевой функции и движется в направлении минимизации этой линейной функции (на том же множестве допустимых решений).

Формулировка задачи

Предположим, что $𝒟$ является компактным выпуклым множеством в векторном пространстве, а $f : 𝒟 \to ℝ$ является выпуклой, дифференцируемой вещественнозначной функцией. Алгоритм Франк — Вульфа решает задачу оптимизации

Минимизировать

f (𝐱)

при условии

𝐱 \in 𝒟

.

Алгоритм

Инициализация: Пусть

k \leftarrow 0

и пусть

𝐱_{0}

будет точкой в

𝒟

.

Шаг 1. Подзадача поиска направления: Находим

𝐬_{k}

, решающее задачу

Минимизировать

𝐬^{T} \nabla f (𝐱_{k})

при условиях

𝐬 \in 𝒟

(Интерпретация: Минимизируем линейное приближение задачи, полученное аппроксимацией Тейлора первого порядка функции $f$ около $𝐱_{k}$ .)

Шаг 2. Определение размера шага: Положим

γ \leftarrow \frac{2}{k + 2}

, или, альтернативно, находим

γ

, минимизирующее

f (𝐱_{k} + γ (𝐬_{k} - 𝐱_{k}))

при условии

0 ⩽ γ ⩽ 1

.

Шаг 3. Пересчёт: Положим

𝐱_{k + 1} \leftarrow 𝐱_{k} + γ (𝐬_{k} - 𝐱_{k})

,

k \leftarrow k + 1

и переходим к шагу 1.

Свойства

В то время как конкурирующие методы, такие как градиентный спуск для оптимизации с ограничениями, требуют на каждой итерации шага проецирования в множество допустимых значений, для алгоритма Франк — Вульфа нужно на каждой итерации лишь решить задачу линейного программирования на том же самом множестве, так что решение всегда остаётся принадлежащим множеству допустимых решений.

Сходимость алгоритма Франк — Вульфа в общем случае сублинейна — ошибка целевой функции по отношению к оптимальному значению равна $O (1 / k)$ после k итераций при условии, что градиент непрерывен по Липшицу по некоторой норме. Та же самая сходимость может быть показана, если подзадачи решаются лишь приближённоШаблон:Sfn.

Итерации алгоритма могут быт всегда представлены как неплотная выпуклая комбинация экстремальных точек множества допустимых решений, что помогло популярности алгоритма для задач разрежённой жадной оптимизации в машинном обучении и обработки сигналов Шаблон:Sfn, а также для нахождения потоков минимальной стоимости в транспортных сетяхШаблон:Sfn.

Если множество допустимых решений задаётся набором линейных неравенств, то подзадача, решаемая на каждой итерации, становится задачей линейного программирования.

Хотя скорость сходимости в худшем случае $O (1 / k)$ для общего случая не может быть улучшена, более высокая скорость сходимости может быть получена для специальных задач, таких как строго выпуклые задачиШаблон:Sfn.

Нижние границы на значение решения и прямо-двойственный анализ

Поскольку функция $f$ выпукла, для любых двух точек $𝐱, 𝐲 \in 𝒟$ имеем:

f (𝐲) ⩾ f (𝐱) + (𝐲 - 𝐱)^{T} \nabla f (𝐱)

Это выполняется также для (неизвестного) оптимального решения $𝐱^{*}$ . То есть $f (𝐱^{*}) ⩾ f (𝐱) + (𝐱^{*} - 𝐱)^{T} \nabla f (𝐱)$ . Лучшая нижняя граница с учётом точки $𝐱$ задаётся формулой

\begin{matrix} f (𝐱^{*}) & ⩾ f (𝐱) + (𝐱^{*} - 𝐱)^{T} \nabla f (𝐱) \\ ⩾ \min_{𝐲 \in D} {f (𝐱) + (𝐲 - 𝐱)^{T} \nabla f (𝐱)} \\ = f (𝐱) - 𝐱^{T} \nabla f (𝐱) + \min_{𝐲 \in D} 𝐲^{T} \nabla f (𝐱) \end{matrix}

Эта последняя задача решается на каждой итерации алгоритма Франк — Вульфа, поэтому решение $𝐬_{k}$ подзадачи нахождения направления на $k$ -й итерации может быть использовано для определения возрастающих нижних границ $l_{k}$ на каждой итерации путём присвоения $l_{0} = - \infty$ и

l_{k} := \max (l_{k - 1}, f (𝐱_{k}) + (𝐬_{k} - 𝐱_{k})^{T} \nabla f (𝐱_{k}))

Такие нижние границы на неизвестное оптимальное значение на практике очень важны, поскольку могут быть использованы как критерий остановки алгоритма и дают эффективный показатель качества приближения на каждой итерации, поскольку всегда $l_{k} ⩽ f (𝐱^{*}) ⩽ f (𝐱_{k})$ .

Было показано, что разрыв двойственности, являющийся разницей между $f (𝐱_{k})$ и нижней границей $l_{k}$ , уменьшается с той же скоростью, то есть $f (𝐱_{k}) - l_{k} = O (1 / k) .$

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend

Ссылка

Marguerite Frank giving a personal account of the history of the algorithm

См. также

Метод проксимального градиента

Шаблон:Методы оптимизации Шаблон:Rq

↑ Алгоритм разработали Маргарита Франк и Филип Вульф, так что широко распространённое в русской литературе название Алгоритм Франка — Вульфа является ошибочным.

[1] Алгоритм разработали Маргарита Франк и Филип Вульф, так что широко распространённое в русской литературе название Алгоритм Франка — Вульфа является ошибочным.

[1]

Алгоритм Франк — Вульфа

Содержание

Формулировка задачи

Алгоритм

Свойства

Нижние границы на значение решения и прямо-двойственный анализ

Примечания

Литература

Ссылка

См. также

Навигация

Алгоритм Франк — Вульфа

Формулировка задачи

Алгоритм

Свойства

Нижние границы на значение решения и прямо-двойственный анализ

Примечания

Литература

Ссылка

См. также

Навигация

Поиск