Метод проксимального градиента

Метод проксимального градиента^[1] — это обобщение проецирования, используемое для решения недифференцируемых задач выпуклого программирования.

Много интересных задач можно сформулировать как задачи выпуклого программирования вида

$min_{x \in ℝ^{N}} \sum_{i = 1}^{n} f_{i} (x)$

где $f_{i}, i = 1, \dots, n$ — выпуклые функции, определённые как отображения $f : ℝ^{N} \to ℝ$ , где некоторые из функций недифференцируемы, что исключает обычные техники гладкой оптимизации, такие как метод наискорейшего спуска или метод сопряжённых градиентов и др., вместо них могут быть использованы проксимальные градиентные методы. Эти методы работают путём расщепления, так что функции $f_{1}, ..., f_{n}$ используются индивидуально, что позволяет разработать более просто реализуемые алгоритмы. Они называются проксимальными (Шаблон:Lang-en, ближайший), поскольку каждая негладкая функция среди $f_{1}, ..., f_{n}$ вовлекается в процесс через оператор близости. Итерационный алгоритм мягкой пороговой фильтрацииШаблон:Sfn, проекция Ландвебера, проекция градиента, попеременные проекции, Шаблон:Не переведено 5, метод чередующихся расщеплений Брэгмана являются частными случаями проксимальных алгоритмовШаблон:R. Для рассмотрения проксимальных градиентных методов со стороны статистической теории обучения и приложений к этой теории см. статью Шаблон:Не переведено 5.

Обозначения и терминология

Пусть $ℝ^{N}$ , $N$ -мерное евклидово пространство, будет областью определения функции $f : ℝ^{N} \to (- \infty, + \infty]$ . Предположим, что $C$ является непустым выпуклым подмножеством множества $ℝ^{N}$ . Тогда индикаторная функция множества $C$ определяется как

ι_{C} : x \mapsto {\begin{matrix} 0 & x \in C \\ + \infty & x \notin C \end{matrix}

p

-норма определяется как

(‖ \cdot ‖_{p})

‖ x ‖_{p} = (| x_{1} |^{p} + | x_{2} |^{p} + \dots + | x_{N} |^{p})^{1 / p}

Расстояние от $x \in ℝ^{N}$ до $C$ определяется как

D_{C} (x) = \min_{y \in C} ‖ x - y ‖_{2}

Если $C$ замкнуто и выпукло, проекцией $x \in ℝ^{N}$ в множество $C$ является единственная точка $P_{C} x \in C$ , такая что $D_{C} (x) = ‖ x - P_{C} x ‖_{2}$ .

Субдифференциал функции $f$ в точке $x$ задаётся выражением

\partial f (x) = {u \in ℝ^{N} ∣ \forall y \in ℝ^{N}, (y - x)^{T} u + f (x) ⩽ f (y) .}

Проецирование в выпуклые множества

Одним из широко используемых выпуклых алгоритмов оптимизации является проецирование в выпуклые множества. Этот алгоритм используется для обнаружения/синтезирования сигнала, удовлетворяющего одновременно нескольким выпуклым ограничениям. Пусть $f_{i}$ будет индикаторной функцией на непустом замкнутом выпуклом множестве $C_{i}$ , моделирующей ограничение. Это сводит задачу к задаче выпуклой осуществимости (достижимости), в которой нужно найти решение, содержащееся в пересечении всех выпуклых множеств $C_{i}$ . В методe проецирования в выпуклые множества каждое множество $C_{i}$ ассоциируется с его проектором $P_{C_{i}}$ . Таким образом, на каждой итерации $x$ пересчитывается по формуле

x_{k + 1} = P_{C_{1}} P_{C_{2}} \dots P_{C_{n}} x_{k}

Однако за пределами таких задач проекторы не подходят и требуются операторы более общего вида. Среди различных существующих обобщений понятия выпуклого проектора операторы близости лучше всего подходят для таких целей.

Определение

Шаблон:Не переведено 5 выпуклой функции $f$ в точке $x$ определяется как единственное решение

\underset{y}{argmin} (f (y) + \frac{1}{2} {‖ x - y ‖}_{2}^{2})

и обозначается как ${prox}_{f} (x)$ .

{prox}_{f} (x) : ℝ^{N} \to ℝ^{N}

Заметим, что в случае, когда $f$ является индикаторной функцией $ι_{C}$ некоторого выпуклого множества $C$

\begin{matrix} {prox}_{ι_{C}} (x) & = \underset{y}{argmin} {\begin{matrix} \frac{1}{2} {‖ x - y ‖}_{2}^{2} & y \in C \\ + \infty & y \notin C \end{matrix} \\ = \underset{y \in C}{argmin} \frac{1}{2} {‖ x - y ‖}_{2}^{2} \\ = P_{C} (x) \end{matrix}

что показывает, что оператор близости действительно является обобщением проектора.

Оператор близости функции $f$ описывается включением

p = {prox}_{f} (x) \Leftrightarrow x - p \in \partial f (p) (\forall (x, p) \in ℝ^{N} \times ℝ^{N})

Если $f$ дифференцируема, то уравнение выше сводится к

p = {prox}_{f} (x) \Leftrightarrow x - p = \nabla f (p) (\forall (x, p) \in ℝ^{N} \times ℝ^{N})

Примеры

Частными случаями проксимальных градиентных методов являются

См. также

Примечания

Шаблон:Примечания

Литература

Ссылки

Stephen Boyd, Lieven Vandenberghe, Convex optimization
EE364a: Convex Optimization I и EE364b: Convex Optimization II, Страницы стэнфордского курса
EE227A: Lieven Vandenberghe Notes Лекция 18
ProximalOperators.jl: Пакет на языке Julia, реализующий проксимальные операторы.
ProximalAlgorithms.jl: Пакет на языке Julia, реализующий алгоритмы, основанные на операторах близости, включая проксимальный градиентный метод.
Proximity Operator repository: набор операторов близости, реализованных в Matlab и на языке Python.

Шаблон:Rq

↑ Шаблон:Lang-en = ближайший

[1] Шаблон:Lang-en = ближайший

[1]

Метод проксимального градиента

Содержание

Обозначения и терминология

Проецирование в выпуклые множества

Определение

Примеры

См. также

Примечания

Литература

Ссылки

Навигация

Метод проксимального градиента

Обозначения и терминология

Проецирование в выпуклые множества

Определение

Примеры

См. также

Примечания

Литература

Ссылки

Навигация

Поиск