Субградиентные методы

Субградиентные методы — итеративные методы решения задач выпуклой минимизации. Субградиентные методы, разработанные Наумом Зуселевичем Шором сходятся, даже если применяются к недифференцируемым целевым функциям. Когда функция дифференцируема, субградиентные методы для задач без ограничений используют то же направление поиска, что и метод наискорейшего спуска.

Субградиентные методы медленнее методов Ньютона, где для минимизации применяются дважды непрерывно дифференцируемые выпуклые функции. Однако методы Ньютона перестают сходиться на задачах, которые имеют недифференцируемые изгибы.

В последние годы предложены некоторые методы внутренней точки для задач выпуклой минимизации, но и методы проекции субградиента, и связанные пучковые методы спуска остаются конкурентоспособными. Для задач выпуклой минимизации с большим числом размерностей приемлемы методы проекции субградиента, поскольку они требуют малый размер памяти.

Методы проекции субградиента часто применяются к задачам большого размера с помощью техник декомпозиции. Такие методы разложения часто допускают простой распределённый метод задачи.

Правила классического субградиента

Пусть $f : ℝ^{n} \to ℝ$ будет выпуклой функцией с областью определения $ℝ^{n}$ . Классический субградиентный метод итерирует

x^{(k + 1)} = x^{(k)} - α_{k} g^{(k)}

где $g^{(k)}$ это любой субдифференциал функции $f$ в точке $x^{(k)}$ , а $x^{(k)}$ — k-ая итерация переменной $x$ . Если $f$ дифференцируемая, то его единственным субградиентом является градиент $\nabla f$ . Может случиться, что $- g^{(k)}$ не является направлением убывания для $f$ в точке $x^{(k)}$ . Поэтому мы содержим список $f_{b e s t}$ , в котором хранятся найденные наименьшие значения целевой функции, то есть

f_{b e s t}^{(k)} = \min {f_{b e s t}^{(k - 1)}, f (x^{(k)})} .

Правила размера шага

В субградиентных методах используется большое число различных правил выбора размера шага. Здесь мы отметим пять классических правил, для которых доказательства сходимости известны:

Постоянный размер шага, $α_{k} = α$ .
Постоянная длина шага, $α_{k} = γ / ‖ g^{(k)} ‖_{2}$ , что даёт $‖ x^{(k + 1)} - x^{(k)} ‖_{2} = γ$ .
Суммируемый с квадратом, но не суммируемый размер шага, то есть любой размер шага, для которого выполняется

α_{k} ⩾ 0, \sum_{k = 1}^{\infty} α_{k}^{2} < \infty, \sum_{k = 1}^{\infty} α_{k} = \infty .

Несуммируемый убывающий размер шага, то есть любой шаг, удовлетворяющий

α_{k} ⩾ 0, \lim_{k \to \infty} α_{k} = 0, \sum_{k = 1}^{\infty} α_{k} = \infty .

Несуммируемая убывающая длина шага, то есть, $α_{k} = γ_{k} / ‖ g^{(k)} ‖_{2}$ , где

γ_{k} ⩾ 0, \lim_{k \to \infty} γ_{k} = 0, \sum_{k = 1}^{\infty} γ_{k} = \infty .

Для всех пяти правил размер шага определяется «заранее», до начала работы метода. Размер шага не зависит от предшествующих итераций. Свойство выбора шага «заранее» для субградиентных методов отличается от правил выбора шага «в процессе», используемых в методах для дифференцируемых функций — многие методы минимизации дифференцируемых функций удовлетворяют условиям Вольфа для сходимости, где размеры шага зависят от текущего положения точки и текущего направления поиска. Пространное обсуждение правил выбора шага для субградиентных методов, включая версии с инкрементированием, приведены в книге БертсекасаШаблон:Sfn, а также в книге Бертсекаса, Недич и ОздаглараШаблон:Sfn.

Сходимость

Для постоянной длины шага и масштабируемых субградиентов, имеющих евклидову норму равную единице, субградиентный метод приближается произвольно близко к минимальному значению, то есть

\lim_{k \to \infty} f_{b e s t}^{(k)} - f^{*} < ϵ

согласно Шору^[1].

Классические субградиентные методы имеют плохую сходимость и более не рекомендуются для использованияШаблон:Sfn Шаблон:Sfn. Однако они всё ещё используются в специализированных приложениях, поскольку они просты и легко приспосабливаются под специальные структуры, чтобы использовать их особенности.

Проекции субградиента и методы пучков

В течение 1970-х годов Клод Лемерэчел и Фил Вольф предложили «методы пучков» для спуска для задач выпуклой минимизацииШаблон:Sfn. Значение термина «методы пучков» с тех пор сильно изменилось. Современные версии и полный анализ сходимости были даны КиелемШаблон:Sfn. Современные методы пучков часто используют правила «контроля уровня» для выбора размера шага, которые развивают техники из метода «проекций субградиента» Бориса Т. Поляка (1969). Однако существуют проблемы, вследствие которых часто методы пучков дают малое преимущество перед методами проекции субградиентовШаблон:Sfn Шаблон:Sfn.

Оптимизация с ограничениями

Метод проекции субградиента

Одним из расширений субградиентных методов является метод проекции субградиента, который решает задачу оптимизации с ограничениями

минимизировать

f (x)

при условии

x \in 𝒞

где $𝒞$ является выпуклым множеством. Метод проекции субградиента использует итерации

x^{(k + 1)} = P (x^{(k)} - α_{k} g^{(k)})

где $P$ является проекцией на $𝒞$ , а $g^{(k)}$ является любым субградиентом $f$ в точке $x^{(k)}$ .

Ограничения общего вида

Метод субградиента может быть расширен для решения задачи с ограничениями в виде неравенств

минимизировать

f_{0} (x)

при условии

f_{i} (x) ⩽ 0, i = 1, \dots, m

где функции $f_{i}$ выпуклы. Алгоритм принимает ту же форму случая без ограничений

x^{(k + 1)} = x^{(k)} - α_{k} g^{(k)}

где $α_{k} > 0$ является размером шага, а $g^{(k)}$ является субградиентом целевой функции или одной из функций ограничений в точке $x$ . Здесь

g^{(k)} = {\begin{matrix} \partial f_{0} (x) & f_{i} (x) ⩽ 0 \forall i = 1 \dots m \\ \partial f_{j} (x) & \exists j : f_{j} (x) > 0 \end{matrix}

где $\partial f$ означает субдифференциал функции $f$ . Если текущая точка допустима, алгоритм использует субградиент целевой функции. Если точка не допустима, алгоритм выбирает субградиент любого нарушенного ограничения.

Примечания

Шаблон:Примечания

Литература

Дополнительная литература

Шаблон:Книга

Ссылки

EE364A and EE364B, Stanford’s convex optimization course sequence.

Шаблон:Методы оптимизации Шаблон:Rq

↑ Сходимость методов субградиента с постоянным (масшабированным) шагом утверждается в упражнении 6.3.14(a) книги Берцекаса (страница 636) Шаблон:Harv и он приписывает этот результат Шору Шаблон:Harv

[1] Сходимость методов субградиента с постоянным (масшабированным) шагом утверждается в упражнении 6.3.14(a) книги Берцекаса (страница 636) Шаблон:Harv и он приписывает этот результат Шору Шаблон:Harv

[1]

Субградиентные методы

Содержание

Правила классического субградиента

Правила размера шага

Сходимость

Проекции субградиента и методы пучков

Оптимизация с ограничениями

Метод проекции субградиента

Ограничения общего вида

Примечания

Литература

Дополнительная литература

Ссылки

Навигация

Субградиентные методы

Правила классического субградиента

Правила размера шага

Сходимость

Проекции субградиента и методы пучков

Оптимизация с ограничениями

Метод проекции субградиента

Ограничения общего вида

Примечания

Литература

Дополнительная литература

Ссылки

Навигация

Поиск