Рандомизированный координатный спуск

Рандомизированный (блочный) координатный спуск — алгоритм оптимизации, популяризованный Нестеровым (2010) и позднее дополненный Ричтариком и Такачем (2011). Первый анализ метода, когда он применяется к задаче минимизации гладкой выпуклой функции, был осуществлён Нестеровым (2010)Шаблон:Sfn. В анализе Нестерова метод следует применять к квадратичным возмущениям исходной функции с неизвестным поправочным коэффициентом. Ричтарик и Такач (2011) дали границы сложности итераций без такого требования, то есть метод применяется к целевой функции напрямую. Более того, они обобщили постановку к задаче минимизации сложной функции, то есть суммы гладкой функции и (возможно негладкой) выпуклой блочно-разделимой функции:

$F (x) = f (x) + Ψ (x),$

где $Ψ (x) = \sum_{i = 1}^{n} Ψ_{i} (x^{(i)}), x \in R^{N}$ разложен на $n$ блоков переменных/координат: $x = (x^{(1)}, \dots, x^{(n)})$ и $Ψ_{1}, \dots, Ψ_{n}$ являются (простыми) выпуклыми функциями.

Пример (декомпозиция блоков): Если $x = (x_{1}, x_{2}, \dots, x_{5}) \in R^{5}$ и $n = 3$ , можно выбрать $x^{(1)} = (x_{1}, x_{3}), x^{(2)} = (x_{2}, x_{5})$ и $x^{(3)} = x_{4}$ .

Пример (разделяемые блоки):

$n = N; Ψ (x) = ‖ x ‖_{1} = \sum_{i = 1}^{n} | x_{i} |$
$N = N_{1} + N_{2} + \dots + N_{n}; Ψ (x) = \sum_{i = 1}^{n} ‖ x^{(i)} ‖_{2}$ , где $x^{(i)} \in R^{N_{i}}$ и $‖ \cdot ‖_{2}$ является стандартной евклидовой нормой.

Алгоритм

Рассмотрим задачу оптимизации

\min_{x \in R^{n}} f (x),

где $f$ является выпуклой и гладкой функцией.

Гладкость: Под гладкостью мы понимаем следующее: мы предполагаем, что градиент $f$ покоординатно непрерывен по Липшицу с константами $L_{1}, L_{2}, \dots, L_{n}$ . То есть, мы предполагаем, что

| \nabla_{i} f (x + h e_{i}) - \nabla_{i} f (x) | ⩽ L_{i} | h |,

для любого $x \in R^{n}$ и $h \in R$ , где $\nabla_{i}$ означает частную производную по переменной $x^{(i)}$ .

Нестеров, Ричтарик и Такач показали, что следующий алгоритм сходится к оптимальной точке: Шаблон:Начало коробки

    // Рандомизированный координатный спуск
    Input:  $x_{0} \in R^{n}$  // стартовая точка
    Output:  $x$

    set x := x_0

    for k := 1, ... do
        // обновляем координату  $i \in {1, 2, \dots, n}$  случайно 
         $x^{(i)} = x^{(i)} - \frac{1}{L_{i}} \nabla_{i} f (x)$  
    end for

Шаблон:Конец коробки

Скорость сходимости

Поскольку на итерациях алгоритма образуются случайные вектора, сложность следует отражать в числе итераций, необходимых для получения приближённого решения с высокой вероятностью. В статье Ричтарика и ТакачаШаблон:Sfn было доказано, что если $k ⩾ \frac{2 n R_{L} (x_{0})}{ϵ} \log (\frac{f (x_{0}) - f^{*}}{ϵ ρ})$ , где $R_{L} (x) = \max_{y} \max_{x^{*} \in X^{*}} {‖ y - x^{*} ‖_{L} : f (y) ⩽ f (x)}$ , $f^{*}$ является оптимальным решением ( $f^{*} = \min_{x \in R^{n}} {f (x)}$ ), $ρ \in (0, 1)$ является уровнем доверительной вероятности, а $ϵ > 0$ является желаемой точностью, то $P r o b (f (x_{k}) - f^{*} > ϵ) ⩽ ρ$ .

Пример для конкретной функции

Рисунок ниже показывает как $x_{k}$ меняется по итерациям. Задача

f (x) = \frac{1}{2} x^{T} (\begin{matrix} 1 & 0, 5 \\ 0, 5 & 1 \end{matrix}) x - (\begin{matrix} 1, 5 & 1, 5 \end{matrix}) x, x_{0} = {(\begin{matrix} 0 & 0 \end{matrix})}^{T}

Расширение для блоков координат

Разбиение координатных направлений на блоки координат

Можно естественным образом расширить алгоритм с просто координат на блоки координат. Предположим, что мы имеем пространство $R^{5}$ . Это пространство имеет 5 координатных направлений, а именно $\begin{matrix} e_{1} = (1, 0, 0, 0, 0)^{T}, \\ e_{2} = (0, 1, 0, 0, 0)^{T}, \\ e_{3} = (0, 0, 1, 0, 0)^{T}, \\ e_{4} = (0, 0, 0, 1, 0)^{T}, \\ e_{5} = (0, 0, 0, 0, 1)^{T} \end{matrix}$

в которых метод может двигаться. Однако можно сгруппировать некоторые координатные направления в блоки и мы можем иметь 3 блочных координатных направлений (см. рисунок) вместо 5 координат.

См. также

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend

Шаблон:Методы оптимизации Шаблон:Изолированная статья Шаблон:Rq

Рандомизированный координатный спуск

Содержание

Алгоритм

Скорость сходимости

Пример для конкретной функции

Расширение для блоков координат

См. также

Примечания

Литература

Навигация

Рандомизированный координатный спуск

Алгоритм

Скорость сходимости

Пример для конкретной функции

Расширение для блоков координат

См. также

Примечания

Литература

Навигация

Поиск