Размерность Вапника — Червоненкиса

Материал из testwiki
Версия от 17:54, 2 августа 2019; imported>WikisaurusBot (перенос вниз)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигации Перейти к поиску

Размерность Вапника — Червоненкиса или VC-размерность — это характеристика семейства алгоритмов для решения задачи классификации с двумя классами, характеризующая сложность или ёмкость этого семейства. Это одно из ключевых понятий в теории Вапника-Червоненкиса о статистическом машинном обучении, названное в честь Владимира Вапника и Алексея Червоненкиса.

Сами Вапник и Червоненкис предпочитают называть эту величину комбинаторной размерностью, так как выяснилось, она была известна алгебраистам еще до открытия их теории машинного обучения.

Определение

Пусть задано множество X и некоторое семейство индикаторных функций (алгоритмов классификации, решающих правил) ={f(x,α)}, где xX — аргумент функций, α — вектор параметров, задающий функцию. Каждая такая функция f(x,α) сопоставляет каждому элементу множества X один из двух заданных классов. VC-размерностью семейства называется наибольшее число h, такое, что существует подмножество из h элементов множества X, которые функции из могут разбить на два класса всеми возможными способами. Если же такие подмножества существуют для сколь угодно большого h, то VC-размерность полагается равной бесконечности.

VC-размерность можно обобщить и на случай семейства функций {g(x,α)}, принимающих действительные значения. Его VC-размерность определяется как VC-размерность семейства индикаторных функций {I(g(x,α)>β)}, где β пробегает область значений функций g.[1]

Примеры

Как пример, рассмотрим задачу о разбиении точек на плоскости на два класса прямой линией — это так называемый линейный классификатор. Множество из любых трёх точек, не лежащих на одной прямой, может быть разделено прямой линией на два класса всеми возможными способами (23=8 способами, на рисунке ниже показаны три из них), но множества из четырёх и более точек — уже нет. Поэтому VC-размерность линейного классификатора на плоскости равна трём.

Примеры разделения трёх
точек на два класса
Разделение невозможно
для этих четырёх точек

В общем случае, VC-размерность линейных классификаторов в n-мерном пространстве равна n+1.

См. также

Ссылки

Примечания

Шаблон:Примечания Шаблон:Машинное обучение