Задача классификации

Материал из testwiki
Перейти к навигации Перейти к поиску

Шаблон:Другие значения Задача классифика́ции — задача, в которой множество объектов (ситуаций) необходимо разделить некоторым образом на классы, при этом задано конечное множество объектов, для которых известно, к каким классам они относятся (выборка), но классовая принадлежность остальных объектов неизвестна. Для решения задачи требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества, то есть указать, к какому классу он относится.

В математической статистике задачи классификации называются также задачами дискриминантного анализа. В машинном обучении задача классификации решается, в частности, с помощью методов искусственных нейронных сетей при постановке эксперимента в виде обучения с учителем.

Существуют также другие способы постановки эксперимента — обучение без учителя, но они используются для решения другой задачи — кластеризации или таксономии. В этих задачах разделение объектов обучающей выборки на классы не задаётся, и требуется классифицировать объекты только на основе их сходства друг с другом. В некоторых прикладных областях, и даже в самой математической статистике, из-за близости задач часто не различают задачи кластеризации от задач классификации.

Некоторые алгоритмы для решения задач классификации комбинируют обучение с учителем с обучением без учителя, например, одна из версий нейронных сетей Кохонена — сети векторного квантования, обучаемые с учителем.

Математическая постановка задачи

Пусть X — множество описаний объектов, Y — множество номеров (или наименований) классов. Существует неизвестная целевая зависимость — отображение y*:XY, значения которой известны только на объектах конечной обучающей выборки Xm={(x1,y1),,(xm,ym)}. Требуется построить алгоритм a:XY, способный классифицировать произвольный объект xX.

Вероятностная постановка задачи

Более общей считается вероятностная постановка задачи. Предполагается, что множество пар «объект, класс» X×Y является вероятностным пространством с неизвестной вероятностной мерой 𝖯. Имеется конечная обучающая выборка наблюдений Xm={(x1,y1),,(xm,ym)}, сгенерированная согласно вероятностной мере 𝖯. Требуется построить алгоритм a:XY, способный классифицировать произвольный объект xX.

Признаковое пространство

Признаком называется отображение f:XDf, где Df — множество допустимых значений признака. Если заданы признаки f1,,fn, то вектор 𝐱=(f1(x),,fn(x)) называется признаковым описанием объекта xX. Признаковые описания допустимо отождествлять с самими объектами. При этом множество X=Df1××Dfn называют признаковым пространством.

В зависимости от множества Df признаки делятся на следующие типы:

  • бинарный признак: Df={0,1};
  • номинальный признак: Df — конечное множество;
  • порядковый признак: Df — конечное упорядоченное множество;
  • количественный признак: Df — множество действительных чисел.

Часто встречаются прикладные задачи с разнотипными признаками, для их решения подходят далеко не все методы.

Типология задач классификации

Типы входных данных

Классификацию сигналов и изображений называют также распознаванием образов.

Типы классов

  • Двухклассовая классификация. Наиболее простой в техническом отношении случай, который служит основой для решения более сложных задач.
  • Многоклассовая классификация. Когда число классов достигает многих тысяч (например, при распознавании иероглифов или слитной речи), задача классификации становится существенно более трудной.
  • Непересекающиеся классы.
  • Пересекающиеся классы. Объект может относиться одновременно к нескольким классам.
  • Нечёткие классы. Требуется определять степень принадлежности объекта каждому из классов, обычно это действительное число от 0 до 1.

См. также

Литература

  • Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
  • Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
  • Шаблон:Книга
  • Журавлёв Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
  • Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
  • Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004. ISBN 966-00-0341-2.
  • Шаблон:Книга:The Elements of Statistical Learning
  • Mitchell T. Machine Learning. — McGraw-Hill Science/Engineering/Math, 1997. ISBN 0-07-042807-7.

Ссылки

Шаблон:Искусственный интеллект Шаблон:Машинное обучение