Признаковое описание

Материал из testwiki
Перейти к навигации Перейти к поиску

Признаковое описание объекта (Шаблон:Lang-en) — это вектор, который составлен из значений, соответствующих некоторому набору признаков для данного объекта. Значения признаков могут быть различного, не обязательно числового, типа. Является одним из самых распространённых в машинном обучении способов ввода данных.

Формальное определение

Обозначим через X множество объектов, ситуаций, прецедентов некоторой предметной области. Например, в задачах машинного обучения, встречающихся в медицине, прецедентами могут являться пациенты, в сфере кредитования при проведении кредитного скоринга — заёмщики, в задаче фильтрации спама — отдельные сообщения.

Признак (Шаблон:Lang-en) — результат измерения некоторой характеристики объекта, то есть отображение:

f:XDf,

где Df — множество допустимых значений признака.

Значениями признаков могут быть тексты, графы, оцифрованные изображения, числовые последовательности, записи базы данных и т. п. В зависимости от множества Df признаки делятся на следующие типы:

  • бинарный признак: Df={0,1};
  • номинальный признак: Df — конечное множество;
  • порядковый признак: Df — конечное упорядоченное множество;
  • количественный признак: Df — множество действительных чисел.

Часто встречаются прикладные задачи с разнотипными признаками, для решения которых подходят далеко не все методы.

Если заданы признаки f1,,fn, то вектор 𝐱=(f1(x),,fn(x)) называется признаковым описанием объекта xX.

В машинном обучении признаковые описания допустимо отождествлять с самими объектами, то есть: X=Df1×Df2××Dfn. При этом множество X называют признаковым пространством.

Матрицей объектов-признаков (матрица информации, матрица исходных данных) называется совокупность признаковых описаний объектов обучающей выборки Xl=(x1,x2,,xl) длины l, записанная в виде матрицы размера l×n (l строк, n столбцов). Столбцы этой матрицы соответствуют признакам f1,,fn, а каждая строка является признаковым описаниям одного обучающего объекта. Такой вид представления является принятым в задачах классификации и регрессионного анализа, и большое число методов обучения подразумевает такое представление данных.

В приложениях

Встречающиеся на практике задачи могут не содержать удобных для математической обработки данных. Например, в задаче фильтрации спама объекты — сообщения — представлены текстами произвольной длины, могут содержать вложения различных форматов, и т. п. Для приведения данных к стандартному виду применяется процедура — извлечение признаков (Шаблон:Lang-en) из данных или генерация признаков (Шаблон:Lang-en). Таким образом, в качестве признака можно брать и любое отображение из множества X в множество значений, удобное для обработки. Ничто не мешает в качестве такого отображения взять некоторый алгоритм классификации (или регрессии), что позволяет получать сложные композиции алгоритмов.

Литература

Ссылки

Шаблон:Rq