ооо!

БЛОГ разработчика

Анализ традиционных подходов к решению задачи автоматической классификации текста


Классификаторы с использованием искусственных нейронных сетей, и собственно нейронные сети более подробно рассмотрены в разделе 1.3.

Для классификаторов, основанных на функциях подобия [12], характерна универсальность описаний, которые используются как для представления содержания рубрик, так и содержания анализируемых текстов.

Процедура классификации вычисляет меру подобия, позволяющую количественно оценивать тематическую близость описаний:

1.11

где:  

·          Ft – содержание анализируемого текста,

·          Fi – содержание i-ой рубрики,

·          F– множество описаний,

·          E(Ft,Fi) – мера подобия, принимающая значения от 0 до 1.



Процедура классификации сводится к преобразованию анализируемого текста t в представление Ft F, оценке подобия описания Ft с описаниями рубрик Fi (вычисление E(Ft,Fi)), и заключение по результатам сопоставления о принадлежности текста одой или нескольким рубрикам.

Последнее заключение выполняется либо на основе сравнения с пороговой величиной Emin, так что текст относится ко всем рубрикам ci, для которых E(Ft,Fi)>Emin, либо из всех E(Ft,Fi) выбирается максимальная величина, которая и указывает на результирующую рубрику. Наиболее характерными для таких классификаторов является использование лексических векторов модели терм-документ [13] в описаниях F, которые так же применяются и в нейронных классификаторах. В качестве меры подобия обычно берется косинус угла между векторами, вычисляемый через скалярное произведение, в более сложных моделях текста, использующих синтаксическое и семантическое представление, мера подобия исчисляется более сложно.

 

Автоматическая классификация всегда предполагает наличие некоторой системы обработки данных, имеющей вход и выход. Входная информация в данном случае представляет собой текстовый документ.        Одним из наиболее актуальных вопросов классификации текста является выделение наиболее значимой части текста (данных).

Выходная информация относительно проста и сводится к указанию одного из нескольких классов [14] (или, в случае нечетких классов, одному или нескольким классам).

 Поскольку текст некоторый объект, задаваемый числами, то задачи классификации могут подразделяться на два типа:

·          многокатегориальный. В случае многокатегориальной классификации каждому документу (тексту) назначается несколько меток из заранее определённого набора, а задача классификации определить эти метки автоматически с максимальной точностью. Для решения таких задач обычно строятся бинарные классификаторы, по одному на каждую возможную метку. Бинарный классификатор пытается определить, обладает ли поданный на вход документ данной меткой или нет;

·          многоальтернативный. В случае многоальтернативных задач требуется определить класс документа из конечного числа изначально заданных (multiclass categorization). Каждому документу может соответствовать только одна метка из заранее определённого множества возможных (в качестве примера можно рассмотреть задачу определения анонимного текста, при наличии текстов нескольких претендентов, один из которых заведомо является автором анонимного текста).

В случае выбора из двух классов задача классификации становится бинарной [14]. Два типа задач тесно связаны, так как обе сводятся к построению бинарного классификатора [15].

 

Бинарный классификатор Все документы (тексты), включая обучающую часть выборки, разворачиваются в некоторый вектор, индексируемый словами. После этого имеется два множества точек из обучающей выборки в многомерном пространстве, A (принадлежащие жанру) и B (не принадлежащие жанру). Для того, чтобы разделить эти множества, пространство делится на две части, для чего строится гиперплоскость (гиперплоскость – плоскость в пространстве, размерность которой на единицу меньше размерности самого пространства Выбор разделяющих гиперплоскостей по заданным множествам может быть неоднозначен, но существует ровно одна, в некотором отношении оптимальная гиперплоскость. Такую гиперплоскость можно построить с помощью метода опорных (поддерживающих) векторов.

После этого для классификации текста с неизвестным жанром достаточно просто проверить, в какую часть пространства он попал. Коэффициенты, задающие нормаль гиперплоскости, характеризуют вклад, т.е. важность слова в различении классов. Данный подход имеет множество вариаций, и используется достаточно часто, например, в поисковых системах.


Метод опорных векторов (Support Vector Machine - SVM) относится к группе граничных методов. Он определяет классы при помощи границ областей. При помощи данного метода решается описанная выше задачи бинарной классификации.

В основе метода лежит понятие плоскостей решений. Плоскость решения разделяет объекты с разной классовой принадлежностью.

В классификации участвуют объекты двух типов. Разделяющая линия задает границу, справа от которой - все объекты типа 1, а слева - типа 2. Новый объект, попадающий направо, классифицируется как объект класса 1 или - как объект класса 2, если он расположился по левую сторону от разделяющей прямой. В этом случае каждый объект характеризуется двумя измерениями.

Цель метода опорных векторов - найти плоскость, разделяющую два множества объектов. Метод отыскивает образцы, находящиеся на границах между двумя классами, т.е. опорные вектора. Опорными векторами называются объекты множества, лежащие на границах областей.

Классификация считается хорошей, если область между границами пуста. Решение задачи бинарной классификации при помощи метода опорных векторов заключается в поиске некоторой линейной функции, которая правильно разделяет набор данных на два класса.


Задачу классификации, где число классов равно двум, можно сформулировать как поиск функции f(x), принимающей значения меньше нуля для векторов одного класса и больше нуля - для векторов другого класса. В качестве исходных данных для решения поставленной задачи, т.е. поиска классифицирующей функции f(x), дан тренировочный набор векторов пространства, для которых известна их принадлежность к одному из классов. Семейство классифицирующих функций можно описать через функцию f(x). Гиперплоскость определена вектором а и значением b, т.е. f(x)=ax+b. Решение данной задачи проиллюстрировано на рис. 1.2.

Рис. 1.2. Линейный SVM


В результате решения задачи, т.е. построения SVM-модели, находится функция, принимающая значения меньше нуля для векторов одного класса и больше нуля - для векторов другого класса. Для каждого нового объекта отрицательное или положительное значение определяет принадлежность объекта к одному из классов.

 

Линейная регрессия. Распознавание численной (скалярной или векторной) характеристики объекта называется регрессией. Строгое математическое определение регрессии - это условное математическое ожидание одной случайной величины относительно другой, и во многих типичных, хотя и не во всех, задачах регрессия распознавательная является математической регрессией.

Данный метод применим в основном для бинарной классификации –когда имеется только два целевых класса, помечаемых числами 0 и 1. Задача классификации рассматривается как задача построения линейной регрессии [17], где зависимой переменной является набор нулей и единиц (метод применяется при условии, что классифицируемые объекты были представлены в виде последовательностей чисел одинакового размера и одинакового формата) а независимыми переменными – компоненты обучающих векторов признаков. При этом производится пошаговый отбор независимых переменных, включаемых в регрессионную модель. После построения регрессионной модели выбирается величина порога возвращаемого ей значения, так, что если это значение выше порога, соответствующий вектор относится к классу 1, иначе – к классу 0. Порог выбирается на основе критерия минимизации ошибки классификации. Это упрощенный вариант метода логистической регрессии, описываемой в [18], обычно несколько менее точный, но на порядки быстрее работающий.

<<   >>


Материалы взяты из защищенной в ВАК диссертации по автоклассификации. Если вы считаете, что ваши права нарушаются -свяжитесь с нами