ооо!

БЛОГ разработчика

Постановка задачи автоматической классификации текстов.Процесс построения классификатора


Существуют различные методы определения принадлежности в условиях неопределенности: может быть введена некоторая пороговая функция, на основе которой xi с определенной степенью точности относится к какому-либо классу; проведено сравнение значений μj(х) и т.д.



Исходя из поставленной задачи, необходимо определить:

·     какие входные данные можно использовать,

·     какая обработка исходных данных приводит к получению признаков, позволяющих провести классификацию.

Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математический аппарат классификации.



Основные из математических методов, применяемых в классификации:

·     классификация с помощью деревьев решений,

·     байесовская классификация,

·     классификация при помощи искусственных нейронных сетей,

·     классификация методом опорных векторов,

·     статистические методы, в частности, линейная регрессия,

·     классификация при помощи метода ближайшего соседа,

·     классификация CBR-методом,

·     классификация при помощи генетических алгоритмов.



Процесс построения модели классификатора так же состоит из двух этапов [4]: конструирования модели и ее использования.

1.                Конструирование модели: описание множества предопределенных классов.

·     Каждый пример набора данных относится к одному предопределенному классу.

·     На этом этапе используется обучающее множество, на нем происходит конструирование модели.

·     Полученная модель представлена классификационными правилами, деревом решений или математической формулой.

2.                Использование модели: классификация новых или неизвестных значений.

·     Оценка правильности (точности) модели.

1.     Известные значения из тестового примера сравниваются с результатами использования полученной модели.

2.     Уровень точности - процент правильно классифицированных примеров в тестовом множестве.

3.     Тестовое множество, т.е. множество, на котором тестируется построенная модель, не должно зависеть от обучающего множества.

·     Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.

Процесс классификации, а именно, конструирование модели и ее использование, представлен на рис.1.1.

 



<<   >>


Материалы взяты из защищенной в ВАК диссертации по автоклассификации. Если вы считаете, что ваши права нарушаются -свяжитесь с нами