ооо!

БЛОГ разработчика

Постановка задачи автоматической классификации текстов


В данной главе приводится постановка задачи автоматической классификации текста. Проводится анализ существующих подходов к решению подобных задач. Рассматривается обобщенная структура автоматической системы классификации текста. Проведено сравнение семантической и нейронной сетей, их сильных и слабых сторон с точки зрения выбора типа сети для решения задачи автоматической классификации текста. На основе проведенного сравнения сделан вывод о ценности гибридной модели, позволяющей компенсировать недостатки обоих подходов.

Классификация включает все процессы, заканчивающиеся указанием некоторого класса или принадлежности к нему рассматриваемых объектов и данных. Классификацией называют упорядоченное по некоторому принципу множество объектов, которые имеют сходные классификационные признаки (одно или несколько свойств), выбранных для определения сходства или различия между этими объектами.
Классификация - это закономерность, позволяющая делать вывод относительно определения характеристик конкретной группы. В зависимости от выбранных признаков, их сочетания и процедуры деления понятий классификация может быть:

– простой (деление родового понятия только по признаку и только один раз до раскрытия всех видов);

– сложной (применяется для деления одного понятия по разным основаниям и синтеза таких простых делений в единое целое).

Для проведения классификации должны присутствовать признаки, характеризующие группу, к которой принадлежит то или иной объект.

Задачей классификации часто называют предсказание категориальной зависимой переменной (т.е. зависимой переменной, являющейся категорией) на основе выборки непрерывных и/или категориальных переменных.
Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но ее отличие в том, что классы изучаемого набора данных заранее не предопределены.Термин "кластеризация" также называют [13] синонимом "автоматической классификации" и "обучение без учителя" и "таксономия".  Кластеризация предназначена для разбиения совокупности объектов на однородные группы (кластеры или классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению "сгущений точек". Цель кластеризации - поиск существующих структур. Кластеризация относится к стратегии обучения без учителя.

Задача автоматической классификации текста разбивается на два этапа:

1.       Выбор признаков (в процессе предварительной обработки данных)

по которым осуществляется классификация.


Формализация задачи.
Пусть существует   множество текстов

 А={а1, а2, …аn}                                        (1.1)

где:

·     ai (i=1,…,n)  – отдельно взятый текст,

·     B, C, D       – подмножества А, такие, что B A, C A, D A и их пересечения суть пустые множества.

Тогда, подмножества B, C, D соответствуют классам.

Определяющее свойство P(x) – высказывание, или функция переменной x (соответствующее классификационному признаку), на основе которой определяется принадлежность элемента к подмножеству класса.

Обозначим классификационные признаки каждого класса через определяющие свойства P(x).

Тогда

·     PB(x) – определяющее свойство класса В,

·     PC(x) – определяющее свойство класса С,

·     PD(x) – определяющее свойство класса D,

·     {x AP(x)} – выделенное из А подмножество по признаку Р(х).

Соответственно,

{x APB(x)} =В                                                

{x APC(x)} =С                                               

{x APD(x)} =D                                          (1.2)

Для нечетких множеств [], аналогично, существует   универсальное множество

А={а1, а2, …аn}

такое, что B, C, D являются подмножествами  А, такие, что B A, C A, D A.

Подмножество, элементы которого удовлетворяют условию РВ, определяется как множество упорядоченных пар:

В={μВ(x)/x}                                                 (1.3)

μВ(х) – характеристическая функция, принимающая значение 1, если х удовлетворяет свойству РВ, и в противном случае –0. Функция принадлежности μВ(х) указывает степень или уровень  принадлежности элемента х подмножеству В и принимает значения в некотором множестве М. Множество М является множеством принадлежностей.

Аналогично для множеств С и D.

2.       Выработка процесса решения, основанного на использовании этих признаков для получения результата классификации.



Классификация по признакам предполагает, что внутри класса объекты эквивалентны, т.е. обладают свойствами рефлексивности, транзитивности и симметричности. Отношение эквивалентности определяет признак, который допускает разбиение множества А на непересекающиеся подмножества, называемые классами эквивалентности.

А={а1, а2, …аn}

B, C, D – подмножества  А, такие, что B A, C A, D A.

В ∩С= , DС= , DB=                           (1.4)

Тогда если элемент аi В,  аj ~ аi , то аj В()

Так как для нечетких множеств в отличие от четких множеств:

A ∩                                                   (1.5)

А Е                                                   (1.6)

Следовательно, один и тот же элемент может принадлежать различным подмножествам

xi A,                                                                  

xi B, xi C, xi D                                        (1.7)

так как

μВ(х) 0                                                    

μС(х) 0                                                    

μD(х) 0 , М [0,1]                                                (1.8)

μj(х) – характеристическая принадлежности.



<<   >>


Материалы взяты из защищенной в ВАК диссертации по автоклассификации. Если вы считаете, что ваши права нарушаются -свяжитесь с нами