ооо!

БЛОГ разработчика

Анализ традиционных подходов к решению задачи автоматической классификации текста


Ассоциативно-статистический подход основан на использовании принципа работы правого полушария человеческого мозга. В отличие от левополушарной модели, соответствующей логическому мышлению, основанному на манипулировании формализованными знаниями и правилами их преобразования, он опирается на механизмы ассоциативной статистической обработки [22-24].

         Подобным образом обучаются живые организмы, развивая ассоциации между связанными событиями и закрепляя рефлексы путем повторений.

         Отбираются ключевые понятия, на основе проведенного статистического анализа, выделив повторяющиеся фрагменты информации. Далее формируется ассоциативная семантическая сеть – комплекс связей между понятиями, увязывающий их в модель, где каждый элемент обретает собственный смысл через связи с другими. Появление связей – результат статистического подсчета, частотного анализа понятий в тексте и их комбинаций друг с другом. Локальные фрагменты ассоциативной сети, слабо связанные с другими, отбрасываются как случайные, другие сильнее увязываются между собой, выявляются новые связи.  В основе процедур, используемых для анализа документов, лежит представление смысла текста в форме ассоциативной семантической сети.

         Семантическая сеть это множество понятий (слов и словосочетаний), связанных между собой. В семантическую сеть включаются наиболее часто встречающиеся слова текста, которые несут основную смысловую нагрузку. Для каждого понятия формируется набор ассоциативных (смысловых) связей, т.е. список других понятий, в сочетании с которыми оно встречалось в предложениях текста. При этом считается, что чем чаще встречаются вместе два понятия в предложениях текста, тем выше вероятность того, что они связаны по смыслу.

         Статистические данные о связях понятий в тексте, их распределении, позволяют оценить их вклад в общее содержание текста и, таким образом, ранжировать темы по информативности. В итоге каждой теме семантической сети присваивается так называемый тематический вес. Максимальное значение тематического веса (равное 100) соответствует ключевой (важнейшей) теме текста. Близкое к нулю значение веса темы показывает, что она лишь вскользь упомянута в тексте, и в нем мало сведений, относящихся к данной теме. Связи между парами тем, в свою очередь, также имеют характеристики веса связей (от 0 до 100). Большое значение веса связи от одной темы к другой, близкое к 100, указывает на то, что подавляющая часть информации в тексте, касающаяся первой, касается в тоже время и второй темы первая тема почти всегда излагается в контексте второй. Малое значение веса отражает тот факт, что первая тема слабо связана со второй (излагается независимо от нее). Связь между парой тем сети всегда двусторонняя, однако, связь от первой темы ко второй не всегда имеет тот же самый вес, что и обратная - от второй к первой. Такое различие в весах может указывать на то, что одна тема является подтемой другой.

         Для данного подхода семантическая сеть представляет собой тематический индекс анализируемых текстов, который используется для поиска документов по теме. Кроме того, это дает возможность расширения запроса за счет включения ассоциативно связанных тем. По каждой из тем сети формируется набор связных фрагментов текста – цитат, относящихся к соответствующей теме, которые представляют тематическое резюме (реферат) текста. Кроме того, выполняется ранжирование этих фрагментов по весам (от 0 до 100), которые отражают их информативность для соответствующей темы. Общее резюме текста формируется из наиболее информативных фрагментов по ключевым темам документа. При разбиении текста на связанные по смыслу фрагменты используется лингвистический алгоритм выявления групп предложений, связанных общностью содержания – сверхфразовых единств. Кроме того, учитывается формальная разметка текста документа (например, для HTML-документов).

         При анализе текста можно воспользоваться семантической сетью, построенной на базе других текстов (эталонных). Например, если по текстам определенной предметной области построена семантическая сеть, ее можно использовать для фильтрации информации из других текстов. В этом случае в текстах выявляются только те темы, которые содержатся в эталонной сети, и резюме строятся только по этим темам. Сравнение семантических сетей различных текстов позволяет установить степень их смысловой близости, что может использоваться для автоматической классификации документов по заданным рубрикам, поиска документов по подобию заданному тексту, а также кластеризации информационного массива на классы документов близкого содержания.

        

<<   >>