ооо!

БЛОГ разработчика

Анализ традиционных подходов к решению задачи автоматической классификации текста


Каждому термину присваивается весовой коэффициент, отражающий его значимость:

Wij = A · i                                                  (1.16)

где   

·          Wij – вес термина i в документе j;

·          A – частота термина слова i в документе j;

·          i – инверсная частота термина i.

Современные способы индексирования не ограничиваются анализом перечисленных параметров текста. Поисковая машина может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного расположения терминов, частей речи, морфологических особенностей и т.п.  

Законы Зипфа используют практически все системы автоматического поиска информации. Математический анализ позволяет машине с хорошей точностью, без участия человека распознать суть текста, однако несмотря на их эффективность, очевидно, что при



В настоящее время большое число средств обработки полнотекстовой информации основано на лингвистическом анализе текста и включает элементы искусственного интеллекта.

 

Существует и ряд других подходов к обработке информации и ее классификации [20]:

·          Тематический анализ текста формирует список ключевых понятий – тем документа, ранжированных по значимости. Сортируется входной поток документов по нужным категориям (рубрикам ) –для каждой рубрики задан набор ключевых слов, которые позволяют отнести документ к данной рубрике.

·          Анализ смысловых связей выявляет отношения между понятиями текста и формирует семантическую сеть на множестве документов.

·          Автоматическое реферирование формирует общие и тематические рефераты документов в форме ключевых фраз, раскрывающих содержание текста.

·          Автоматическая рубрикация позволяет создавать иерархические рубрикаторы на основании анализа коллекций документов и классифицировать документы по рубрикам.

·          Нечеткий поиск позволяет расширять запрос близкими по написанию словами из коллекции документов, по которым ведется поиск.

·          Лингвистическое обеспечение -средства морфологического и синтаксического анализа, такие, как лексико-грамматический анализ предложения, синтаксический анализ предложения, нахождение имен собственных в тексте.

         Однако все приведенные подходы имеют ряд недостатков [21]: системы, основанные на ключевых словах, плохо работают для языков с высокой изменчивостью (то же можно сказать в большой степени и о лингвистических методах), не всегда определяется истинная важность слова, так как не учитывается контекст, существует проблема синонимов. Создание вручную списка ключевых слов, помимо прочего, дорогостоящий и трудоемкий процесс, однако в последнее время появляются системы классификации нового поколения, решающие эту задачу сравнительно эффективно [22].

В настоящее время присутствует очень небольшое количество традиционных программ реферирования, то есть таких, которые выделяют наиболее весомые предложения из текста используя статистические, алгоритмы, либо слова-подсказки. Это связано с постепенным устареванием этого метода, и использованием более перспективных направлений в сфере автоматической классификации текста.

Автоматическая классификация на основе выделенных терминов [21]. Администратор каталога или системы документооборота указывает программе-классификатору нужные рубрики и отнесенные к ним обучающие выборки документов. Программы-классификаторы составляют семантические рубрики на основе выделения в обучающих текстах значимых терминов (слова и словосочетания), приводят их к словарным формам, составляют распределение терминов по рубрикам и документам, подсчитывают различительную силу каждого термина для данной рубрики и составляют семантические образы из наиболее различительных терминов. Хотя такие системы довольно эффективны, в них предполагается непосредственное и значительное участие человека, занимающегося администрированием данной системы.

В целом можно отметить распространенность в большей степени статистических методов при решении задач автоматической классификации и создании поисковых систем, при этом использование лингвистических средств достаточно небольшое.
Задача выделения смысла текста и его автоматическая классификации решается также средствами искусственного интеллекта, где за основу взяты модели естественного мышления и принципы работы человеческого мозга.

Пример левополушарной модели знаний представляют иерархические рубрикаторы, используемые в информационно-поисковых системах для классификации информации. Однако, ввиду неспособности ЭВМ к языковому мышлению, их возможности ограничены рамками изначально заложенной системы знаний. Проблема заключается в невозможности самообучения рубрикатора без участия человека.


<<   >>