ооо!

БЛОГ разработчика

Анализ традиционных подходов к решению задачи автоматической классификации текста


Лингвистические алгоритмы позволяют отождествлять различные части речи и близкие по смыслу словосочетания. Кроме того, из числа понятий исключаются общеупотребимые слова, которые не несут самостоятельной смысловой нагрузки или имеют широкое значение. Так, слова “концепция” и “развитие” сами по себе не являются понятиями, но могут образовать понятие, выраженное сочетанием: “концепция развития сельского хозяйства”.


Лингвистические методы часто применяются в Системах Понимания Текстов (СПТ), системах извлечения смысла, и как их частный случай, для решения задачи автоматической классификации текста.

В системах понимания текста выделено лингвосемантическое и программное обеспечение. Первое используется для описания модели предметной области и представлено лингвистическим и семантическим словарями [[25] , в терминах которых СПТ формирует образ текста [26]. Работу систем понимания текста можно разделить на два этапа: лингвистическая обработка и семантическая интерпретация, выполняемые соответственно лингвистическим и семантическим модулями СПТ.

Лингвистический модуль (рис. 1.5) объединяет этапы непосредственной обработки естественного языка. На этих этапах происходит первичная формализация предложений входного текста. Каждый этап использует словари лингвистического обеспечения. Текст, подлежащий прочтению, поступает в модуль лингвистической обработки. В нем производится определение языка (в многоязычной системе синтеза), а также отфильтровываются не подлежащие произнесению символы. В некоторых случаях используются спелчекеры (модули исправления орфографических и пунктуационных ошибок). Затем происходит нормализация текста, то есть осуществляется разделение введенного текста на слова и остальные последовательности символов. К символам относятся, в частности, знаки препинания и символы начала абзаца. На этапе графематического анализа выделяются текстовые единицы, такие как слова, предложения и абзацы.

Рис.1.5. Схема лингвистического модуля СПТ


Кроме того, на этом этапе выполняется исключения незначимых слов и более сложных конструкций, таких как вводные предложения. На этапе морфологического анализа определяются грамматические значения слов, такие как часть речи, род, число и т.д. На этапе синтаксического анализа определяется синтаксическая структура предложения, описываемая формулой V – языка [27], основное назначение которого – описание морфологического и синтаксического строя предложения, описываемого V – формулой. Работа семантического модуля приведена на рис. 1.6.

Рис.1.6. Схема семантического модуля СПТ

<<   >>