ооо!

БЛОГ разработчика

Введение в автоклассификацию текста


В настоящее время большое внимание уделяется повышению уровня интеллектуальности различного рода автоматизированных систем, исследованию и разработке методов и средств представления знаний, получению оптимальных решений на их основе. Это в полной мере относится к задаче автоматической классификации текстов, актуальность которой повышается по мере внедрения и развития информационных технологий.
Исследования и разработки в области автоматической обработки текста в Европе и США привлекают внимание крупнейших фирм и государственных организаций самого высокого уровня, в нашей стране это направления активно развивают различные научные школы. Особенное значение данное направление приобрело в связи с активным распространением глобальных информационных сетей. В связи с этим пристальное внимание привлекают также работа поисковых систем, систем классификации и реферирования, извлечения знаний, в общем, систем для обработки информации с целью повышения эффективности ее использования.

Существует множество подходов к решению задачи автоматической обработки, распознания и классификации текстовой информации, однако внимание, уделяемое данной проблеме, однозначно свидетельствует, что ни один из них не является исчерпывающим. Наиболее часто используемыми методами в таких направлениях, как распознавание и классификация (либо генерация) речи являются статистические методы. К ним относятся: методы многомерного статистического анализа, в частности, факторного анализа, методы автоматической классификации, (кластерного анализа, таксономии, распознавания образов без учителя), частотный анализ текста, математический анализ текста на основе законов Зипфа [1-5]
В некоторых областях, например, лексико-грамматическом анализе предложения, синтаксический анализ предложения, автоматическое реферирование, в большей степени применяются лингвистические методы. Зачастую в системах автоматического реферирования применяются как лингвистические, так и статистические методы.

Лингвистические методы в современных приложениях автоматической классификации и распознания (анализа) часто используются совместно с методами искусственного интеллекта, особенно с семантическими сетями. Семантические сети строятся на основе выделенных лексических или синтаксических отношений.
Из методов искусственного интеллекта для решения данной проблемы применялись нейронные сети, семантические сети, экспертные системы. Нейронные сети используются для решения таких задач, как распознавание, классификация, кластеризация. Семантические сети в эффективны не только с точки зрения классификации и реферирования, но и выделения смысла текста и зачастую опираются на лингвистический аппарат.
Практически все создаваемые в области искусственного интеллекта системы опираются на определенный математический аппарат, к которому относится вся математика, используемая в данной сфере. Применительно к сфере искусственного интеллекта в целом, и нейронным и семантическим сетям в частности, разработан и используется математический аппарат [1,2,8,11], опирающийся на такие области, как распознавание образов, нейроматематика и др.
Под нейронной сетью в данной работе понимается некая упрощенная математическая модель биологической нейронной сети [1]. Математическая модель нейронной сети является системой матричных преобразований, реализованной посредством цифровых вычислительных машин.
<<   >>


Материалы взяты из защищенной в ВАК диссертации по автоклассификации.