ооо!

БЛОГ разработчика

Введение в автоклассификацию текста (продолжение)


Семантическая сеть представляет собой иерархическую сеть, в вершинах которой находятся информационные единицы. Дуги семантической сети соответствуют различным связям между информационными единицами. При этом иерархические связи определяются отношениями структуризации, и могут описываться языком математики, например, логикой предикатов

Классификация указание некоторого класса или принадлежности к нему рассматриваемых объектов. Как правило, в ее основе лежит выбор в процессе предварительной обработки данных признаков,  по которым осуществляется отнесение к какому-либо классу. Классификация как метод, в настоящее время, обычно оперирует с признаками с помощью различных математических приемов и средств. К ним относятся как чисто математические методы (методы многомерной классификации, многофакторный анализ, кластерный анализ), так и опирающиеся на них же реализованные на базе искусственного интеллекта системы.
Можно условно представить вышесказанное в виде иерархии с точки зрения представлений следующего вида:

– нейронная сеть – уровень описания общей структуры системы, состоящей из объектов;

– семантическая сеть – уровень взаимодействия, отношений между объектами;

– классификация – уровень математических операций над объектами, между которыми уже установлены связи.

Фактически, автоматическая классификация представляет собой математические операции над объектами, представленными математически.

Исходя из вышесказанного, несмотря на принципиальны
е различия, нейронная и семантическая сети являются математическими преобразованиями, что позволяет найти некий универсальный математический аппарат для создания эффективного гибрида. Представляется интересным совместить в единой гибридной модели свойства различных подходов.

В настоящее время в связи с появлением новых возможностей, а также отсутствием новой принципиальной идеи, разработка гибридных моделей, совмещающих принципиально различные подходы, стала одним из наиболее актуальных направлений. В основном разрабатываемые гибридные модели носят прикладной характер, и направлены на наиболее эффективное решение какой-либо конкретной задачи в  различных сферах деятельности.

Интенсивно развиваются в настоящее время гибридные модели представления знаний в интеллектуальных системах [2-7,9,10]. Так как автоматическая классификация является подзадачей распознавания смысла, для которой используются модели представления знаний, логичным будет совместить нейронные сети, осуществляющие классификацию (кластеризацию) по признакам, и семантические сети с заранее установленными связями между объектами, имеющими имя и значение.

В данной работе осуществляется попытка отойти от традиционного направления классификации на нейронных сетях, как работы с признаками, и обратить большее внимание на смысловые единицы (слова), содержащиеся в тексте, и связи между ними, что традиционно является прерогативой семантических сетей. Проанализировав качества нейронных и семантических сетей, предложена модель, позволяющая частично компенсировать недостатки и сложности при построении обоих сетей, поэтапно изменяя конфигурацию гибридной сети. 

Хотя существует множество различных алгоритмов для автоматической классификации, они не дают исчерпывающее решение. Ценность данной модели состоит в попытке решить задачи автоматической классификации без выделения признаков и не подвергая текст сложному лексико-грамматическому анализу. Также предложенная система позволяет существенно упростить трудоемкий процесс обучения нейронной сети.

Таким образом, задача автоматической классификации текста, представляя собой частный случай задачи распознавания смысла, является в настоящее время актуальной проблемой, затрагивающей различные сферы человеческой деятельности, т.к. ее решение позволит полностью автоматизировать процесс  обработки, классификации и поиска информации.
<<   >>


Материалы взяты из защищенной в ВАК диссертации по автоклассификации. Если вы считаете, что ваши права нарушаются -свяжитесь с нами