ооо!

БЛОГ разработчика

Анализ традиционных подходов к решению задачи автоматической классификации текста


Классификация по ключевым словам. Это распространенный и наиболее простой подход к классификации текстов, основанный на наличие в тексте определенных слов. Подсчет, сколько раз это слово встретилось в тексте, и большое количество употреблений слова характеризует релевантность. Качество классификации существенно увеличивается, при подсчете частоты всех слов в тексте, или наиболее важных, выбранных по некоторым параметрам, как, например, на основе законов Зипфа, описанных ниже.

         В их основе лежит постулат о том, что все созданные человеком тексты построены по единым правилам. Независимо от использованного языка и от автора текста внутренняя структура текста останется неизменной. Она описывается законами Ципфа (Зипфа, G.K. Zipf) [19]. Зипф предположил, что природные свойства человека ведут к тому, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этой предпосылке, Зипф вывел два универсальных закона [4]: отношения «ранг -частота», и «количество -частота».

Частота вхождения слова определяется тем, сколько раз оно встречается в тексте. Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз. Частоты располагаются по мере их убывания и нумеруются. Порядковый номер частоты называется ранг частоты. вероятность встретить слово, на которое пал выбор. Вероятность встретить слово будет равна отношению частоты вхождения этого слова к общему числу слов в тексте.

Pi = A / N                                                  (1.12)

где:  

·     Pi – вероятность встретить слово i,

·     A – частота вхождения слова i,

·     N – число слов.

         Зипфом обнаружена следующая закономерность: если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна.

С = (A · R) / N                                          (1.13)

где:

·     A – частота вхождения слова i,

·     R – ранг частоты,

·     N – число слов.

Полученная формула преобразуется в функцию типа

y = k / x                                            (1.14)

и ее график – равносторонняя гипербола. Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно.

"Количество – частота". Зипфом  установлено [20], что частота и количество слов, входящих в текст с этой частотой, связаны между собой.

         Если построить график, отложив по оси Х частоту вхождения слова, а по другой оси Y – количество слов в данной частоте, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов. Кривые, построенные для различных языков отличаются коэффициентами, отвечающими за наклон кривой (рис. 1.3).

Рис. 1.3. Кривая, отражающая отношение частоты вхождения слова и количества слов данной частоты

Законы Зипфа универсальны, с их помощью могут извлекаться слова, отражающие смысл текста. Установлено, что наиболее значимые слова лежат в средней части диаграммы графика зависимости ранга от частоты (рис. 1.4).  

Рис. 1.4. Зависимость ранга от частоты

Широко используется в описываемом методе применение весовых коэффициентов. Чтобы избавиться от лишних слов и в тоже время поднять рейтинг значимых слов, вводят инверсную частоту термина. Значение этого параметра тем меньше, чем чаще слово встречается в документах базы данных и вычисляется по формуле:

i = log (N / Ni)                                           (1.15)

где   

·          i – инверсная частота термина,

·          N – количество документов в базе данных,

·          Ni – количество документов с термином i.

        


<<   >>