SEO-ТANK


Арсенал для СЕО анализа

Алгоритм ШИНГЛОВ (описание)

Алгоритм шинглов (shingles – англ. черепичка, чешуйка) предназначен для нечеткого поиска дубликатов текста. Слово "нечеткий" означает, что вхождения дублей ищется не точно, а размыто. К примеру, возможен дубликат не только строки, но и отдельных словосочетаний. В основном модификация алгоритма шинглов используется системами антиплагиата, поисковыми системами для борьбы с поисковым спамом, копипастом, а также для определения уникальности рерайта.
Шинглы – выделенные для сравнения из тела текста отдельные части (подстроки), с определенным количеством слов в его последовательности для проверки на уникальность. Шинглы могут быть на любое количество слов, чем шингл короче, тем точнее будет результат проверки.
Существуют различные методы разбиения текста на шинглы:
- друг за другом, шинглы не пересекаются

- внахлест, когда подстроки включают в себя часть предыдущей подстроки;
Способ формирования шинглов и количество слов или символов в шингле, а также сдвиг шингла (на сколько слов или знаков сдвигается последующая подстрока)сильно влияет на точность результата. При определении размерности подстроки выбор зависит от вычислительной мощности, объемов памяти и требуемой точности результатов.
С помощью нашего онлайн-сервиса seo-tank вы можете гибко настроивать параметры алгоритма. Вы можете изменять свой текст прямо на нашем ресурсе, сравнивать его с оригиналом, и если нужно, откатится назад и внести новые исправления.

После разделения на шинглы (подстроки) Также существуют различные подходы к вычислению контрольных сумм и дальнейшему их сравнению для оценки сходства текста. Контрольные суммы можно получить с помощью хэширования по различным алгоритмам (SHA1, SHA3, CRC32, MD5). Далее нужно оценить совпадение полученных контрольных сумм для двух сравниваемых текстов. Наш сервис позволяет определить плагиат или уникальность текста онлайн с помощью алгоритма шинглов. Он рассчитывает процент заимствования текста. В данном случае речь идет исключительно о дубликате, полном или, в в случае рерайтинга, частичном, так как невозможно независимо написать полностью идентичные куски текста. Этот алгоритм используют поисковые системы и системы антиплагиата. Определите качество рерайта и степень заимствования текста онлайн

Для эффективного сравнения нужно задать правильные параметры алгоритма. Чем меньше шингл, тем более точно будут выявлены совпадающие слова. Также и со сдвигом -меньше вероятности "перепрыгнуть" повторяющиеся словесные обороты. Однако чем больше текст, тем проще найти в нем совпадения (если они есть), и нет необходимости выбирать минимальное значение шингла. Важно! Более точная обработка на большом тексте может быть более медленной!

Нередко пишут, что алгоритм шинглов не способен определить идентичность таких фраз, как "Преподаватель дает студенту материал/Преподаватели дают студентам материалы". И действительно, многие сервисы проверки уникальности, основанные на алгоритме шинглов, покажут, что фразы уникальны, хотя для поисковиков они идентичны. Дело здесь не в недостатках алгоритма шинглов, а в методах канонизации текста (очистки). Если в канонизации используется морфология, то есть все слова приводятся к своей нормальной форме,то алгоритм легко распознает фразы как одинаковые, не зависимо от их окончаний. Нормальная форма слова - для существительного именительный падеж, единственное число, для глагола -неопределенная форма и т.д.


Назад к проверке текста