УДК 519.683.5 АЛГОРИТМ ОБНАРУЖЕНИЯ ФАКТОВ ДУБЛИРОВАНИЯ ИНФОРМАЦИИ В ДОКУМЕНТИРОВАННЫХ РЕЗУЛЬТАТАХ САМОСТОЯТЕЛЬНОЙ УЧЕБНОЙ ДЕЯТЕЛЬНОСТИ СТУДЕНТОВ, УСТОЙЧИВЫЙ К НЕЗНАЧИТЕЛЬНЫМ ИЗМЕНЕНИЯМ ТЕКСТА 2011 г. А.В. Маликов, А.С. Целиковский Северо-Кавказский государственный технический университет, г. Ставрополь North Caucasus State Technical University, Stavropol Проблема дублирования информации в работах студентов очевидна. <...> Существующие методы определения плагиата требуют полного соответствия записей отдельных частей текста для установления факта дублирования, поэтому они не могут корректно обрабатывать результаты обработки текстов программными синонимайзерами, которые в последнее время получили довольно широкое распространение. <...> В статье описывается модификация метода шинглов для определения плагиата, позволяющая определять заимствования в текстах после обработки их синонимайзерами посредством морфологической и синонимической нормализации слов. <...> Existing methods for determining plagiarism cannot correctly handle the results of word processing synonymy software, which recently received fairly widespread. <...> The article describes a modification of the definition of plagiarism shingles that enables the borrowing of texts after their treatment by synonymy software Keywords: definition of plagiarism; method of shingles; synonymy software; normalization of words. <...> В условиях беспрепятственного доступа студентов к огромным информационным ресурсам (интернет, электронные библиотеки, работы других студентов, в том числе параллельных и предыдущих курсов) существует большое искушение при выполнении домашних заданий (рефераты, курсовые проекты и т.д.) использовать отдельные части уже существующих документов. <...> В связи с развитием различных языковых утилит (в частности, синонимайзеров) задача распознавания дублирования становится еще сложнее. <...> Цель данной работы состоит в усовершенствовании существующих алгоритмов поиска дубликатов для повышения полноты результатов. <...> Предыдущие работы Поиск полных дубликатов: для каждого документа вычисляется хэш-функция. <...> Выявление дубликатов производится путем поиска <...>