Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 634932)
Контекстум
Руконтекст антиплагиат система
Прикладная информатика / Journal of Applied Informatics  / №3 (63) 2016

О поиске эквивалентных текстов (150,00 руб.)

0   0
Первый авторБухаров
Страниц7
ID463817
АннотацияВ статье описан подход к формированию поискового множества, используемого при определении эквивалентов текста. Задача такого вида возникает при поиске дубликатов текста, определении авторства и возможного плагиата, организации библиотечного поиска, а также при создании поисковых систем Интернета. В подходе, представленном в статье, учитывается ряд особенностей: частотность слов, пунктуация, морфемная структура слов, регистр букв и артефакты текста (специфические цифро-буквенные сочетания). Разработанная программа протестирована на наборе данных, в число которых включены как оригиналы текстов, так и их специальным образом модифицированные варианты. В результате проведенного эксперимента определены слабые стороны подхода. Приведены варианты по улучшению разработанного программного средства и схема взаимодействия модулей разработанной программы после модификации
Бухаров, Д.С. О поиске эквивалентных текстов / Д.С. Бухаров // Прикладная информатика / Journal of Applied Informatics .— 2016 .— №3 (63) .— С. 48-54 .— URL: https://rucont.ru/efd/463817 (дата обращения: 27.04.2024)

Предпросмотр (выдержки из произведения)

2016 ] ПРИКЛАДНАЯ ИНФОРМАТИКА / JOURNAL OF APPLIED INFORMATICS Д. С. <...> Бухаров, канд. техн. наук, филиал ОАО «СО ЕЭС» «Региональное диспетчерское управление энергосистемы Иркутской области», г. Иркутск, bukharovds@gmail.com О поиске эквивалентных текстов В статье описан подход к формированию поискового множества, используемого при определении эквивалентов текста. <...> Задача такого вида возникает при поиске дубликатов текста, определении авторства и возможного плагиата, организации библиотечного поиска, а также при создании поисковых систем Интернета. <...> В подходе, представленном в статье, учитывается ряд особенностей: частотность слов, пунктуация, морфемная структура слов, регистр букв и артефакты текста (специфические цифро-буквенные сочетания). <...> Разработанная программа протестирована на наборе данных, в число которых включены как оригиналы текстов, так и их специальным образом модифицированные варианты. <...> В результате проведенного эксперимента определены слабые стороны подхода. <...> Приведены варианты по улучшению разработанного программного средства и схема взаимодействия модулей разработанной программы после модификации. <...> Ключевые слова: поиск эквивалента, поисковое множество, сравнение текстов, библиотечный поиск, поиск плагиата. <...> Введение поиском эквивалентного текста подразумевается определение текста, максимально подобного некоторому запросу или другому тексту. <...> Формализация такой задачи — сложный процесс, так как сравнение выполняется на естественном языке, который содержит в себе множество аспектов, слабо поддающихся математико-алгоритмическому описанию. <...> Для поиска эквивалентных текстов разраА батываются различные подходы, обеспечивающие эффективное решение в рамках поставленной задачи. <...> ктуальные задачи поиска эквивалентных текстов в настоящее время — «библиотечный поиск» и «поиск плагиата». <...> Под В работах [1; 2] применяется наиболее популярный подход к поиску дубликатов текстов, основанный на построении <...>