Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 634942)
Контекстум
Руконтекст антиплагиат система
Инженерный журнал: наука и инновации  / №3 2012

МИНИМИЗАЦИЯ ОШИБОК ИДЕНТИФИКАЦИИ ЛЕКСЕМ В ТЕКСТАХ, НАПИСАННЫХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ (50,00 руб.)

0   0
Первый авторТихомирова
ИздательствоМ.: Изд-во МГТУ им. Н.Э. Баумана
Страниц9
ID274834
АннотацияПредставлен метод автоматизированной минимизации ошибок идентификации лексем в текстах, написанных на естественном языке. Метод основан на совместном использовании словарной морфологии и аналитического метода. Применение метода позволит улучшить качество автороведческой экспертизы, что повысит вероятность идентификации автора по написанным им текстам.
УДК004.021
Тихомирова, В.А. МИНИМИЗАЦИЯ ОШИБОК ИДЕНТИФИКАЦИИ ЛЕКСЕМ В ТЕКСТАХ, НАПИСАННЫХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ / В.А. Тихомирова // Инженерный журнал: наука и инновации .— 2012 .— №3 .— URL: https://rucont.ru/efd/274834 (дата обращения: 02.05.2024)

Предпросмотр (выдержки из произведения)

Т и х о м и р о в а МИНИМИЗАЦИЯ ОШИБОК ИДЕНТИФИКАЦИИ ЛЕКСЕМ В ТЕКСТАХ, НАПИСАННЫХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ Представлен метод автоматизированной минимизации ошибок идентификации лексем в текстах, написанных на естественном языке. <...> Метод основан на совместном использовании словарной морфологии и аналитического метода. <...> Применение метода позволит улучшить качество автороведческой экспертизы, что повысит вероятность идентификации автора по написанным им текстам. <...> Широко используемый в задачах идентификации текстов метод частотных словарей предполагает подсчет частоты употребления того или иного слова в тексте. <...> При попытке автоматизации этого процесса исследователи сталкиваются с трудностями идентификации лексем, связанных с множеством словоформ одного и того же слова. <...> Затем требуется определить частоту употребления слов, например, с помощью: <...> Несмотря на то, что перечисленные методы используются исследователями при составлении частотных словарей, они обладают недостаточно высокой способностью идентификации лексем. <...> Так, алгоритм метода подсчета частоты употребления словоформ (самый простой, наименее эффективный и малоиспользуемый алгоритм) не предполагает какого-либо морфологического анализа текста, а просто определяет число появления одних и тех же словоформ, идентичных по написанию. <...> Главный недостаток такого метода заключается в том, что слова, являющиеся двумя словоформами одной лексемы, представляют собой различные лексемы для этого вида анализа (например, «дом» и «дома»). <...> Для иллюстрации работы метода подсчета был взят отрывок из повести Н.В. Гоголя «Старосветские помещики». <...> Частота употребления некоторых встречающихся в этом отрывке слов, подсчитанная вручную, приведена в табл. <...> 2012 131 Таблица 1 Частота употребления некоторых слов, встречающихся в отрывке повести Н.В. Гоголя «Старосветские помещики», подсчитанная вручную Слово Частота употребления Слово Частота употребления <...>

Облако ключевых слов *


* - вычисляется автоматически
Антиплагиат система на базе ИИ