Т и х о м и р о в а
МИНИМИЗАЦИЯ ОШИБОК
ИДЕНТИФИКАЦИИ ЛЕКСЕМ В ТЕКСТАХ,
НАПИСАННЫХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
Представлен метод автоматизированной минимизации ошибок
идентификации лексем в текстах, написанных на естественном языке. <...> Метод основан на совместном использовании словарной морфологии и аналитического метода. <...> Применение метода позволит улучшить качество автороведческой экспертизы, что повысит вероятность идентификации автора по написанным им текстам. <...> Широко используемый в задачах идентификации текстов метод частотных словарей предполагает подсчет частоты употребления того или иного слова в тексте. <...> При попытке автоматизации
этого процесса исследователи сталкиваются с трудностями идентификации лексем, связанных с множеством словоформ одного и того
же слова. <...> Затем требуется определить частоту употребления слов, например, с помощью: <...> Несмотря на то, что перечисленные методы используются исследователями при составлении частотных словарей, они обладают недостаточно высокой способностью идентификации лексем. <...> Так, алгоритм метода подсчета частоты употребления словоформ (самый
простой, наименее эффективный и малоиспользуемый алгоритм) не
предполагает какого-либо морфологического анализа текста, а просто определяет число появления одних и тех же словоформ, идентичных по написанию. <...> Главный недостаток такого метода заключается в
том, что слова, являющиеся двумя словоформами одной лексемы,
представляют собой различные лексемы для этого вида анализа
(например, «дом» и «дома»). <...> Для иллюстрации работы метода подсчета был взят отрывок из повести Н.В. Гоголя «Старосветские помещики». <...> Частота употребления некоторых встречающихся в этом
отрывке слов, подсчитанная вручную, приведена в табл. <...> 2012
131
Таблица 1
Частота употребления некоторых слов, встречающихся
в отрывке повести Н.В. Гоголя «Старосветские помещики»,
подсчитанная вручную
Слово
Частота
употребления
Слово
Частота
употребления <...>