Инженерный журнал: наука и инновации / №3 2012

МИНИМИЗАЦИЯ ОШИБОК ИДЕНТИФИКАЦИИ ЛЕКСЕМ В ТЕКСТАХ, НАПИСАННЫХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ (50,00 руб.)

Первый автор	Тихомирова
Издательство	М.: Изд-во МГТУ им. Н.Э. Баумана
Страниц	9

50,00р

ID	274834
Аннотация	Представлен метод автоматизированной минимизации ошибок идентификации лексем в текстах, написанных на естественном языке. Метод основан на совместном использовании словарной морфологии и аналитического метода. Применение метода позволит улучшить качество автороведческой экспертизы, что повысит вероятность идентификации автора по написанным им текстам.
УДК	004.021

Тихомирова, В.А. МИНИМИЗАЦИЯ ОШИБОК ИДЕНТИФИКАЦИИ ЛЕКСЕМ В ТЕКСТАХ, НАПИСАННЫХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ / В.А. Тихомирова // Инженерный журнал: наука и инновации .— 2012 .— №3 .— URL: https://rucont.ru/efd/274834 (дата обращения: 17.02.2026)

Вы уже смотрели

Вопросы истории, естествознания и техники №1 2023

Вопросы истории, естествознания и техник... 1380,00 руб

Освещение геополитической проблематики в контексте темы освоения Арктики в американском медиадискурсе (на примере материалов газеты «The New York Times»)

Освещение геополитической проблематики в... 90,00 руб

Предпросмотр (выдержки из произведения)

Т и х о м и р о в а МИНИМИЗАЦИЯ ОШИБОК ИДЕНТИФИКАЦИИ ЛЕКСЕМ В ТЕКСТАХ, НАПИСАННЫХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ Представлен метод автоматизированной минимизации ошибок идентификации лексем в текстах, написанных на естественном языке. <...> Метод основан на совместном использовании словарной морфологии и аналитического метода. <...> Применение метода позволит улучшить качество автороведческой экспертизы, что повысит вероятность идентификации автора по написанным им текстам. <...> Широко используемый в задачах идентификации текстов метод частотных словарей предполагает подсчет частоты употребления того или иного слова в тексте. <...> При попытке автоматизации этого процесса исследователи сталкиваются с трудностями идентификации лексем, связанных с множеством словоформ одного и того же слова. <...> Затем требуется определить частоту употребления слов, например, с помощью: <...> Несмотря на то, что перечисленные методы используются исследователями при составлении частотных словарей, они обладают недостаточно высокой способностью идентификации лексем. <...> Так, алгоритм метода подсчета частоты употребления словоформ (самый простой, наименее эффективный и малоиспользуемый алгоритм) не предполагает какого-либо морфологического анализа текста, а просто определяет число появления одних и тех же словоформ, идентичных по написанию. <...> Главный недостаток такого метода заключается в том, что слова, являющиеся двумя словоформами одной лексемы, представляют собой различные лексемы для этого вида анализа (например, «дом» и «дома»). <...> Для иллюстрации работы метода подсчета был взят отрывок из повести Н.В. Гоголя «Старосветские помещики». <...> Частота употребления некоторых встречающихся в этом отрывке слов, подсчитанная вручную, приведена в табл. <...> 2012 131 Таблица 1 Частота употребления некоторых слов, встречающихся в отрывке повести Н.В. Гоголя «Старосветские помещики», подсчитанная вручную Слово Частота употребления Слово Частота употребления <...>

Облако ключевых слов *

* - вычисляется автоматически


	Для выхода нажмите Esc или