Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 634942)
Контекстум
Руконтекст антиплагиат система
0   0
Первый авторВладимиров
Страниц3
ID511660
АннотацияВ данной статье описаны основные проблемы, с которыми сталкиваются анализаторы естественного теста на этапе первичного анализа. Приведены примеры случайных и преднамеренных искажений текста
УДК004.912
Владимиров, А.Н. ПРОБЛЕМЫ ПЕРВИЧНОГО АНАЛИЗА ЕСТЕСТВЕННЫХ ТЕКСТОВ / А.Н. Владимиров // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии .— 2013 .— №2 .— С. 195-197 .— URL: https://rucont.ru/efd/511660 (дата обращения: 03.05.2024)

Предпросмотр (выдержки из произведения)

УДК 004.912 ПРОБЛЕМЫ ПЕРВИЧНОГО АНАЛИЗА ЕСТЕСТВЕННЫХ ТЕКСТОВ А. Н. <...> В данной статье описаны основные проблемы, с которыми сталкиваются анализаторы естественного теста на этапе первичного анализа. <...> Приведены примеры случайных и преднамеренных искажений текста. <...> Развитие информационных технологий и проникновение интернета в жизнь каждого человека делает возможным обильное общение и обмен информацией в сети и порождает огромное количество текста, преимущественно на естественном языке. <...> На сегодняшний день существуют ситуации, когда без анализа текста просто не обойтись – например, родительский контроль, ну или интеллектуальное построение фразовых индексов по различным форумам, рассылкам, и прочим местам массового общения людей. <...> Типичный порядок обработки текста включает в себя 2 пункта – первичный (предсемантический) и семантический анализ. <...> В свою очередь, первичный анализ разбивается на лексический(выделение лексем – отдельных слов), морфологический(выделение морфембазовой словоформы и формы слова) и синтак сический(определение связей между отдельными морфемами). <...> Между тем, анализ текста на естественном языке – не такой простой процесс, как может показаться на первый взгляд. <...> СЛОЖНОСТЬ ФОРМАЛИЗАЦИИ Естественный язык редко удается четко формализовать, в отличие, например, от языков программирования, в которых всегда существуют некоторые правила. <...> В тексте, написанном на неком языке программирования, всегда известно, что оператор следует за открывающей скобкой, а за ним, в свою очередь, идет либо следующий оператор, либо скобка закрывающая. <...> В естественном языке есть прямой и обратный порядок слов, безличные предложения, разные сокращенные формы, подразумевающиеся члены предложения, поэтому предположить какой член предложения будет следующим, крайне сложно. <...> ПРОБЛЕМА ДИАЛЕКТОВ Если даже взять язык с достаточно простыми правилами, например испанский, то об этих правилах можно говорить <...>