УДК 004.912 ПРОБЛЕМЫ ПЕРВИЧНОГО АНАЛИЗА ЕСТЕСТВЕННЫХ ТЕКСТОВ А. Н. <...> В данной статье описаны основные проблемы, с которыми сталкиваются анализаторы естественного теста на этапе первичного анализа. <...> Приведены примеры случайных и преднамеренных искажений текста. <...> Развитие информационных технологий и проникновение интернета в жизнь каждого человека делает возможным обильное общение и обмен информацией в сети и порождает огромное количество текста, преимущественно на естественном языке. <...> На сегодняшний день существуют ситуации, когда без анализа текста просто не обойтись – например, родительский контроль, ну или интеллектуальное построение фразовых индексов по различным форумам, рассылкам, и прочим местам массового общения людей. <...> Типичный порядок обработки текста включает в себя 2 пункта – первичный (предсемантический) и семантический анализ. <...> В свою очередь, первичный анализ разбивается на лексический(выделение лексем – отдельных слов), морфологический(выделение морфем – базовой словоформы и формы слова) и синтак сический(определение связей между отдельными морфемами). <...> Между тем, анализ текста на естественном языке – не такой простой процесс, как может показаться на первый взгляд. <...> СЛОЖНОСТЬ ФОРМАЛИЗАЦИИ Естественный язык редко удается четко формализовать, в отличие, например, от языков программирования, в которых всегда существуют некоторые правила. <...> В тексте, написанном на неком языке программирования, всегда известно, что оператор следует за открывающей скобкой, а за ним, в свою очередь, идет либо следующий оператор, либо скобка закрывающая. <...> В естественном языке есть прямой и обратный порядок слов, безличные предложения, разные сокращенные формы, подразумевающиеся члены предложения, поэтому предположить какой член предложения будет следующим, крайне сложно. <...> ПРОБЛЕМА ДИАЛЕКТОВ Если даже взять язык с достаточно простыми правилами, например испанский, то об этих правилах можно говорить <...>