КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА И ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА УДК 001.103:002 АЛГОРИТМЫ ОПРЕДЕЛЕНИЯ СЕМАНТИЧЕСКОЙ БЛИЗОСТИ КЛЮЧЕВЫХ СЛОВ ПО ИХ ОКРУЖЕНИЮ В ТЕКСТЕ И. Е. <...> Воронина, А. А. Кретов, И. В. Попова Воронежский государственный университет Поступила в редакцию 01.03.2010 г. Аннотация. <...> Рассматриваются алгоритмы определения семантической близости ключевых слов: алгоритм Гинзбурга и его программная реализация и алгоритм с учетом частей речи и проблемы его реализации. <...> Ключевые слова: компьютерная лингвистика семантическое поле слов, выделение ключевых слов, вычислительный эксперимент, алгоритм Гинзбурга, алгоритм с учетом частей речи. <...> Разработано множество методов, различных по своим характеристикам и параметрам (например, [1]). <...> Выделенные с их помощью ключевые слова могут служить основой для определения предметной области текста, его тематики и стилистической отнесенности. <...> Поэтому важно иметь инструмент для выявления отношений между ключевыми словами, для определения семантической близости этих слов. <...> © Воронина И. Е., Кретов А. А., Попова И. В., 2010 148 Рассмотрим алгоритмы, с помощью которых можно количественно оценить силу связи между словоформами в рамках исследуемого текста. <...> АЛГОРИТМ ГИНЗБУРГА Алгоритм Гинзбурга [2] предназначен для поиска контекста данного слова в рамках рассматриваемого текста. <...> Находим в тексте Т для каждой словоформы а ее относительную частоту – ОЧТ(а) (частное от деления наблюдаемой, абсолютной частоты на количество слов в тексте T). <...> Для совокупности всех этих предложений T* построим частотный словарь V(T*), содержащий абсолютную и относительную (частное от деления наблюдаемой, абсолютной частоты на количество слов в Т*) частоты. <...> Относительную частоту словоформы а в V(T*) обозначим ОТЧ* (а). <...> Сравниваем полученные относительные частоты в T и T*: Вводится Индекс значимости словоформы а в контексте слова С (ИнЗ(а)), вычисляемый по формуле: ВЕСТНИК ВГУ, СЕРИЯ: СИСТЕМНЫЙ АНАЛИЗ И ИНФОРМАЦИОННЫЕ <...>