Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 634932)
Контекстум
Руконтекст антиплагиат система
Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии  / №2 2007

ПРИМЕНЕНИЕ НЕЙРОННЫХ СЕТЕЙ В ПРОЦЕССЕ ИНДЕКСИРОВАНИЯ И РАНЖИРОВАНИЯ ТЕКСТА (90,00 руб.)

0   0
Первый авторЧерезов
АвторыТюкачев Н.А.
Страниц4
ID519584
АннотацияВ статье рассмотрен алгоритм индексирования текста с применением нейронных сетей с целью повышения уровня релевантности документов на этапе ранжирования документов. Нейронная сеть определяет вероятность принадлежности документа одной из тематик, с учетом которой производиться корректировка результата ранжирования
УДК004.93
Черезов, Д.С. ПРИМЕНЕНИЕ НЕЙРОННЫХ СЕТЕЙ В ПРОЦЕССЕ ИНДЕКСИРОВАНИЯ И РАНЖИРОВАНИЯ ТЕКСТА / Д.С. Черезов, Н.А. Тюкачев // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии .— 2007 .— №2 .— С. 63-66 .— URL: https://rucont.ru/efd/519584 (дата обращения: 29.04.2024)

Предпросмотр (выдержки из произведения)

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА И ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА УДК 004.93 ПРИМЕНЕНИЕ НЕЙРОННЫХ СЕТЕЙ В ПРОЦЕССЕ ИНДЕКСИРОВАНИЯ И РАНЖИРОВАНИЯ ТЕКСТА Д. С. <...> Черезов, Н. А. Тюкачев Воронежский государственный университет В статье рассмотрен алгоритм индексирования текста с применением нейронных сетей с целью повышения уровня релевантности документов на этапе ранжирования документов. <...> Нейронная сеть определяет вероятность принадлежности документа одной из тематик, с учетом которой производиться корректировка результата ранжирования. <...> ВВЕДЕНИЕ На сегодняшний день, основным методом определения релевантности документа является подсчет и сравнение каких либо статистических данных текста и поискового запроса, таких как количество искомых слов и их месторасположение в документе. <...> Так, например, существуют сервисы по поиску среди учебных заведений, по хранилищам исходных программных кодов. <...> Одним из недостатков существующих систем является отсутствие такого понятия как тематика документа. <...> Внедрение данного определение способствует качественному улучшению результатов ранжирования документов. <...> ИНДЕКСИРОВАНИЕ ДОКУМЕНТА Реализованная система предоставляет возможность индексирования текстовых документов в формате html. <...> Под индексом документа понимается статистическая информация о документе, массив индексов используемых тегов и слов. <...> Процесс получение индекса документа делится на следующие этапы: 1. <...> Обработка ключевых слов нейронной сетью с целью классификации документа. <...> РАЗДЕЛЕНИЕ ДОКУМЕНТА НА СОСТАВЛЯЮЩИЕ ЭЛЕМЕНТЫ Элементом документа является: наименование тега, наименование и значение параметра тега, все слова видимые пользователю. <...> Анализатор реализован в качестве двух конечных автоматов. <...> На вход первому конечному автомату подается весь текст документа. <...> Матрица, являющаяся основой, содержит в себе соответствие между возможными используемыми символами и выделенными типами символов. <...> Это <...>