Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 635051)
Контекстум
Руконтекст антиплагиат система
Известия высших учебных заведений. Поволжский регион. Технические науки  / №3 2013

Алгоритмы построения инвертированного индекса для коллекции текстовых данных (90,00 руб.)

0   0
Первый авторТрифонов
ИздательствоМ.: ПРОМЕДИА
Страниц10
ID269706
АннотацияИсследована временная сложность анализируемых алгоритмов построения инвертированного индекса для текстовой коллекции в зависимости от различных параметров. Инвертированный индекс обычно является слишком большим, чтобы быть загруженным полностью в оперативную память. Если объем оперативной памяти, доступный процессу индексации, является слишком маленьким, чтобы позволить индексу быть созданным полностью в оперативной памяти, то описанный способ построения индекса в памяти может быть расширен до основанного на слиянии метода, в котором текстовый набор динамически делится на поднаборы, исходя из доступного количества оперативной памяти. Проведено сравнение временной сложности анализируемых алгоритмов в зависимости от объема оперативной памяти ПК, на котором выполняется индексирование, что позволяет сделать выводы об обоснованности применения каждого из них в том или ином случае.
УДК519.256
ББК73
Трифонов, А.А. Алгоритмы построения инвертированного индекса для коллекции текстовых данных / А.А. Трифонов // Известия высших учебных заведений. Поволжский регион. Технические науки .— 2013 .— №3 .— С. 52-61 .— URL: https://rucont.ru/efd/269706 (дата обращения: 05.05.2024)

Предпросмотр (выдержки из произведения)

А. А. Трифонов АЛГОРИТМЫ ПОСТРОЕНИЯ ИНВЕРТИРОВАННОГО ИНДЕКСА ДЛЯ КОЛЛЕКЦИИ ТЕКСТОВЫХ ДАННЫХ Аннотация. <...> С геометрическим ростом объемов информации в XXI в. все труднее находить и отбирать полезные и качественные данные. <...> Налицо эффект так называемого «ухудшающего отбора» и большого количества «шума». <...> При создании информационно-поисковых систем размеры обрабатываемых текстовых коллекций зачастую очень велики, что приводит к необходимости усовершенствования методов и средств построения поисковых систем. <...> Для того чтобы избежать последовательного просмотра текстов при выполнении каждого запроса, заранее составляется инвертированный индекс документов, который ставит в соответствие терминам те документы из коллекции, в которых они встречаются. <...> Целью данной работы является подробный анализ существующих алгоритмов построения инвертированного индекса для текстовой коллекции, выделение их достоинств и недостатков. <...> Кроме этого, необходимо сравнить временную сложность анализируемых алгоритмов, что позволит сделать выводы об обоснованности применения каждого из них в том или ином случае. <...> При построении систем информационного поиска многие решения зависят от характеристик компьютерного обеспечения, на котором будет развернута система, поэтому способы построения индекса могут быть разделены на две категории: построение, основанное на памяти, и построение, основанное на диске. <...> Данные проведенных исследований показывают, что производительность алгоритмов построения индекса очень зависит от количества оперативной памяти, доступной процессу индексации. <...> Учитывая специфику алгоритмов индексирования, сравнивать их сложность имеет смысл, когда объем коллекции больше или меньше объема M оперативной памяти ПК, на котором выполняется индексирование. <...> Исследована временная сложность анализируемых алгоритмов построения инвертированного индекса для текстовой коллекции в зависимости от <...>

Облако ключевых слов *


* - вычисляется автоматически
Антиплагиат система на базе ИИ