А. А. Трифонов
АЛГОРИТМЫ ПОСТРОЕНИЯ ИНВЕРТИРОВАННОГО
ИНДЕКСА ДЛЯ КОЛЛЕКЦИИ ТЕКСТОВЫХ ДАННЫХ
Аннотация. <...> С геометрическим ростом объемов информации в XXI в. все труднее находить и отбирать полезные и качественные
данные. <...> Налицо эффект так называемого «ухудшающего отбора» и большого
количества «шума». <...> При создании информационно-поисковых систем размеры
обрабатываемых текстовых коллекций зачастую очень велики, что приводит к
необходимости усовершенствования методов и средств построения поисковых
систем. <...> Для того чтобы
избежать последовательного просмотра текстов при выполнении каждого запроса, заранее составляется инвертированный индекс документов, который
ставит в соответствие терминам те документы из коллекции, в которых они
встречаются. <...> Целью данной работы является подробный анализ существующих алгоритмов построения инвертированного индекса для текстовой коллекции, выделение их достоинств и недостатков. <...> Кроме этого, необходимо сравнить временную сложность анализируемых алгоритмов, что позволит сделать
выводы об обоснованности применения каждого из них в том или ином случае. <...> При построении систем информационного поиска
многие решения зависят от характеристик компьютерного обеспечения, на котором будет развернута система, поэтому способы построения индекса могут быть
разделены на две категории: построение, основанное на памяти, и построение, основанное на диске. <...> Данные проведенных исследований показывают, что производительность алгоритмов построения индекса очень зависит от количества оперативной памяти, доступной процессу индексации. <...> Учитывая специфику алгоритмов индексирования, сравнивать их сложность имеет смысл, когда объем коллекции больше или меньше объема M оперативной памяти ПК, на котором выполняется индексирование. <...> Исследована временная сложность анализируемых алгоритмов построения инвертированного индекса для текстовой
коллекции в зависимости от <...>