№ 4 (52) 2014 Journal of applied informatiCs М. А. Баранов, аспирант Национального исследовательского университета «Высшая школа экономики», г. Москва, thenorthcat@gmail.com Параллельная версия жадного алгоритма кластеризации В статье предлагается параллельная версия одного из алгоритмов кластеризации, принцип работы которого основан на так называемом жадном подходе Для решения задачи распараллеливания алгоритма была выбрана технология CUDA, разработанная компанией NVIDIA Приводятся программный код и результаты вычислительных экспериментов для матриц схожести разного размера Ключевые слова: кластеризация, жадный алгоритм, параллельные вычисления введение множества объектов на группы, состоящие из схожих объектов. <...> Кластеризация нашла широкое применение в различных областях знаний: в биологии, социологии, информатике, астрономии, медицине, археологии, маркетинговых исследованиях. <...> В настоящее время разработано множество алгоритмов кластеризации, использующих различные подходы к решению задачи кластерного анализа. <...> Жад58 tools algorithmic efficiency дной из наиболее важных задач в информационном поиске является кластеризация — разбиение исходного ные алгоритмы часто используются при решении задач кластеризации [7, 10]. <...> Одним из таких алгоритмов является алгоритм, предложенный в работах [1, 2] (далее он будет именоваться Greedy). <...> Там же показана эффективность данного алгоритма при кластеризации коллекций текстовых документов. <...> На вход алгоритма подаются матрица схожести документов и пороговое значение степени схожести (параметр threshold). <...> Целью данной работы является сравнительный анализ параметров параллельной и последовательной версий алгоритма Greedy при кластеризации коллекций документов разумного размера (несколько тысяч документов). краткое описание технологии CUDA Для решения задачи распараллеливания алгоритма была выбрана аппаратнопрограммная архитектура CUDA (Compute Unified Device Architecture), разработанная компанией NVIDIA. <...> Архитектура <...>