Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 634558)
Контекстум
.
0   0
Первый авторСтрюков
АвторыШашкин А.И.
Страниц7
ID511677
АннотацияВ статье рассматриваются возможные модификации метода ближайших соседей на основе различных функций расстояния и правил принятия решений об отнесении объекта к определенному классу
УДК004(075.32)
Стрюков, Р.К. О МОДИФИКАЦИИ МЕТОДА БЛИЖАЙШИХ СОСЕДЕЙ / Р.К. Стрюков, А.И. Шашкин // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии .— 2015 .— №1 .— С. 114-120 .— URL: https://rucont.ru/efd/511677 (дата обращения: 18.04.2024)

Предпросмотр (выдержки из произведения)

УДК 004(075.32) О МОДИФИКАЦИИ МЕТОДА БЛИЖАЙШИХ СОСЕДЕЙ Р. К. <...> Стрюков, А. И. Шашкин Воронежский государственный университет Поступила в редакцию 12.02.2015 г. Аннотация. <...> В статье рассматриваются возможные модификации метода ближайших соседей на основе различных функций расстояния и правил принятия решений об отнесении объекта к определенному классу. <...> ВВЕДЕНИЕ Задача кластеризации заключается в разбиении заданного множества объектов на группы (классы, кластеры) в определенном смысле однородных объектов, при этом предполагается, что данные внутри групп схожи между собой, а схожесть данных, принадлежащих различным группам, мала. <...> Кластеризацию применяют для эффективного сжатия и хранения данных, поиска в базах данных, сравнения изображений. <...> В настоящее время существует значительное количество методов классификации/кластеризации [1, 2, 5, 6, 9, 13, 14, 17], при этом не существует метода, который был бы применим к данным, имеющим произвольную природу. <...> В некоторых методах изначально задается количество кластеров, при этом может оказаться, что некоторые кластеры не поддаются содержательной интерпретации. <...> Количество кластеров должно соответствовать количеству естественных подструктур, присутствующих в данных, поэтому адекват© Стрюков Р. К., Шашкин А. И., 2015 ность кластера должна оцениваться отдельно уже после кластеризации данных на основе критериев качества классификации. <...> Другой подход определения истинного количества кластеров – это слияние кластеров до тех пока не будет определено «правильное» разбиение [16]. <...> Проблема устойчивости кластеризации становится особо острой, когда есть кластеры с изменяющейся плотностью распределения данных и различными объемами. <...> Неправильная инициализация данных может привести к неправильному разбиению [7, 8 ,11]. <...> Для алгоритмов, использующих прототипы, форма кластеров определяется используемой функцией расстояния. <...> Например, алгоритм С-средних [2, 5, 6] использует евклидово расстояние <...>