Кластеризация: объединяй и властвуй Н а юге темнеет рано. <...> Мы с подругой потягиваем коктейли в летнем кафе. <...> За соседним столиком — мама с мальчиком лет пяти. <...> Одна из самых ярких звезд Кассиопеи — Каф — находится всего лишь в 47 световых годах от нас, тогда как до Нави — центра буквы М — больше 600 световых лет. <...> То есть по сравнению с Нави — это мы с Каф соседи. <...> Но древние греки, как бедуины, пели о том, что видели. <...> — Да, Оксаночка, интроверт, — отвечаю, — между прочим, многие великие ученые и писатели были интровертами. <...> Всё-то мы пытаемся классифицировать, объединить в группы: звезды — в созвездия, живых существ — в классы, роды, виды; а уж сколько разных групп и разбиений внутри одного вида Homo sapiens! <...> В математике даже есть такое понятие, как кластерный анализ, — это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов и затем упорядочивающая объекты в сравнительно однородные группы. <...> Проще говоря, это объединение в группы (кластеры) по каким-то общим признакам. <...> Методы кластеризации сейчас активно применяются в естественных науках, в том числе в биоинформатике — например, для обработки данных с микрочипов или анализа сетей взаимодействующих генов. <...> Сначала нужно определиться, по какому признаку, или признакам, мы разбиваем объекты на группы. <...> Возьмем какой-нибудь абстрактный пятый «Б»: мы можем поделить детишек по успеваемости — отличники, хорошисты, отстающие, — или на мальчиков и девочек, или по цвету глаз, росту, и еще сотней способов — смотря что нам нужно. <...> Сразу оговорюсь, что, даже когда признаки выбраны, далеко не всегда объекты можно поделить на группы однозначно. <...> Поэтому методов кластеризации довольно много, и каждый хорош по-своему. <...> Иерархический подход предполагает, что мы можем поделить наши объекты на любое количество групп — от одного до числа рассматриваемых нами объектов, тогда в каждом кластере будет по одному объекту. <...> Представь себе, что нам <...>