Силуэтный коэффициент в Python: применение и расчет метрики

Пройдите тест, узнайте какой профессии подходите

Сколько вам лет

До 18

От 18 до 24

От 25 до 34

От 35 до 44

От 45 до 49

От 50 до 54

Больше 55

Для кого эта статья:

аналитики данных и исследователи
специалисты по машинному обучению
студенты и начинающие курсанты по аналитике данных
Качественная кластеризация данных — краеугольный камень многих аналитических решений, но как определить, насколько хорошо алгоритм справился с задачей? В мире машинного обучения силуэтный коэффициент (Silhouette Score) стал одной из наиболее надёжных метрик для этой цели. Эта метрика, воплощённая в библиотеках Python, трансформировала подход к оценке кластеризации, позволяя количественно измерить, насколько точно объекты были отнесены к своим кластерам. 📊 Владение этим инструментом критически важно для каждого аналитика или исследователя данных, стремящегося создать модели, которые действительно отражают внутреннюю структуру информации.

Разобраться с применением силуэтного коэффициента — лишь первый шаг к освоению продвинутых методов анализа данных. На Курсе «Аналитик данных» с нуля от Skypro вы не только научитесь применять эту метрику, но и освоите полный арсенал инструментов для кластеризации и других методов анализа. Программа курса разработана экспертами с учетом требований реального рынка — вы получите навыки, за которые работодатели готовы платить премиум.

Что такое силуэтный коэффициент и его роль в кластеризации

Силуэтный коэффициент представляет собой метрику, которая оценивает качество кластеризации путём измерения, насколько объект похож на свой кластер (сплочённость) по сравнению с другими кластерами (разделение). Эта метрика была предложена Питером Руссеу в 1987 году и с тех пор стала неотъемлемой частью арсенала аналитиков данных.

В контексте кластеризации силуэтный коэффициент выполняет три ключевые функции:

Количественная оценка качества кластеризации для всего набора данных
Возможность сравнения различных алгоритмов кластеризации
Определение оптимального числа кластеров

Преимущество силуэтного коэффициента заключается в его независимости от конкретного алгоритма кластеризации — он может применяться к результатам любого метода, будь то K-Means, DBSCAN или иерархическая кластеризация. 🧩

Характеристика	Преимущество силуэтного коэффициента
Интерпретируемость	Значения от -1 до 1, легко интерпретируемая шкала
Универсальность	Применим к результатам любого алгоритма кластеризации
Детализация	Можно анализировать как по отдельным объектам, так и по кластерам и всему набору данных
Визуализируемость	Результаты можно наглядно представить в виде силуэтных графиков

Александр Петров, ведущий специалист по данным

Однажды наша команда столкнулась с задачей сегментации клиентской базы для крупного ритейлера. Изначальный подход с использованием K-Means с заранее заданным числом кластеров (K=5) давал неубедительные результаты — маркетинговые кампании, нацеленные на выделенные сегменты, показывали низкую конверсию. Мы решили пересмотреть подход, и силуэтный коэффициент стал нашим спасением.
После расчета Silhouette Score для моделей с разным количеством кластеров мы обнаружили, что оптимальным было значение K=3, а не предполагаемые пять сегментов. Более детальный силуэтный анализ показал, что в каждом кластере были выбросы — клиенты, фактически не принадлежащие ни к одному сегменту. Мы исключили их из таргетинга и реорганизовали сегментацию.
Результаты оказались впечатляющими: конверсия маркетинговых кампаний выросла на 34%, а ROI увеличился вдвое. С тех пор силуэтный анализ стал стандартной процедурой для всех наших проектов по сегментации.

Математическое обоснование Silhouette Score в Python

Силуэтный коэффициент основан на сравнении двух мер: меры сплочённости кластера (a) и меры разделения между кластерами (b). Для каждой точки данных x, принадлежащей кластеру Ci, силуэтный коэффициент s(x) вычисляется следующим образом:

s(x) = (b(x) – a(x)) / max(a(x), b(x))

Где:

a(x) — среднее расстояние от точки x до всех других точек в том же кластере Ci
b(x) — минимальное среднее расстояние от точки x до точек в любом другом кластере

Математически эти компоненты определяются так:

# Формула для a(x)
a(x) = (1 / (|Ci| – 1)) * Σ d(x, y) для всех y ∈ Ci, y ≠ x

# Формула для b(x)
b(x) = min[ (1 / |Cj|) * Σ d(x, y) для всех y ∈ Cj ] для всех j ≠ i

Вычисление силуэтного коэффициента для всего набора данных представляет собой среднее значение s(x) по всем объектам:

Silhouette Score = (1 / n) * Σ s(x) для всех x

В библиотеке scikit-learn реализация этих расчётов абстрагирована в функции silhouette_score из модуля sklearn.metrics. Однако под капотом происходят именно описанные математические операции. 🧮

Силуэтный коэффициент варьируется от -1 до 1:

Значения близкие к 1 указывают, что объект хорошо соответствует своему кластеру и плохо соответствует соседним кластерам
Значения близкие к 0 указывают, что объект находится на границе между двумя кластерами
Отрицательные значения указывают, что объект, возможно, был присвоен неправильному кластеру

Вычислительная сложность расчёта силуэтного коэффициента составляет O(n²), где n — количество образцов, что может создавать ограничения при работе с большими наборами данных. Для таких случаев scikit-learn предлагает альтернативу — silhouette_samples, которая вычисляет коэффициент для подмножества данных.

Реализация расчета силуэтного коэффициента на Python

Реализация расчета силуэтного коэффициента в Python максимально упрощена благодаря библиотеке scikit-learn. Ниже представлен пошаговый процесс использования этой метрики на практике. 🐍

Сначала необходимо импортировать соответствующие библиотеки:

Python

Скопировать код

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, silhouette_samples
from sklearn.datasets import make_blobs

Создадим синтетический набор данных для демонстрации:

Python

Скопировать код

# Генерация синтетических данных с 3 центрами
X, y_true = make_blobs(
n_samples=300, 
centers=3, 
cluster_std=0.60, 
random_state=42
)

# Применяем алгоритм K-Means
kmeans = KMeans(n_clusters=3, random_state=42)
cluster_labels = kmeans.fit_predict(X)

Теперь вычислим силуэтный коэффициент для полученной кластеризации:

Python

Скопировать код

# Расчет общего силуэтного коэффициента
silhouette_avg = silhouette_score(X, cluster_labels)
print(f"Средний силуэтный коэффициент: {silhouette_avg:.3f}")

Для более глубокого анализа можно вычислить силуэтные коэффициенты для каждой точки данных:

Python

Скопировать код

# Силуэтные коэффициенты для каждой точки
sample_silhouette_values = silhouette_samples(X, cluster_labels)

Визуализация силуэтных коэффициентов может значительно улучшить понимание качества кластеризации:

Python

Скопировать код

def plot_silhouette(X, cluster_labels, n_clusters):
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))

# Силуэтный график
ax1.set_xlim([-0.1, 1])
ax1.set_ylim([0, len(X) + (n_clusters + 1) * 10])

silhouette_avg = silhouette_score(X, cluster_labels)
sample_silhouette_values = silhouette_samples(X, cluster_labels)

y_lower = 10
for i in range(n_clusters):
# Собираем силуэтные значения для i-го кластера
ith_cluster_values = sample_silhouette_values[cluster_labels == i]
ith_cluster_values.sort()

size_cluster_i = ith_cluster_values.shape[0]
y_upper = y_lower + size_cluster_i

color = plt.cm.nipy_spectral(float(i) / n_clusters)
ax1.fill_betweenx(np.arange(y_lower, y_upper),
0, ith_cluster_values,
facecolor=color, alpha=0.7)

# Подписываем силуэтные графики
ax1.text(-0.05, y_lower + 0.5 * size_cluster_i, f'Кластер {i}')

# Вычисляем новое y_lower для следующего кластера
y_lower = y_upper + 10

ax1.set_title(f"Силуэтный график для {n_clusters} кластеров")
ax1.set_xlabel("Значения силуэтных коэффициентов")
ax1.set_ylabel("Кластеры")

# Добавляем вертикальную линию для среднего значения
ax1.axvline(x=silhouette_avg, color="red", linestyle="--")
ax1.set_yticks([]) # Очищаем оси Y

# Визуализация кластеров
colors = plt.cm.nipy_spectral(cluster_labels.astype(float) / n_clusters)
ax2.scatter(X[:, 0], X[:, 1], marker='.', s=30, lw=0, alpha=0.7,
c=colors, edgecolor='k')

# Отмечаем центроиды
centers = kmeans.cluster_centers_
ax2.scatter(centers[:, 0], centers[:, 1], marker='o',
c="white", alpha=1, s=200, edgecolor='k')

for i, c in enumerate(centers):
ax2.scatter(c[0], c[1], marker=f'${i}$', alpha=1,
s=50, edgecolor='k')

ax2.set_title(f"Визуализация кластеров")
ax2.set_xlabel("Первая координата")
ax2.set_ylabel("Вторая координата")

plt.tight_layout()
plt.show()

# Вызов функции для визуализации
plot_silhouette(X, cluster_labels, 3)

Этот код создает две визуализации: силуэтный график, который показывает распределение силуэтных коэффициентов в каждом кластере, и визуализацию самих кластеров для сопоставления.

Для практического применения в реальных проектах часто бывает полезно исследовать, как меняется силуэтный коэффициент при различном числе кластеров:

Python

Скопировать код

range_n_clusters = list(range(2, 11))
silhouette_scores = []

for n_clusters in range_n_clusters:
kmeans = KMeans(n_clusters=n_clusters, random_state=42)
cluster_labels = kmeans.fit_predict(X)
silhouette_avg = silhouette_score(X, cluster_labels)
silhouette_scores.append(silhouette_avg)
print(f"Для n_clusters = {n_clusters}, силуэтный коэффициент = {silhouette_avg:.3f}")

Интерпретация значений Silhouette Score для оценки кластеров

После расчета силуэтного коэффициента необходимо корректно интерпретировать полученные значения. Интерпретация отличается в зависимости от уровня анализа: для отдельных точек, для кластеров или для всей модели в целом. 🔍

Диапазон значений	Интерпретация	Рекомендуемые действия
0.71 – 1.00	Сильная структура кластеров	Модель показывает исключительно хорошее разделение, можно доверять результатам
0.51 – 0.70	Разумная структура кластеров	Модель показывает хорошее разделение, подходит для большинства задач
0.26 – 0.50	Слабая структура кластеров	Возможно, стоит изменить количество кластеров или использовать другой алгоритм
≤ 0.25	Нет существенной структуры кластеров	Необходим пересмотр подхода к кластеризации или предварительной обработки данных

При интерпретации силуэтных коэффициентов для отдельных объектов следует обратить внимание на следующее:

Равномерность распределения: В идеальной модели силуэтные коэффициенты для объектов внутри одного кластера должны быть достаточно близкими.
Отрицательные значения: Объекты с отрицательными силуэтными коэффициентами, скорее всего, неправильно классифицированы и требуют особого внимания.
Ширина силуэта кластера: Широкий силуэт указывает на неоднородность кластера.

Анализ силуэтных графиков может выявить паттерны, не очевидные из одного численного значения:

Кластеры с силуэтной шириной выше среднего значения для всего набора данных указывают на их более высокую компактность.
Кластеры с неоднородной шириной силуэта могут содержать подкластеры.
Если большинство объектов имеют силуэтные коэффициенты ниже среднего, это может указывать на наличие шума в данных.

При сравнении различных моделей кластеризации руководствуйтесь следующими принципами:

Модель с наивысшим средним силуэтным коэффициентом обычно предпочтительнее.
Однако, модель с немного меньшим средним коэффициентом, но более равномерным распределением значений может быть лучше для некоторых задач.
Количественное сравнение следует дополнять визуальным анализом силуэтных графиков.

Анализ данных и кластеризация — навыки, определяющие профессиональную востребованность в 2025 году. Не знаете, подходит ли вам карьера в данной области? Пройдите Тест на профориентацию от Skypro и выясните, есть ли у вас предрасположенность к работе с данными. Тест поможет понять, насколько ваше аналитическое мышление соответствует требованиям профессии, и предложит персонализированные рекомендации по развитию нужных навыков.

Оптимизация кластерной модели с помощью силуэтного анализа

Мария Соколова, Data Scientist
В 2024 году наша исследовательская группа работала над проектом для фармацевтической компании, которая стремилась сегментировать своих пациентов по показателям эффективности лекарств. Нашей задачей было определить, существуют ли естественные группы пациентов с различными паттернами реакции.
Первые эксперименты с K-Means для разных значений K дали противоречивые результаты — некоторые кластеры выглядели логичными, другие — искусственно разделенными. Традиционные методы, включая метод локтя, не давали однозначного ответа.
Мы применили силуэтный анализ, созданный нами доскрипт автоматически перебирал значения от 2 до 15 кластеров, выполнял кластеризацию и визуализировал результаты силуэтного анализа. Выяснилось, что при K=4 не только средний силуэтный коэффициент был наивысшим (0.68), но и распределение значений внутри кластеров было наиболее равномерным.
Это открытие имело серьезные клинические последствия. Четыре выявленных группы пациентов соответствовали различным метаболическим профилям, что позволило разработать более персонализированные дозировки и режимы приема лекарств. Клинические испытания с учетом этой сегментации показали повышение эффективности лечения на 23% и снижение побочных эффектов на 18%.

Силуэтный анализ предоставляет мощный инструментарий для оптимизации кластерных моделей. Рассмотрим систематический подход к улучшению кластеризации с помощью этой метрики. ⚙️

Первый шаг в оптимизации — определение оптимального числа кластеров. Вот полный код для автоматизации этого процесса:

Python

Скопировать код

def find_optimal_clusters(data, max_k):
"""
Определяет оптимальное количество кластеров с использованием силуэтного анализа.

Parameters:
data (array-like): Датасет для кластеризации
max_k (int): Максимальное количество кластеров для проверки

Returns:
dict: Словарь со значениями силуэтных коэффициентов для каждого k
"""
silhouette_scores = {}

# Проверяем разное количество кластеров
for k in range(2, max_k + 1):
# Инициализируем кластеризационную модель
kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
cluster_labels = kmeans.fit_predict(data)

# Рассчитываем силуэтный коэффициент
score = silhouette_score(data, cluster_labels)
silhouette_scores[k] = score
print(f"Для k={k}, силуэтный коэффициент: {score:.3f}")

return silhouette_scores

# Применение функции
sil_scores = find_optimal_clusters(X, 10)

# Визуализация результатов
plt.figure(figsize=(10, 6))
plt.plot(list(sil_scores.keys()), list(sil_scores.values()), 'o-')
plt.xlabel('Количество кластеров (k)')
plt.ylabel('Средний силуэтный коэффициент')
plt.title('Силуэтный анализ для определения оптимального k')
plt.grid(True)
plt.show()

# Находим оптимальное k
optimal_k = max(sil_scores, key=sil_scores.get)
print(f"Оптимальное количество кластеров: {optimal_k}")

После определения оптимального числа кластеров следующий шаг — анализ качества каждого отдельного кластера. Это помогает выявить проблемные кластеры, которые могут снижать общую эффективность модели:

Python

Скопировать код

def analyze_cluster_quality(data, labels, n_clusters):
"""
Анализирует качество отдельных кластеров с помощью силуэтных коэффициентов.

Parameters:
data (array-like): Датасет для кластеризации
labels (array): Метки кластеров
n_clusters (int): Количество кластеров
"""
# Получаем силуэтные коэффициенты для каждого объекта
sample_silhouette_values = silhouette_samples(data, labels)

# Анализируем каждый кластер
for i in range(n_clusters):
# Силуэтные коэффициенты точек в i-м кластере
cluster_silhouette_values = sample_silhouette_values[labels == i]

# Статистика по кластеру
avg = np.mean(cluster_silhouette_values)
min_val = np.min(cluster_silhouette_values)
max_val = np.max(cluster_silhouette_values)
size = len(cluster_silhouette_values)
negative_count = np.sum(cluster_silhouette_values < 0)

print(f"Кластер {i}:")
print(f" – Размер: {size} объектов")
print(f" – Средний силуэтный коэффициент: {avg:.3f}")
print(f" – Диапазон значений: [{min_val:.3f}, {max_val:.3f}]")
print(f" – Количество объектов с отрицательным коэффициентом: {negative_count} ({negative_count/size:.1%})")

# Потенциальные рекомендации
if avg < 0.2:
print(" – Рекомендация: Этот кластер, вероятно, низкого качества и требует внимания.")
if negative_count / size > 0.1:
print(" – Рекомендация: Высокий процент отрицательных значений указывает на потенциально неправильную классификацию.")
print()

# Применяем K-Means с оптимальным k
kmeans = KMeans(n_clusters=optimal_k, random_state=42)
cluster_labels = kmeans.fit_predict(X)

# Анализируем качество кластеров
analyze_cluster_quality(X, cluster_labels, optimal_k)

На основе этого анализа можно предпринять следующие шаги для оптимизации модели:

Предобработка данных: Если определенные кластеры показывают плохое качество, возможно, стоит пересмотреть методы нормализации или выбор признаков.
Перераспределение объектов: Объекты с отрицательными силуэтными коэффициентами могут быть переназначены более подходящим кластерам.
Применение других алгоритмов: Если K-Means не дает удовлетворительных результатов, можно попробовать другие методы кластеризации, например, DBSCAN или агломеративную кластеризацию.
Объединение кластеров: Иногда объединение близких кластеров может улучшить общее качество модели.

Для более продвинутой оптимизации можно использовать следующие техники:

Ансамблевая кластеризация: Комбинирование результатов нескольких алгоритмов кластеризации.
Итеративный силуэтный анализ: Постепенное улучшение модели путем анализа и корректировки проблемных кластеров.
Многомерный силуэтный анализ: Расчет силуэтных коэффициентов в подпространствах признаков для выявления влияния отдельных переменных.

Силуэтный коэффициент — не просто метрика, а инструмент для глубокого понимания структуры ваших данных. Применяя его грамотно, от расчета оптимального числа кластеров до детального изучения каждой точки внутри них, вы получаете возможность создавать более точные, интерпретируемые и полезные модели. Помните, что цель кластеризации — не просто разделить данные, а выявить их внутреннюю структуру, которая имеет практическое значение для решаемой задачи. И силуэтный анализ — ваш надежный проводник в этом процессе.

Свежие материалы

Образование в цифрах: статистика, факты и показатели обучения

26 мая 2025

Как добавить линию тренда на диаграмму Excel: пошаговая инструкция

26 мая 2025

Пост Мортем отзывы: мнения игроков о мрачной головоломке

26 мая 2025

Силуэтный коэффициент в Python: применение и расчет метрики

Что такое силуэтный коэффициент и его роль в кластеризации

Математическое обоснование Silhouette Score в Python

Реализация расчета силуэтного коэффициента на Python

Интерпретация значений Silhouette Score для оценки кластеров

Оптимизация кластерной модели с помощью силуэтного анализа

Загрузка...