Визуализация данных с помощью distplot в Seaborn: полное руководство

#Python и Pandas для анализа данных #Визуализация данных #Подготовка данных и EDA (разведочный анализ)

Пройдите тест, узнайте какой профессии подходите

Сколько вам лет

До 18

От 18 до 24

От 25 до 34

От 35 до 44

От 45 до 49

От 50 до 54

Больше 55

Для кого эта статья:

начинающие и продвинутые аналитики данных
студенты и специалисты в области анализа данных
разработчики, интересующиеся визуализацией данных и статистикой
Распределение данных — фундамент качественного анализа. Когда аналитику требуется быстро и эффективно исследовать натуру переменных, distplot в Seaborn становится незаменимым инструментом. Этот метод визуализации сочетает гистограммы, ядерную оценку плотности и рудиментарные статистические показатели в едином графике, что делает его исключительно информативным. В этом руководстве мы погрузимся в мощный арсенал функций distplot, изучим синтаксис команд, проанализируем параметры настройки и рассмотрим реальные практические кейсы, которые сделают ваш анализ данных значительно более профессиональным. 🔍📊

Хотите освоить профессиональную визуализацию данных через Seaborn и другие передовые инструменты? Курс «Аналитик данных» с нуля от Skypro — это не просто теория, а практическое погружение в реальные проекты. Вы научитесь создавать информативные графики распределений с помощью distplot, исследовать закономерности и аномалии данных, а главное — принимать обоснованные решения на базе визуального анализа. Опытные преподаватели-практики помогут избежать типичных ошибок и выведут ваши навыки на профессиональный уровень!

Что такое distplot: функционал и основные возможности

Distplot (distribution plot) — это функция библиотеки Seaborn, предназначенная для создания комплексного графика распределения данных. В своей сути это универсальный инструмент визуализации, объединяющий несколько статистических представлений в одном графике. Ключевое преимущество distplot заключается в его способности одновременно отображать гистограмму распределения данных и кривую плотности вероятности (KDE).

Важно отметить, что начиная с Seaborn 0.11.0 функция distplot помечена как устаревшая, и в будущих версиях она будет заменена более специализированными функциями, такими как histplot() и kdeplot(). Однако до сих пор множество проектов и руководств используют distplot, и понимание его работы остаётся важным для аналитика данных.

Основные элементы и возможности distplot:

Гистограмма — графическое представление распределения числовых данных, где столбцы соответствуют частоте попадания данных в определённые диапазоны (бины).
KDE (Kernel Density Estimation) — сглаженная кривая, представляющая оценку плотности вероятности непрерывной случайной величины.
Rug plot — отметки на оси X, показывающие фактические значения точек данных.
Нормальное распределение — возможность наложения теоретического нормального распределения для сравнения с фактическими данными.

Distplot особенно ценен при проведении предварительного исследования данных (EDA), когда необходимо быстро понять характер распределения переменной — является ли оно симметричным, мультимодальным, имеет ли выбросы и т.д.

Возможность distplot	Применение	Значение для анализа
Гистограмма + KDE	Визуализация распределения с разной степенью детализации	Понимание общей формы и локальных особенностей данных
Настройка числа бинов	Управление гранулярностью представления данных	Поиск баланса между шумом и сглаживанием в визуализации
Rug plot	Визуализация фактического расположения значений	Выявление кластеризации и пробелов в данных
Fit параметр	Наложение теоретических распределений	Сравнение эмпирического и теоретического распределений

Синтаксис и параметры Seaborn distplot для разных задач

В данном разделе мы рассмотрим синтаксис функции distplot и её ключевые параметры, которые позволяют настраивать визуализацию под конкретные аналитические задачи. 🛠️

Базовый синтаксис функции выглядит следующим образом:

Python

Скопировать код

import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# Базовый вызов функции
sns.distplot(a, bins=None, hist=True, kde=True, rug=False, fit=None, 
hist_kws=None, kde_kws=None, rug_kws=None, fit_kws=None, 
color=None, vertical=False, norm_hist=False, axlabel=None,
label=None, ax=None)

plt.show()

Рассмотрим ключевые параметры и их влияние на визуализацию:

a — входной массив данных для построения распределения (обязательный параметр).
bins — количество интервалов для гистограммы или список с границами интервалов.
hist — логический параметр, определяющий, отображать ли гистограмму (по умолчанию True).
kde — логический параметр для отображения кривой плотности вероятности (по умолчанию True).
rug — логический параметр для отображения отметок на оси X (rug plot) (по умолчанию False).
fit — статистическое распределение для подгонки к данным, например, norm, gamma, expon и др.

Дополнительные параметры настройки компонентов:

hist_kws — словарь дополнительных параметров для настройки гистограммы.
kde_kws — словарь параметров для настройки KDE.
rug_kws — словарь параметров для настройки rug plot.
fit_kws — словарь параметров для настройки линии подобранного распределения.

Настройки внешнего вида и ориентации:

color — цвет для всех элементов графика.
vertical — логический параметр для создания вертикального (а не горизонтального) графика.
norm_hist — логический параметр для нормализации гистограммы.
axlabel — метка для оси X (или Y, если vertical=True).
label — метка для легенды.
ax — объект matplotlib Axes для размещения графика.

Примеры использования параметров для различных задач:

Python

Скопировать код

# 1. Базовое распределение с настройкой количества бинов
sns.distplot(data, bins=30, kde=True)

# 2. Отключение KDE и добавление rug plot
sns.distplot(data, kde=False, rug=True, bins=25, 
color='blue', axlabel='Значения')

# 3. Подгонка нормального распределения к данным
sns.distplot(data, fit=stats.norm, kde=True,
fit_kws={"color": "red", "lw": 2, "label": "Норм. распр."})

Тип задачи	Рекомендуемые параметры distplot	Примечание
Анализ непрерывных данных с возможными выбросами	bins=auto, kde=True, rug=True	Rug plot поможет визуализировать выбросы
Сравнение с теоретическим распределением	fit=stats.norm (или другое), hist=True, kde=False	Фокус на сравнении гистограммы и теор. модели
Визуализация распределения малых выборок	kde=True, hist=False, rug=True, kde_kws={"bw": "scott"}	KDE более информативен для малых выборок
Многомерное сравнение распределений	Несколько вызовов distplot с одинаковыми bins, разными label	Используйте subplot или один график с разными цветами

Марк Овчинников, руководитель отдела аналитики

В нашем проекте по анализу телеметрии IoT-устройств мы столкнулись с необходимостью быстрой интерпретации огромных массивов сенсорных данных. До внедрения distplot мы использовали обычные гистограммы, которые не давали полного представления о характере распределения.
Переход на distplot с совмещением KDE и rug plot изменил игру. Мы смогли мгновенно выявлять аномалии в потоках данных и классифицировать паттерны без дополнительного статистического анализа.
Особенно полезным оказался параметр fit с настройкой fit_kws, который позволил сравнивать фактические распределения сигналов с ожидаемыми теоретическими моделями. После настройки нашего data pipeline с использованием distplot время обнаружения аномального поведения IoT-устройств сократилось в 3,5 раза. Сейчас мы планируем перейти на histplot и kdeplot, но знания, полученные при работе с distplot, остаются невероятно ценными.

Создание и настройка распределений в distplot Seaborn

В этом разделе мы подробно разберем процесс создания различных типов распределений с помощью distplot и техники их настройки для получения максимально информативных визуализаций. Я покажу, как создавать гистограммы с разным уровнем детализации, настраивать KDE и применять различные типы теоретических распределений для сравнения с вашими данными. 📈

Начнем с подготовки данных и базового графика:

Python

Скопировать код

import seaborn as sns
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

# Генерация примера данных
np.random.seed(0)
data = np.concatenate([
np.random.normal(0, 1, 1000), # Нормальное распределение
np.random.normal(4, 0.8, 200) # Небольшой второй пик
])

# Базовый distplot
plt.figure(figsize=(10, 6))
sns.distplot(data, bins=25)
plt.title('Базовый distplot с настройками по умолчанию')
plt.show()

Настройка гистограммы в составе distplot:

Python

Скопировать код

# Настройка гистограммы
plt.figure(figsize=(10, 6))
sns.distplot(
data,
bins=30,
hist=True,
kde=True,
hist_kws={
'edgecolor': 'black',
'linewidth': 1,
'alpha': 0.7,
'color': 'skyblue'
}
)
plt.title('Distplot с настроенной гистограммой')
plt.show()

Настройка KDE (Kernel Density Estimation):

Python

Скопировать код

# Настройка KDE
plt.figure(figsize=(10, 6))
sns.distplot(
data,
bins=30,
hist=True,
kde=True,
kde_kws={
'bw': 0.3, # Ширина полосы сглаживания
'linewidth': 2,
'color': 'darkred',
'label': 'KDE (bw=0.3)'
}
)
plt.title('Distplot с настроенной кривой KDE')
plt.legend()
plt.show()

Добавление rug plot и теоретического распределения:

Python

Скопировать код

# Добавление rug plot и теоретического распределения
plt.figure(figsize=(10, 6))
sns.distplot(
data,
bins=30,
hist=True,
kde=True,
rug=True,
fit=stats.norm, # Подгонка нормального распределения
rug_kws={'color': 'black', 'alpha': 0.3, 'height': 0.1},
kde_kws={'color': 'blue', 'lw': 1},
fit_kws={'color': 'green', 'linestyle': '--', 'linewidth': 2, 'label': 'Normal Fit'}
)
plt.title('Комплексный distplot с rug plot и теоретическим распределением')
plt.legend()
plt.show()

Важные аспекты настройки распределений в distplot:

Выбор количества бинов — ключ компромисс между детализацией и сглаживанием шума. Для крупных datasets большее количество бинов может показать тонкие структуры, в то время как меньшее количество дает более сглаженное представление.
Настройка ширины полосы KDE (bandwidth) — параметр 'bw' в kde_kws определяет степень сглаживания кривой плотности. Меньшие значения делают кривую более чувствительной к локальным изменениям, большие — сглаживают детали.
Подбор теоретического распределения — параметр 'fit' позволяет накладывать различные статистические распределения (normal, gamma, exponential) для сравнения с эмпирическими данными.
Нормализация гистограммы — параметр norm_hist=True конвертирует гистограмму в представление плотности вероятности, что делает её сравнимой с KDE и теоретическими распределениями.

Настройка многомерного сравнения распределений:

Python

Скопировать код

# Создание нескольких распределений для сравнения
data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(1, 1.5, 1000)

plt.figure(figsize=(10, 6))
sns.distplot(data1, color='blue', label='Распределение 1')
sns.distplot(data2, color='red', label='Распределение 2')
plt.legend()
plt.title('Сравнение двух распределений с помощью distplot')
plt.show()

Практические кейсы применения distplot в анализе данных

В этом разделе мы рассмотрим реальные сценарии применения distplot для решения практических задач анализа данных. Каждый кейс демонстрирует, как distplot может помочь выявить важные закономерности и особенности в данных. 🧪

Кейс 1: Анализ финансовых данных — распределение доходности активов

Python

Скопировать код

# Генерация примера доходности финансовых активов
np.random.seed(42)
stock_returns = np.random.normal(0.001, 0.02, 1000) # Среднее 0.1%, SD 2%

plt.figure(figsize=(10, 6))
sns.distplot(
stock_returns, 
bins=30,
fit=stats.norm,
hist_kws={'edgecolor': 'black'},
kde_kws={'color': 'darkblue', 'lw': 2},
fit_kws={'color': 'red', 'linestyle': '--', 'label': 'Normal Fit'}
)
plt.title('Распределение дневной доходности акций')
plt.xlabel('Доходность')
plt.ylabel('Плотность')
plt.axvline(x=0, color='green', linestyle='-', alpha=0.7, label='Нулевая доходность')
plt.legend()
plt.show()

В данном примере distplot позволяет визуально оценить, насколько распределение доходности соответствует нормальному распределению, выявить асимметрию и "толстые хвосты", что критически важно для оценки рисков в финансовом анализе.

Кейс 2: Биомедицинские исследования — анализ показателей здоровья

Python

Скопировать код

# Генерация данных: уровень глюкозы в крови для разных групп пациентов
normal_glucose = np.random.normal(85, 10, 500) # Нормальная группа
pre_diabetes = np.random.normal(110, 15, 200) # Предиабетическая группа
diabetes = np.random.normal(150, 20, 100) # Диабетическая группа

all_glucose = np.concatenate([normal_glucose, pre_diabetes, diabetes])

plt.figure(figsize=(12, 7))
sns.distplot(
all_glucose, 
kde=True,
hist=True,
bins=40,
color='purple',
kde_kws={'linewidth': 2}
)

# Добавление вертикальных линий для медицинских порогов
plt.axvline(x=100, color='green', linestyle='--', label='Нормальный порог')
plt.axvline(x=126, color='red', linestyle='--', label='Диагностический порог диабета')

plt.title('Распределение уровня глюкозы в популяции')
plt.xlabel('Уровень глюкозы натощак (мг/дл)')
plt.ylabel('Плотность')
plt.legend()
plt.show()

В медицинских исследованиях distplot позволяет выявить полимодальные распределения, которые могут указывать на различные подгруппы в популяции пациентов, что критически важно для персонализированной медицины.

Елена Соколова, биостатистик
При работе над проектом анализа эффективности нового препарата мы столкнулись с необходимостью выявить подгруппы пациентов с различной реакцией на лечение. Традиционный статистический анализ средних значений не давал полной картины.
Решение пришло, когда мы применили distplot к временным рядам биомаркеров. Мы использовали следующий подход: для каждой временной точки строили distplot с параметрами kde=True, hist=True, rug=False и fit=stats.norm. Это позволило визуализировать изменение распределения маркеров во времени.
То, что мы обнаружили, оказалось прорывом — распределение было явно бимодальным, что указывало на наличие двух отдельных групп респондеров. Мы модифицировали параметры distplot, увеличив число бинов до 50 и настроив kde_kws={'bw': 0.2}, чтобы лучше визуализировать эту особенность.
Результат: мы идентифицировали генетический маркер, который предсказывал принадлежность пациента к группе высокого ответа. Без использования distplot эта находка могла остаться незамеченной, а эффективность препарата была бы недооценена.

Кейс 3: Анализ производительности алгоритмов машинного обучения

Python

Скопировать код

# Генерация распределения метрик производительности для разных моделей
model1_scores = np.random.beta(8, 2, 100) * 100 # Высокая производительность
model2_scores = np.random.beta(5, 2, 100) * 100 # Средняя производительность

plt.figure(figsize=(12, 6))

# Создание подграфиков для сравнения
plt.subplot(1, 2, 1)
sns.distplot(model1_scores, color='blue', label='Модель A')
sns.distplot(model2_scores, color='red', label='Модель B')
plt.title('Сравнение распределения точности моделей')
plt.xlabel('Точность (%)')
plt.legend()

# Создание графика разницы в производительности
plt.subplot(1, 2, 2)
performance_diff = model1_scores – model2_scores
sns.distplot(
performance_diff,
color='green',
hist_kws={'edgecolor': 'black'},
kde_kws={'linewidth': 2},
bins=20
)
plt.axvline(x=0, color='black', linestyle='--', label='Нулевая разница')
plt.title('Распределение разницы в точности')
plt.xlabel('Разница в точности (A – B)')
plt.legend()

plt.tight_layout()
plt.show()

Этот пример показывает, как distplot может быть использован для сравнения производительности различных моделей машинного обучения, демонстрируя не только различия в средних значениях, но и в стабильности результатов.

Кейс 4: Анализ социологических данных

Python

Скопировать код

# Генерация данных о доходах населения с правосторонней асимметрией
income_data = np.exp(np.random.normal(10, 0.8, 1000)) # Логнормальное распределение

plt.figure(figsize=(12, 6))

# Стандартный distplot
plt.subplot(1, 2, 1)
sns.distplot(income_data, bins=30, color='teal')
plt.title('Распределение доходов')
plt.xlabel('Доход')

# Distplot с логарифмической трансформацией
plt.subplot(1, 2, 2)
sns.distplot(
np.log(income_data), 
bins=30, 
fit=stats.norm, 
color='purple',
fit_kws={'color': 'orange', 'linestyle': '--', 'label': 'Нормальное распр.'}
)
plt.title('Логарифмированное распределение доходов')
plt.xlabel('ln(Доход)')
plt.legend()

plt.tight_layout()
plt.show()

В социологических исследованиях часто встречаются асимметричные распределения (например, доходы). Distplot помогает визуализировать как исходное распределение, так и применить различные трансформации для нормализации данных.

Альтернативы distplot и будущее визуализации в Seaborn

Поскольку функция distplot в Seaborn постепенно устаревает, важно понимать, какие альтернативные инструменты доступны для визуализации распределений и как будет развиваться экосистема Seaborn в будущем. В этом разделе я расскажу о современных альтернативах distplot, предоставлю сравнительный анализ и поделюсь перспективами развития инструментов визуализации. 🚀

Современные альтернативы функции distplot в Seaborn:

histplot() — специализированная функция для создания гистограмм с расширенными возможностями настройки.
kdeplot() — функция для построения кривых оценки плотности ядра.
rugplot() — функция для создания rug plot (отметок на оси).
displot() — новая figure-level функция для создания распределений (не путать с distplot).

Рассмотрим, как использовать эти альтернативные функции:

Python

Скопировать код

# Генерация данных для демонстрации
np.random.seed(0)
data = np.random.normal(0, 1, 1000)

# 1. Использование histplot
plt.figure(figsize=(12, 5))
plt.subplot(1, 3, 1)
sns.histplot(data, kde=True, stat="density", linewidth=0.5, color="cornflowerblue")
plt.title('histplot')

# 2. Использование kdeplot
plt.subplot(1, 3, 2)
sns.kdeplot(data, fill=True, color="darkseagreen")
plt.title('kdeplot')

# 3. Комбинация kdeplot и rugplot
plt.subplot(1, 3, 3)
sns.kdeplot(data, color="crimson")
sns.rugplot(data, color="crimson", alpha=0.5)
plt.title('kdeplot + rugplot')

plt.tight_layout()
plt.show()

# 4. Использование displot (figure-level функция)
sns.displot(
data, 
kind="kde", 
fill=True, 
rug=True,
palette="crest", 
height=6, 
aspect=1.5
)
plt.title('displot (новая функция)')
plt.show()

Сравнительный анализ distplot и новых функций:

Функция	Преимущества	Ограничения	Рекомендуемые случаи использования
distplot (устаревшая)	Комбинированный график (hist+kde+rug), простота использования	Менее гибкие настройки, устаревает	Наследованный код, быстрый EDA
histplot	Расширенный контроль над бинами, статистиками, опция cumulative	Фокус только на гистограмме	Детальный анализ частотных распределений
kdeplot	Расширенный контроль над параметрами KDE, многомерные KDE	Только оценка плотности, без гистограммы	Сглаженная визуализация непрерывных данных
displot (FacetGrid)	Объединяет возможности всех функций, поддержка фасетирования	Более сложный интерфейс для новичков	Комплексный анализ с группировкой по категориям

Перспективы развития инструментов визуализации в Seaborn:

В 2025 году развитие Seaborn фокусируется на нескольких ключевых направлениях:

Объектно-ориентированный интерфейс — развитие API, основанного на объектах для более гибкого построения и модификации графиков.
Интеграция с другими библиотеками экосистемы — улучшение взаимодействия с Pandas, numpy, scipy и другими инструментами анализа данных.
Поддержка интерактивности — развитие возможностей создания интерактивных визуализаций.
Статистические преобразования — расширенные возможности для статистических трансформаций данных внутри визуализаций.
Улучшенная поддержка больших данных — оптимизация производительности при работе с крупными датасетами.

Миграция с distplot на новый API:

Python

Скопировать код

# Типичный код с использованием distplot
sns.distplot(data, bins=20, kde=True, rug=True)

# Эквивалентный код с использованием нового API
sns.histplot(data, bins=20, kde=True, stat="density")
sns.rugplot(data, alpha=0.5)

# Или более компактно с displot
sns.displot(data, kind="hist", kde=True, rug=True, bins=20)

Для специалистов по анализу данных и разработчиков машинного обучения важно следить за эволюцией инструментов визуализации и постепенно переходить на новые функции в своих проектах. Это не только обеспечит совместимость с будущими версиями библиотеки, но и даст доступ к расширенным возможностям и улучшениям производительности.

Важно отметить, что несмотря на устаревание distplot, принципы визуализации распределений данных остаются неизменными, и знания, полученные при работе с этой функцией, легко переносятся на новые инструменты Seaborn.

Хотите проверить, подходит ли вам профессия аналитика данных? Тест на профориентацию от Skypro поможет определить, насколько ваши навыки и личностные качества соответствуют работе с данными и визуализацией. За 5 минут вы получите профессиональный анализ вашей предрасположенности к работе с инструментами вроде Seaborn и distplot. Результаты теста помогут понять, будет ли вам интересно создавать информативные графики распределения и извлекать из них ценные инсайты для бизнеса.

Визуализация распределений данных — фундаментальный навык в арсенале современного аналитика. Несмотря на то, что distplot постепенно уступает место более специализированным инструментам, понимание принципов его работы и применения формирует прочную основу для успешной интерпретации данных. Разделяйте свои данные на гистограммы, накладывайте KDE, применяйте теоретические модели распределений — и вы обнаружите закономерности, которые остаются скрытыми при поверхностном анализе. Помните: качественная визуализация распределений — это не просто иллюстрация, а мощный инструмент принятия решений на основе данных.

Екатерина Громова

аналитик данных

Свежие материалы

Наука об осмыслении информации как фундаментального понятия

26 мая 2025

Пост Мортем отзывы: мнения игроков о мрачной головоломке

26 мая 2025

5 ключевых факторов, влияющих на результат измерений: анализ

26 мая 2025

Визуализация данных с помощью distplot в Seaborn: полное руководство

Что такое distplot: функционал и основные возможности

Синтаксис и параметры Seaborn distplot для разных задач

Создание и настройка распределений в distplot Seaborn

Практические кейсы применения distplot в анализе данных

Альтернативы distplot и будущее визуализации в Seaborn

Загрузка...