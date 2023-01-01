Sns histplot: создание гистограмм в Python для анализа данных

Для кого эта статья:

Новички в области анализа данных и программирования на Python

Опытные аналитики и дата-сайентисты, желающие улучшить навыки визуализации данных

Студенты и профессионалы, интересующиеся карьерой в аналитике данных или смежных областях Погружаясь в мир анализа данных, рано или поздно каждый аналитик сталкивается с необходимостью визуализировать распределение своих переменных. И здесь на помощь приходит одна из самых мощных функций библиотеки Seaborn — histplot() . Этот инструмент способен превратить скучные столбцы чисел в наглядные, информативные гистограммы, раскрывающие суть ваших данных с первого взгляда. Благодаря гибкой настройке, широкому функционалу и элегантному дизайну по умолчанию, sns.histplot становится незаменимым союзником как для новичка, только начинающего свой путь в Python, так и для опытного дата-сайентиста, готовящего презентацию для руководства. 📊

Основы sns.histplot: визуализация распределений в Python

Функция histplot() — это мощный инструмент из библиотеки Seaborn для создания гистограмм, позволяющий визуализировать распределение числовых данных. В отличие от базовой функции hist() из Matplotlib, histplot() предлагает расширенную функциональность и более привлекательный дизайн по умолчанию.

Прежде чем мы погрузимся в детали, давайте настроим рабочее окружение и создадим простую гистограмму:

Python Скопировать код import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # Создаем тестовые данные data = np.random.normal(size=1000) # Строим базовую гистограмму plt.figure(figsize=(10, 6)) sns.histplot(data=data) plt.title('Базовая гистограмма с sns.histplot()') plt.show()

Этот базовый пример демонстрирует, насколько просто создать гистограмму с помощью Seaborn. Функция автоматически определяет оптимальное количество бинов (столбцов) и применяет приятный для глаз стиль.

Ключевые элементы гистограммы, которые нужно понимать:

Бины (bins) : разделения данных на интервалы

: разделения данных на интервалы Частота (frequency) : количество наблюдений в каждом бине

: количество наблюдений в каждом бине Плотность (density) : нормированная частота, где площадь всей гистограммы равна 1

: нормированная частота, где площадь всей гистограммы равна 1 KDE (Kernel Density Estimation): сглаженная кривая оценки плотности распределения

Histplot имеет несколько преимуществ перед базовыми альтернативами:

Функция Простота использования Настраиваемость Интеграция с DataFrame KDE линия sns.histplot() Высокая Обширная Нативная Встроенная plt.hist() Средняя Базовая Требует предварительной обработки Требует дополнительного кода

Для работы с DataFrame, seaborn делает процесс еще более интуитивным:

Python Скопировать код # Создаем DataFrame с несколькими колонками df = pd.DataFrame({ 'value_A': np.random.normal(0, 1, 1000), 'value_B': np.random.normal(3, 2, 1000), 'category': np.random.choice(['X', 'Y', 'Z'], 1000) }) # Построение гистограммы для одной колонки DataFrame sns.histplot(data=df, x='value_A') plt.title('Гистограмма для колонки DataFrame') plt.show()

Когда следует использовать гистограммы? Они особенно полезны для:

Изучения формы распределения данных (нормальное, логнормальное, бимодальное и т.д.)

Обнаружения выбросов в данных

Сравнения распределений различных групп

Визуализации результатов статистических преобразований

Понимание базовых принципов histplot – первый шаг к созданию информативных визуализаций. Далее мы рассмотрим, как настроить эти гистограммы для решения конкретных аналитических задач. 🔍

Настройка параметров гистограмм с sns.histplot

Мощь функции histplot() раскрывается в полной мере, когда мы начинаем настраивать её параметры под конкретные аналитические задачи. Гибкость настройки позволяет создавать визуализации, идеально подходящие для ваших данных и целей анализа.

Алексей Петров, Lead Data Scientist Помню свой первый серьезный проект по анализу клиентских данных в финтех-компании. Нам нужно было изучить распределение транзакций пользователей по размеру платежа. Изначально я использовал стандартные гистограммы с автоматическим определением бинов, но картина получалась смазанной — слишком много мелких транзакций скрывали паттерны в средних и крупных. Переломный момент наступил, когда я применил логарифмическую шкалу и ручную настройку бинов: Python Скопировать код sns.histplot( data=transactions_df, x="amount", log_scale=True, bins=20, kde=True, element="step" ) plt.title("Распределение размеров транзакций (лог. шкала)") Это преобразило визуализацию! Мы сразу увидели три чётких пика в распределении, соответствующих разным типам клиентского поведения. Без тонкой настройки параметров histplot эта закономерность осталась бы незамеченной, а бизнес упустил бы возможность сегментировать клиентов по их платежному поведению.

Рассмотрим ключевые параметры, которые превращают базовую гистограмму в мощный инструмент анализа:

Настройка бинов (bins)

Выбор количества и размера интервалов критически влияет на интерпретацию данных:

Python Скопировать код # Различные способы задания бинов plt.figure(figsize=(15, 10)) plt.subplot(2, 2, 1) sns.histplot(data=data, bins=5) plt.title('5 бинов') plt.subplot(2, 2, 2) sns.histplot(data=data, bins=50) plt.title('50 бинов') plt.subplot(2, 2, 3) sns.histplot(data=data, bins=[0, 1, 2, 3]) plt.title('Кастомные границы бинов') plt.subplot(2, 2, 4) sns.histplot(data=data, binwidth=0.5) plt.title('Фиксированная ширина бина = 0.5') plt.tight_layout() plt.show()

При выборе bins следует руководствоваться правилом: слишком мало бинов скрывает детали распределения, слишком много — создает визуальный шум.

Типы статистик и нормализация

Параметр stat определяет, какая статистика отображается на оси Y:

Python Скопировать код # Различные типы статистик plt.figure(figsize=(15, 10)) plt.subplot(2, 2, 1) sns.histplot(data=data, stat="count") plt.title('Абсолютные частоты (count)') plt.subplot(2, 2, 2) sns.histplot(data=data, stat="frequency") plt.title('Частоты (frequency)') plt.subplot(2, 2, 3) sns.histplot(data=data, stat="density") plt.title('Плотность вероятности (density)') plt.subplot(2, 2, 4) sns.histplot(data=data, stat="probability") plt.title('Вероятности (probability)') plt.tight_layout() plt.show()

Наложение кривой плотности (KDE)

Добавление сглаженной кривой плотности помогает оценить непрерывное распределение:

Python Скопировать код # Различные настройки KDE plt.figure(figsize=(15, 5)) plt.subplot(1, 3, 1) sns.histplot(data=data, kde=True) plt.title('С KDE (по умолчанию)') plt.subplot(1, 3, 2) sns.histplot(data=data, kde=True, kde_kws={"bw_adjust": 0.5}) plt.title('KDE с уменьшенной шириной полосы') plt.subplot(1, 3, 3) sns.histplot(data=data, kde=True, kde_kws={"bw_adjust": 2}) plt.title('KDE с увеличенной шириной полосы') plt.tight_layout() plt.show()

Параметр bw_adjust регулирует сглаживание кривой: чем выше значение, тем более сглаженной будет кривая.

Стили элементов гистограммы

Параметр element определяет стиль представления данных:

Значение element Описание Лучше использовать для bars Столбцы (по умолчанию) Классический вид, стандартный анализ step Ступенчатая линия Сравнение нескольких распределений poly Заполненный полигон Наглядное представление площади

Python Скопировать код # Различные элементы гистограмм plt.figure(figsize=(15, 5)) plt.subplot(1, 3, 1) sns.histplot(data=data, element="bars", color="skyblue") plt.title('Столбцы (bars)') plt.subplot(1, 3, 2) sns.histplot(data=data, element="step", color="orange") plt.title('Ступенчатая линия (step)') plt.subplot(1, 3, 3) sns.histplot(data=data, element="poly", color="green") plt.title('Полигон (poly)') plt.tight_layout() plt.show()

Дополнительные настройки для улучшения визуализации

log_scale: логарифмический масштаб для данных с большим разбросом

Python Скопировать код sns.histplot(data=np.random.lognormal(size=1000), log_scale=True)

cumulative: кумулятивная гистограмма

Python Скопировать код sns.histplot(data=data, cumulative=True, element="step")

thresh: порог для отображения значений

Python Скопировать код sns.histplot(data=data, thresh=100)

Правильный подбор параметров histplot() позволяет выявить тонкие нюансы в распределении данных, которые могут быть критически важны для принятия решений. Проведя эксперименты с различными настройками, вы сможете создать гистограмму, которая наиболее точно передает историю ваших данных. 📈

Многомерные гистограммы: анализ взаимосвязей в данных

По мере углубления в анализ данных возникает потребность исследовать не только отдельные переменные, но и их взаимосвязи. В этом контексте многомерные гистограммы становятся незаменимым инструментом, позволяющим визуализировать распределения с учетом дополнительных измерений и параметров.

Seaborn histplot() предлагает несколько мощных подходов к построению многомерных визуализаций, каждый из которых имеет свои преимущества в зависимости от задачи анализа.

Сравнение распределений с помощью группировки (hue)

Параметр hue позволяет разбить данные на группы и отобразить несколько распределений на одном графике:

Python Скопировать код # Создаем данные с категориями df = pd.DataFrame({ 'value': np.concatenate([ np.random.normal(0, 1, 1000), np.random.normal(2, 1.5, 1000), np.random.normal(-1, 2, 1000) ]), 'group': np.repeat(['A', 'B', 'C'], 1000) }) # Построение гистограммы с группировкой по hue plt.figure(figsize=(12, 6)) sns.histplot(data=df, x='value', hue='group', element="step") plt.title('Сравнение распределений по группам') plt.show()

При работе с параметром hue можно использовать различные настройки для улучшения визуального разделения групп:

multiple : определяет способ наложения гистограмм ("layer", "stack", "dodge")

: определяет способ наложения гистограмм ("layer", "stack", "dodge") palette : управляет цветовой схемой для разных групп

: управляет цветовой схемой для разных групп alpha: настраивает прозрачность для лучшей видимости при наложении

Python Скопировать код # Сравнение разных методов отображения множественных гистограмм plt.figure(figsize=(15, 10)) plt.subplot(2, 2, 1) sns.histplot(data=df, x='value', hue='group', multiple="layer", alpha=0.5) plt.title('Наложение (layer) с alpha=0.5') plt.subplot(2, 2, 2) sns.histplot(data=df, x='value', hue='group', multiple="stack") plt.title('Стопка (stack)') plt.subplot(2, 2, 3) sns.histplot(data=df, x='value', hue='group', multiple="dodge") plt.title('Смещение (dodge)') plt.subplot(2, 2, 4) sns.histplot(data=df, x='value', hue='group', element="poly", fill=False, palette="Set2", common_norm=False) plt.title('Полигоны без заливки') plt.tight_layout() plt.show()

Двумерные гистограммы (2D histplots)

Для анализа взаимосвязи двух числовых переменных можно использовать двумерную гистограмму, задав параметры x и y :

Python Скопировать код # Создаем коррелированные данные n = 2000 mean = [0, 0] cov = [[1, 0.7], [0\.7, 1]] x, y = np.random.multivariate_normal(mean, cov, n).T corr_df = pd.DataFrame({'x': x, 'y': y}) # Построение 2D гистограммы plt.figure(figsize=(10, 8)) sns.histplot(data=corr_df, x='x', y='y', bins=30, cmap='viridis') plt.title('Двумерная гистограмма для коррелированных данных') plt.show()

Двумерные гистограммы эффективно показывают плотность точек и позволяют обнаруживать сложные паттерны взаимосвязей, недоступные при одномерном анализе. Дополнительные параметры настройки 2D гистограмм:

cmap : цветовая карта для отображения плотности точек

: цветовая карта для отображения плотности точек cbar : добавление цветовой шкалы

: добавление цветовой шкалы thresh: порог для отображения ячеек с определенной частотой

Условные распределения с col и row

Для более сложного многомерного анализа можно использовать параметры col и row в сочетании с FacetGrid :

Python Скопировать код # Создаем многомерный датасет complex_df = pd.DataFrame({ 'value': np.random.normal(size=1500), 'group': np.random.choice(['A', 'B', 'C'], size=1500), 'subgroup': np.random.choice(['X', 'Y'], size=1500) }) # Построение условных гистограмм g = sns.FacetGrid(complex_df, col="group", row="subgroup", height=4, aspect=1.2) g.map_dataframe(sns.histplot, x="value", kde=True) g.add_legend() g.fig.suptitle('Условные распределения по группам и подгруппам', y=1.05) plt.tight_layout() plt.show()

Такой подход позволяет одновременно анализировать распределения внутри различных категорий и подкатегорий, выявляя сложные зависимости.

Практические рекомендации для многомерных гистограмм

Сценарий анализа Рекомендуемый подход Ключевые параметры Сравнение 2-3 групп hue с multiple="layer" alpha=0.5, element="step" Сравнение 4+ групп col или row для разделения FacetGrid с col_wrap Корреляция между переменными 2D гистограмма (x и y) bins, cmap="viridis" Соотношение частей к целому hue с multiple="stack" stat="proportion"

Многомерные гистограммы позволяют выйти за рамки простого описательного анализа и погрузиться в исследование сложных зависимостей между переменными. Освоив эти техники, вы сможете извлекать из данных более глубокие инсайты и находить неочевидные закономерности. 🧩

Стилизация гистограмм для эффективной презентации

Визуализация данных — это не только точность представления информации, но и искусство коммуникации. Хорошо стилизованная гистограмма может превратить сухую статистику в убедительную историю, которая запомнится аудитории. В этом разделе мы рассмотрим, как превратить базовые гистограммы в профессиональные визуализации, готовые к включению в презентации, отчёты и публикации.

Мария Соколова, Аналитик данных На третьей неделе в новой компании мне поручили проанализировать время отклика системы после недавнего обновления. Данные были собраны, анализ проведён, и я подготовила стандартную гистограмму для презентации руководству: Python Скопировать код plt.figure(figsize=(8, 5)) sns.histplot(response_times, bins=20) plt.title("Распределение времени отклика системы") plt.xlabel("Время (мс)") plt.ylabel("Частота") plt.show() Но когда я показала черновик коллеге с опытом выступлений перед руководством, он покачал головой: "Выглядит слишком академично и сухо. У тебя всего 30 секунд, чтобы донести главную мысль". Я переработала визуализацию, применив принципы стилизации: Python Скопировать код plt.figure(figsize=(10, 6)) # Устанавливаем стиль sns.set_style("whitegrid") # Используем цветовую палитру colors = sns.color_palette("viridis", n_colors=3) # Строим гистограмму с дополнительными элементами ax = sns.histplot( response_times, bins=20, kde=True, color=colors[0], line_kws={'linewidth': 2, 'color': colors[2]} ) # Добавляем вертикальную линию для среднего plt.axvline(x=response_times.mean(), color=colors[1], linestyle='--', linewidth=2, label=f'Среднее: {response_times.mean():.1f} мс') # Профессиональное оформление plt.title("После обновления 85% запросов обрабатываются быстрее 120 мс", fontsize=14) plt.xlabel("Время отклика (мс)", fontsize=12) plt.ylabel("Количество запросов", fontsize=12) plt.legend() # Добавляем аннотацию с ключевым выводом ax.text(0.05, 0.9, "Производительность улучшилась на 23%", transform=ax.transAxes, fontsize=13, bbox=dict(facecolor='white', alpha=0.8, boxstyle='round')) plt.tight_layout() plt.show() На этот раз диаграмма произвела впечатление. СТО сразу увидел ключевой результат и задал содержательные вопросы. Этот опыт научил меня, что в стилизации важен не только эстетический аспект, но и умение выделить главную мысль.

Базовые принципы стилизации

Хорошая стилизация начинается с понимания основных принципов визуального дизайна:

Акцент на сообщение – используйте визуальные элементы, чтобы подчеркнуть главный вывод

– используйте визуальные элементы, чтобы подчеркнуть главный вывод Минимализм – избегайте визуального шума и отвлекающих элементов

– избегайте визуального шума и отвлекающих элементов Согласованность – поддерживайте единый стиль во всех визуализациях проекта

– поддерживайте единый стиль во всех визуализациях проекта Доступность – учитывайте восприятие цветов и контрастность

Глобальные настройки стиля Seaborn

Seaborn предлагает предустановленные темы, которые можно установить всего одной строкой кода:

Python Скопировать код # Обзор различных стилей Seaborn styles = ['darkgrid', 'whitegrid', 'dark', 'white', 'ticks'] plt.figure(figsize=(15, 12)) for i, style in enumerate(styles): plt.subplot(3, 2, i+1) sns.set_style(style) sns.histplot(data, kde=True, color="skyblue") plt.title(f"Стиль: {style}") plt.subplot(3, 2, 6) sns.set_theme(style="whitegrid", context="talk", palette="viridis") sns.histplot(data, kde=True) plt.title("Контекст: talk + палитра viridis") plt.tight_layout() plt.show() # Возвращаем стиль по умолчанию sns.set_theme()

Контекстные настройки позволяют адаптировать визуализацию для различных целей:

paper : для научных статей

: для научных статей notebook : для интерактивного анализа (по умолчанию)

: для интерактивного анализа (по умолчанию) talk : для презентаций

: для презентаций poster: для печатных постеров большого формата

Настройка цветовой гаммы

Цвет — мощный инструмент для акцентирования важных аспектов данных:

Python Скопировать код # Использование различных цветовых палитр palettes = ['viridis', 'magma', 'Blues', 'RdBu_r', 'Set2'] plt.figure(figsize=(15, 10)) for i, palette in enumerate(palettes): plt.subplot(2, 3, i+1) sns.set_palette(palette) sns.histplot(data, kde=True, bins=15) plt.title(f"Палитра: {palette}") plt.tight_layout() plt.show()

При выборе цветов учитывайте:

Тип данных (категориальные, порядковые, количественные)

Контекст презентации (формальный, маркетинговый, научный)

Доступность (учет восприятия людей с цветовой слепотой)

Фирменные цвета компании для корпоративных презентаций

Расширенная настройка с Matplotlib

Поскольку Seaborn построен на базе Matplotlib, вы можете использовать все возможности последнего для тонкой настройки визуализаций:

Python Скопировать код # Создание профессиональной гистограммы с аннотациями plt.figure(figsize=(12, 7)) sns.set_style("whitegrid") # Основная гистограмма ax = sns.histplot( data, bins=20, kde=True, color="#3498db", line_kws={'linewidth': 2, 'color': '#e74c3c'}, stat="density" ) # Добавление статистических маркеров mean = np.mean(data) median = np.median(data) std = np.std(data) plt.axvline(x=mean, color='#e74c3c', linestyle='--', linewidth=2, label=f'Среднее: {mean:.2f}') plt.axvline(x=median, color='#2ecc71', linestyle=':', linewidth=2, label=f'Медиана: {median:.2f}') # Добавляем затенение для стандартного отклонения plt.axvspan(mean-std, mean+std, alpha=0.2, color='#3498db', label=f'±1 ст. откл. ({std:.2f})') # Улучшение меток осей и заголовка plt.title('Распределение данных с ключевыми статистиками', fontsize=16, pad=20) plt.xlabel('Значение', fontsize=14) plt.ylabel('Плотность', fontsize=14) # Настройка легенды plt.legend(fontsize=12, loc='upper right', frameon=True, facecolor='white', framealpha=0.9) # Аннотации для повышения информативности props = {'boxstyle': 'round', 'facecolor': 'white', 'alpha': 0.8} textstr = f""" Среднее: {mean:.2f} Медиана: {median:.2f} Ст. откл.: {std:.2f} Размер выборки: {len(data)} """ plt.annotate(textstr, xy=(0.05, 0.95), xycoords='axes fraction', fontsize=12, verticalalignment='top', bbox=props) plt.tight_layout() plt.show()

Практические советы для создания презентационных гистограмм

Используйте осмысленные заголовки , фокусирующие внимание на главном выводе, вместо общих названий вроде "Распределение X"

, фокусирующие внимание на главном выводе, вместо общих названий вроде "Распределение X" Добавляйте аннотации для выделения ключевых точек и значений

для выделения ключевых точек и значений Настраивайте оси , чтобы показать наиболее информативный диапазон данных

, чтобы показать наиболее информативный диапазон данных Ограничивайте количество групп на одном графике до 3-4 для сохранения читаемости

на одном графике до 3-4 для сохранения читаемости Экспортируйте изображения в высоком разрешении для презентаций:

Python Скопировать код plt.savefig('histogram.png', dpi=300, bbox_inches='tight')

Помните, что цель стилизации — не просто сделать график привлекательным, но и усилить передачу ключевого сообщения ваших данных. Элегантная, хорошо оформленная гистограмма может стать решающим аргументом в презентации ваших выводов. 🎨

Практические кейсы применения sns.histplot в анализе

Теория без практики остаётся лишь абстрактным знанием. В этом разделе мы рассмотрим конкретные ситуации, где гистограммы, построенные с помощью sns.histplot() , становятся ключевым инструментом для аналитических открытий и бизнес-решений.

Анализ распределения цен в e-commerce

Одна из самых распространённых задач в e-commerce — анализ ценовых диапазонов товаров. Гистограммы позволяют выявить ценовые кластеры и оптимизировать стратегию ценообразования.

Python Скопировать код # Имитируем данные о ценах товаров np.random.seed(42) prices = np.concatenate([ np.random.normal(20, 5, 300), # Бюджетный сегмент np.random.normal(50, 10, 500), # Средний сегмент np.random.normal(100, 20, 200) # Премиум сегмент ]) # Логарифмическая гистограмма цен для выявления сегментов plt.figure(figsize=(12, 6)) sns.histplot(prices, bins=40, kde=True, log_scale=False) plt.title("Распределение цен товаров по сегментам", fontsize=14) plt.xlabel("Цена (USD)", fontsize=12) plt.ylabel("Количество товаров", fontsize=12) # Добавляем вертикальные линии для визуального разделения сегментов plt.axvline(x=35, color='red', linestyle='--', alpha=0.7, label='Граница бюджетного сегмента') plt.axvline(x=75, color='green', linestyle='--', alpha=0.7, label='Граница среднего сегмента') plt.legend() plt.tight_layout() plt.show()

Такой анализ может выявить:

Наличие ценовых разрывов, которые можно заполнить новыми продуктами

Сегменты с наибольшей конкуренцией (пики на гистограмме)

Возможности для репозиционирования товаров

Анализ временных данных: время отклика API

Для DevOps и инженеров производительности гистограммы — незаменимый инструмент анализа метрик производительности систем.

Python Скопировать код # Имитируем данные о времени отклика (в миллисекундах) response_times = np.concatenate([ np.random.gamma(1, 10, 1000), # Быстрые запросы np.random.gamma(5, 20, 200), # Медленные запросы np.random.gamma(15, 30, 50) # Очень медленные запросы ]) # Сравниваем распределения для двух периодов plt.figure(figsize=(12, 6)) # Имитируем улучшение после оптимизации response_times_optimized = response_times * 0.7 + np.random.normal(0, 5, len(response_times)) response_times_optimized = np.maximum(response_times_optimized, 0) # Убираем отрицательные значения # Создаем датафрейм для сравнения df_response = pd.DataFrame({ 'time': np.concatenate([response_times, response_times_optimized]), 'version': np.repeat(['До оптимизации', 'После оптимизации'], [len(response_times), len(response_times_optimized)]) }) # Строим гистограмму с разделением по версии sns.histplot( data=df_response, x='time', hue='version', element='step', stat='density', common_norm=False, bins=40 ) plt.title('Сравнение времени отклика API до и после оптимизации', fontsize=14) plt.xlabel('Время отклика (мс)', fontsize=12) plt.ylabel('Плотность', fontsize=12) # Добавляем вертикальную линию для SLA plt.axvline(x=200, color='red', linestyle='-', alpha=0.7, label='SLA (200 мс)') plt.xlim(0, 500) # Ограничиваем для лучшей видимости plt.legend() plt.tight_layout() plt.show()

Такая визуализация помогает:

Оценить процент запросов, укладывающихся в SLA

Выявить аномалии и выбросы в производительности

Измерить эффект от внедрённых оптимизаций

Финансовый анализ: распределение доходности инвестиций

В финансовом анализе гистограммы помогают оценить риски и распределение доходности различных активов.

Python Скопировать код # Имитируем дневные доходности различных активов np.random.seed(42) returns = { 'Акции': np.random.normal(0.0005, 0.01, 500), 'Облигации': np.random.normal(0.0002, 0.003, 500), 'Криптовалюты': np.random.normal(0.001, 0.05, 500) } df_returns = pd.DataFrame(returns) # Строим сравнительные гистограммы plt.figure(figsize=(15, 10)) for i, asset in enumerate(df_returns.columns): plt.subplot(2, 2, i+1) sns.histplot( df_returns[asset], kde=True, stat='density', color=sns.color_palette('tab10')[i] ) # Добавляем линию для нулевой доходности plt.axvline(x=0, color='red', linestyle='--', alpha=0.7) # Рассчитываем и отображаем ключевые метрики mean_return = df_returns[asset].mean() std_return = df_returns[asset].std() var_95 = np.percentile(df_returns[asset], 5) plt.title(f"{asset}", fontsize=14) plt.xlabel("Дневная доходность", fontsize=12) # Добавляем аннотации с метриками textstr = f""" Средняя доходность: {mean_return:.4f} Волатильность: {std_return:.4f} VaR (95%): {var_95:.4f} """ props = {'boxstyle': 'round', 'facecolor': 'white', 'alpha': 0.8} plt.annotate(textstr, xy=(0.05, 0.95), xycoords='axes fraction', fontsize=10, verticalalignment='top', bbox=props) # Добавляем сравнительную гистограмму для всех активов plt.subplot(2, 2, 4) sns.histplot( data=df_returns, kde=True, element='step', fill=False, common_norm=True ) plt.axvline(x=0, color='red', linestyle='--', alpha=0.7) plt.title("Сравнение всех активов", fontsize=14) plt.xlabel("Дневная доходность", fontsize=12) plt.tight_layout() plt.show()

Данная визуализация позволяет:

Сравнить соотношение риска и доходности разных активов

Выявить асимметрию в распределении доходности (фактор риска)

Рассчитать и наглядно представить метрики риска (VaR, волатильность)

Маркетинговый анализ: сегментация клиентов

В маркетинге гистограммы помогают исследовать поведенческие характеристики клиентов и выявлять сегменты для таргетирования.

Python Скопировать код # Имитируем данные о клиентах n_customers = 1000 customer_data = pd.DataFrame({ 'spend_amount': np.concatenate([ np.random.normal(50, 20, 600), # Экономные клиенты np.random.normal(150, 30, 300), # Средние клиенты np.random.normal(300, 50, 100) # VIP клиенты ]), 'age': np.concatenate([ np.random.normal(25, 5, 400), # Молодые клиенты np.random.normal(40, 8, 400), # Средний возраст np.random.normal(60, 5, 200) # Старшее поколение ]), 'frequency': np.concatenate([ np.random.poisson(1, 300), # Редкие покупки np.random.poisson(4, 500), # Периодические np.random.poisson(10, 200) # Постоянные клиенты ]) }) # Создаем категории для возраста и частоты customer_data['age_group'] = pd.cut( customer_data['age'], bins=[0, 30, 50, 100], labels=['Молодые', 'Средние', 'Старшие'] ) customer_data['spend_category'] = pd.cut( customer_data['spend_amount'], bins=[0, 80, 200, 500], labels=['Экономные', 'Средние', 'VIP'] ) # Многомерный анализ расходов клиентов по возрастным группам plt.figure(figsize=(14, 8)) sns.histplot( data=customer_data, x='spend_amount', hue='age_group', multiple='stack', bins=30 ) plt.title('Распределение расходов клиентов по возрастным группам', fontsize=14) plt.xlabel('Сумма покупки ($)', fontsize=12) plt.ylabel('Количество клиентов', fontsize=12) plt.legend(title='Возрастная группа') plt.tight_layout() plt.show() # 2D Гистограмма для анализа взаимосвязи возраста и расходов plt.figure(figsize=(12, 8)) sns.histplot( data=customer_data, x='age', y='spend_amount', bins=30, cmap='viridis' ) plt.title('Взаимосвязь возраста клиентов и размера покупки', fontsize=14) plt.xlabel('Возраст клиента (лет)', fontsize=12) plt.ylabel('Сумма покупки ($)', fontsize=12) plt.tight_layout() plt.show()

Такой анализ позволяет маркетологам:

Выявить наиболее прибыльные клиентские сегменты

Обнаружить закономерности в поведении разных возрастных групп

Оптимизировать маркетинговые кампании под конкретные сегменты

Научные исследования: анализ экспериментальных данных

В научных исследованиях гистограммы помогают визуализировать результаты экспериментов и проверять гипотезы.

Python Скопировать код # Имитируем экспериментальные данные для двух групп control_group = np.random.normal(100, 15, 200) treatment_group = np.random.normal(110, 15, 200) # Объединяем данные в датафрейм experiment_df = pd.DataFrame({ 'value': np.concatenate([control_group, treatment_group]), 'group': np.repeat(['Контрольная', 'Экспериментальная'], [200, 200]) }) # Строим гистограммы с наложением KDE plt.figure(figsize=(12, 6)) sns.histplot( data=experiment_df, x='value', hue='group', element='step', stat='density', common_norm=True, kde=True ) plt.title('Сравнение результатов между контрольной и экспериментальной группами', fontsize=14) plt.xlabel('Значение измерения', fontsize=12) plt.ylabel('Плотность', fontsize=12) # Добавляем p-value из t-теста from scipy import stats t_stat, p_value = stats.ttest_ind(control_group, treatment_group) plt.annotate(f'p-value: {p_value:.5f}', xy=(0.7, 0.9), xycoords='axes fraction', fontsize=12, bbox=dict(boxstyle="round,pad=0.3", fc="white", ec="gray", alpha=0.8)) plt.tight_layout() plt.show()

Подобная визуализация в научных исследованиях позволяет:

Наглядно представить различия между экспериментальными группами

Оценить нормальность распределения данных

Проиллюстрировать статистическую значимость результатов

В каждом из этих кейсов histplot() от Seaborn демонстрирует свою гибкость и мощь, позволяя извлекать ценные инсайты из данных и представлять их в наглядной, профессиональной форме. 📈

