Анализ данных с pd.crosstab в Python – создаем сводные таблицы

#Python и Pandas для анализа данных #Визуализация данных #Подготовка данных и EDA (разведочный анализ)

Пройдите тест, узнайте какой профессии подходите

Сколько вам лет

До 18

От 18 до 24

От 25 до 34

От 35 до 44

От 45 до 49

От 50 до 54

Больше 55

Для кого эта статья:

специалисты и начинающие аналитики данных
студенты и учащиеся, заинтересованные в изучении аналитики и работы с данными
профессионалы, работающие в области маркетинга, финансов и медицины, использующие анализ данных в своей деятельности
Данные правят миром, но только если вы умеете извлекать из них смысл. Сводные таблицы – незаменимый инструмент в арсенале каждого аналитика, позволяющий моментально преобразовать хаос чисел в структурированные инсайты. Функция pd.crosstab библиотеки pandas – это именно тот мощный инструмент, который превращает рутинный анализ зависимостей между категориальными переменными в элегантное решение. В 2025 году, когда объемы данных растут в геометрической прогрессии, овладение этим инструментом становится не просто преимуществом, а необходимостью. 📊

Погрузитесь в мир профессионального анализа данных с Курсом «Аналитик данных» с нуля от Skypro. На курсе вы не только освоите создание сводных таблиц с помощью pd.crosstab, но и получите комплексное понимание всего процесса обработки данных — от сбора до визуализации. Наши выпускники решают реальные бизнес-задачи, используя современные инструменты Python. Станьте востребованным специалистом уже через 9 месяцев!

Что такое pd.crosstab и зачем он нужен аналитику данных

Функция pd.crosstab — это мощный инструмент из библиотеки pandas, предназначенный для создания таблиц сопряженности (или кросс-таблиц). По своей сути, эта функция позволяет анализировать взаимосвязь между категориальными переменными, подсчитывая частоту их совместного появления.

В отличие от классического pivot_table, который требует наличия конкретного столбца для агрегации, pd.crosstab специализируется именно на подсчете частот и создании таблиц сопряженности. Этот инструмент становится незаменимым, когда необходимо быстро выявить паттерны и зависимости в категориальных данных.

Алексей Петров, Lead Data Analyst
Первое мое знакомство с pd.crosstab произошло во время работы над проектом для крупного ритейлера. Мы анализировали покупательское поведение в разных возрастных группах. База данных содержала миллионы транзакций, и визуализировать эти связи стандартными методами было практически невозможно.
Применив pd.crosstab к возрастным группам и категориям товаров, я за считанные секунды получил четкую картину потребительских предпочтений. Обнаружилось, что молодежь от 18 до 25 лет неожиданно часто приобретала товары, которые маркетологи таргетировали на аудиторию 35+. Это открытие полностью изменило маркетинговую стратегию компании и привело к увеличению конверсии на 23%.

Основные преимущества pd.crosstab для аналитика данных:

Моментальное выявление зависимостей между категориальными переменными
Возможность применения различных агрегационных функций (не только подсчет частот, но и суммы, средние значения и т.д.)
Простота нормирования данных для более наглядного представления пропорций
Компактное отображение многомерных взаимосвязей
Интеграция с другими инструментами визуализации для создания информативных дашбордов

При работе с большими массивами данных pd.crosstab становится незаменимым инструментом оптимизации рабочего процесса. В 2025 году, когда средний датасет в промышленной аналитике превышает несколько петабайт, способность быстро выявлять паттерны становится критически важной.

Функция	pd.crosstab	pd.pivot_table
Основное назначение	Создание таблиц сопряженности для категориальных данных	Создание сводных таблиц с применением агрегирующей функции
Требуемые данные	Категориальные переменные для строк и столбцов	Индексы, столбцы и значения для агрегации
Агрегирующая функция по умолчанию	Подсчет частот (count)	mean
Типичное применение	Анализ взаимосвязей категориальных переменных	Многомерный статистический анализ с агрегацией

В последние годы pd.crosstab стал стандартом де-факто для проведения предварительного анализа данных (EDA) в проектах машинного обучения. Функция позволяет быстро выявить несбалансированность классов и другие особенности данных, критично влияющие на качество моделей. 🔍

Базовый синтаксис pd.crosstab для создания сводных таблиц

Освоение базового синтаксиса pd.crosstab — первый шаг к эффективному анализу категориальных данных. Основная форма вызова функции достаточно лаконична:

Python

Скопировать код

pd.crosstab(index, columns, values=None, rownames=None, 
colnames=None, aggfunc=None, margins=False, 
margins_name='All', normalize=False, dropna=True)

Рассмотрим ключевые параметры:

index — переменная или список переменных, которые будут формировать строки таблицы
columns — переменная или список переменных, которые будут формировать столбцы таблицы
values — если указано, то будет использоваться для агрегации вместо простого подсчета
aggfunc — функция агрегации, применяемая к values (например, np.sum, np.mean)
normalize — параметр для нормализации значений (возможные значения: 'all', 'index', 'columns', False)
margins — если True, добавляет итоговые суммы по строкам и столбцам

Простейший пример использования pd.crosstab выглядит следующим образом:

Python

Скопировать код

import pandas as pd
import numpy as np

# Создаем простой датасет
data = {
'Пол': ['М', 'Ж', 'М', 'М', 'Ж', 'Ж', 'М', 'Ж', 'М', 'Ж'],
'Образование': ['Высшее', 'Среднее', 'Высшее', 'Среднее', 
'Высшее', 'Высшее', 'Среднее', 'Высшее', 
'Среднее', 'Высшее'],
'Зарплата': [80000, 45000, 90000, 50000, 75000, 
85000, 55000, 80000, 60000, 70000]
}

df = pd.DataFrame(data)

# Простая таблица сопряженности
result = pd.crosstab(df['Пол'], df['Образование'])
print(result)

В результате выполнения этого кода получим таблицу, показывающую распределение образования среди мужчин и женщин:

Образование Высшее Среднее
Пол 
Ж 4 1
М 2 3

Добавив параметр margins=True, получим итоговые суммы:

Python

Скопировать код

# С итоговыми суммами
result_with_margins = pd.crosstab(df['Пол'], df['Образование'], 
margins=True, margins_name='Всего')
print(result_with_margins)

Что даст следующий результат:

Образование Высшее Среднее Всего
Пол 
Ж 4 1 5
М 2 3 5
Всего 6 4 10

Для нормализации данных и получения пропорций используется параметр normalize:

Python

Скопировать код

# Нормализация по строкам
result_normalized = pd.crosstab(df['Пол'], df['Образование'], 
normalize='index')
print(result_normalized)

Что даст следующий результат с долями вместо абсолютных чисел:

Образование Высшее Среднее
Пол 
Ж 0.800000 0.200000
М 0.400000 0.600000

При работе с большими датасетами важно также учитывать производительность. Функция pd.crosstab оптимизирована для быстрой обработки данных и эффективно использует внутренние механизмы pandas для ускорения вычислений.

Параметр normalize	Описание	Применение
False	Без нормализации, абсолютные значения	Анализ абсолютных частот
'all'	Нормализация по всей таблице (сумма всех значений = 1)	Анализ общего распределения
'index'	Нормализация по строкам (сумма в каждой строке = 1)	Анализ распределения по строке (условные вероятности)
'columns'	Нормализация по столбцам (сумма в каждом столбце = 1)	Анализ распределения по столбцу (условные вероятности)

Освоив базовый синтаксис pd.crosstab, вы сможете быстро создавать информативные сводные таблицы для категориальных данных, что существенно ускорит процесс поиска паттернов и зависимостей в ваших данных. 📈

Расширенные возможности pd.crosstab в Python-анализе

Продвинутые функциональные возможности pd.crosstab выходят далеко за пределы базового подсчета частот. Функция предоставляет гибкие механизмы для многомерного анализа данных, что делает ее незаменимой для комплексных аналитических задач. 🧠

Рассмотрим расширенные техники, которые превращают pd.crosstab в мощный инструмент анализа:

1. Многоуровневые индексы

Одной из сильных сторон pd.crosstab является возможность создания многоуровневых таблиц сопряженности:

Python

Скопировать код

# Создаем многоуровневую таблицу
multi_level = pd.crosstab([df['Пол'], df['Возрастная группа']], 
[df['Образование'], df['Статус занятости']])

Этот подход позволяет анализировать взаимосвязи между несколькими категориальными переменными одновременно, визуализируя сложные паттерны в компактной форме.

2. Применение пользовательских агрегационных функций

Если простой подсчет частот недостаточно информативен, можно использовать параметры values и aggfunc для применения различных агрегаций:

Python

Скопировать код

# Подсчет средней зарплаты для каждой комбинации категорий
salary_analysis = pd.crosstab(df['Пол'], df['Образование'], 
values=df['Зарплата'], 
aggfunc=np.mean)

Этот код даст таблицу со средней зарплатой для каждой комбинации пола и образования, что гораздо информативнее, чем просто подсчет количества людей в каждой категории.

Более того, можно использовать несколько агрегирующих функций одновременно:

Python

Скопировать код

# Применение нескольких агрегаций
multi_agg = pd.crosstab(df['Пол'], df['Образование'], 
values=df['Зарплата'], 
aggfunc=[np.mean, np.median, np.std])

3. Условная агрегация с помощью lambda-функций

Для еще более сложных агрегаций можно использовать lambda-функции:

Python

Скопировать код

# Подсчет количества людей с зарплатой выше 70000
high_salary_count = pd.crosstab(df['Пол'], df['Образование'], 
values=df['Зарплата'], 
aggfunc=lambda x: sum(x > 70000))

4. Манипуляция с результирующей таблицей

После создания кросс-таблицы ее можно дополнительно обрабатывать стандартными методами pandas:

Python

Скопировать код

# Создаем базовую таблицу
result = pd.crosstab(df['Пол'], df['Образование'])

# Добавляем новый столбец с процентным соотношением
result['Процент_высшего'] = result['Высшее'] / (result['Высшее'] + result['Среднее']) * 100

# Сортировка по новому столбцу
result_sorted = result.sort_values('Процент_высшего', ascending=False)

Мария Соколова, Data Science Team Lead
В 2023 году мы столкнулись с интересной задачей при работе с медицинскими данными. Нашему проекту требовалось проанализировать эффективность различных методов лечения в зависимости от множества факторов: возраста пациентов, сопутствующих заболеваний, генетических маркеров и региона проживания.
Традиционный подход с использованием серии запросов SQL или множества фильтров в pandas занял бы недели. Вместо этого мы применили pd.crosstab с многоуровневыми индексами и специализированной агрегирующей функцией, которая вычисляла индекс эффективности лечения. За один запуск кода мы получили полноценную карту эффективности лечения по всем комбинациям параметров.
Но самый впечатляющий момент наступил, когда мы использовали нормализацию по строкам и визуализировали результат с помощью heatmap. Буквально за пару часов работы мы обнаружили неожиданную связь между генетическим маркером и эффективностью препарата в определенной возрастной группе — открытие, которое привело к корректировке протоколов лечения.

5. Продвинутая нормализация и статистический анализ

Помимо базовых вариантов нормализации ('all', 'index', 'columns'), можно создавать более сложные нормализованные представления:

Python

Скопировать код

# Базовая таблица
base_table = pd.crosstab(df['Пол'], df['Образование'])

# Вычисление ожидаемых частот (как при тесте хи-квадрат)
row_margins = base_table.sum(axis=1)
col_margins = base_table.sum(axis=0)
total = base_table.sum().sum()

expected = np.outer(row_margins, col_margins) / total
expected_df = pd.DataFrame(expected, index=base_table.index, 
columns=base_table.columns)

# Вычисление отклонений от ожидаемых значений
deviation = (base_table – expected_df) / np.sqrt(expected_df)

Этот код позволяет не только подсчитать частоты, но и оценить статистическую значимость отклонений, что критически важно для подтверждения гипотез.

Использование расширенных возможностей pd.crosstab значительно повышает эффективность анализа данных, позволяя сократить время на рутинные операции и сосредоточиться на интерпретации выявленных зависимостей. В 2025 году, когда объем доступных данных продолжает экспоненциально расти, такие инструменты становятся необходимым компонентом рабочего процесса каждого аналитика. 🚀

Задумываетесь о карьере в анализе данных, но не уверены, подойдет ли вам эта сфера? Пройдите Тест на профориентацию от Skypro и оцените свои склонности и потенциал в работе с данными. Тест поможет понять, насколько вам подходит аналитическая работа и использование таких инструментов как pd.crosstab. Получите персональные рекомендации по развитию карьеры и узнайте, какие навыки стоит развивать именно вам!

Визуализация результатов работы pd.crosstab

Визуализация результатов pd.crosstab – ключевой этап, превращающий числовые данные в наглядные и интуитивно понятные представления. Интеграция pandas с библиотеками визуализации открывает широкие возможности для создания информативных графиков на основе сводных таблиц. 📊

Рассмотрим наиболее эффективные способы визуализации кросс-таблиц:

1. Тепловые карты (heatmap)

Тепловые карты – один из самых интуитивных способов визуализации кросс-таблиц, особенно когда важно показать интенсивность взаимосвязи между категориями:

Python

Скопировать код

import matplotlib.pyplot as plt
import seaborn as sns

# Создаем кросс-таблицу
cross_tab = pd.crosstab(df['Пол'], df['Образование'])

# Создаем тепловую карту
plt.figure(figsize=(10, 8))
sns.heatmap(cross_tab, annot=True, cmap='YlGnBu', fmt='d', cbar=True)
plt.title('Распределение образования по полу')
plt.tight_layout()
plt.show()

При работе с нормализованными данными тепловые карты становятся еще более информативными:

Python

Скопировать код

# Нормализованная тепловая карта
cross_tab_norm = pd.crosstab(df['Пол'], df['Образование'], normalize='index')
plt.figure(figsize=(10, 8))
sns.heatmap(cross_tab_norm, annot=True, cmap='YlGnBu', fmt='.2%', cbar=True)
plt.title('Процентное распределение образования по полу')
plt.tight_layout()
plt.show()

2. Мозаичные диаграммы

Для отображения пропорциональных соотношений между категориями эффективно использовать мозаичные диаграммы:

Python

Скопировать код

from statsmodels.graphics.mosaicplot import mosaic

# Подготовка данных
contingency_data = {(i, j): cross_tab.loc[i, j] 
for i in cross_tab.index 
for j in cross_tab.columns}

# Создание мозаичной диаграммы
plt.figure(figsize=(10, 8))
mosaic(contingency_data, gap=0.01, title='Мозаичная диаграмма распределения')
plt.tight_layout()
plt.show()

3. Группированные столбчатые диаграммы

Для сравнения категорий удобно использовать группированные столбчатые диаграммы:

Python

Скопировать код

# Создание группированной столбчатой диаграммы
cross_tab.plot(kind='bar', figsize=(12, 8), width=0.8)
plt.title('Распределение образования по полу')
plt.xlabel('Пол')
plt.ylabel('Количество')
plt.xticks(rotation=0)
plt.legend(title='Образование')
plt.tight_layout()
plt.show()

4. Круговые диаграммы для сравнения долей

Для визуализации процентных соотношений подходят круговые диаграммы:

Python

Скопировать код

# Создание подграфиков для каждого значения индекса
fig, axes = plt.subplots(1, len(cross_tab.index), figsize=(15, 8))

for i, (idx, row) in enumerate(cross_tab.iterrows()):
axes[i].pie(row, labels=row.index, autopct='%1.1f%%', 
startangle=90, shadow=True)
axes[i].set_title(f'Распределение образования: {idx}')

plt.tight_layout()
plt.show()

5. Интерактивные визуализации с Plotly

Для создания интерактивных дашбордов идеально подходит Plotly:

Python

Скопировать код

import plotly.express as px
import plotly.graph_objects as go

# Преобразуем кросс-таблицу в формат, подходящий для Plotly
df_plot = cross_tab.reset_index().melt(id_vars='Пол', 
var_name='Образование', 
value_name='Количество')

# Создаем интерактивную столбчатую диаграмму
fig = px.bar(df_plot, x='Пол', y='Количество', color='Образование', 
barmode='group', text='Количество',
title='Интерактивное распределение образования по полу')
fig.update_traces(texttemplate='%{text}', textposition='outside')
fig.show()

6. Визуализация многоуровневых кросс-таблиц

Для сложных многоуровневых таблиц эффективно использовать фасетные графики:

Python

Скопировать код

# Создаем многоуровневую кросс-таблицу
multi_cross = pd.crosstab([df['Пол'], df['Возрастная группа']], df['Образование'])

# Преобразуем для визуализации
multi_df = multi_cross.reset_index()
multi_long = multi_df.melt(id_vars=['Пол', 'Возрастная группа'], 
var_name='Образование', value_name='Количество')

# Создаем фасетный график
g = sns.FacetGrid(multi_long, col='Пол', row='Возрастная группа', height=4, aspect=1.2)
g.map_dataframe(sns.barplot, x='Образование', y='Количество')
g.set_axis_labels('Образование', 'Количество')
g.set_titles(col_template='{col_name}', row_template='{row_name}')
g.tight_layout()

7. Специализированные визуализации для анализа остатков

Для статистического анализа взаимосвязей полезны визуализации стандартизированных остатков:

Python

Скопировать код

# Вычисляем стандартизированные остатки
observed = cross_tab.values
row_totals = observed.sum(axis=1).reshape(-1, 1)
col_totals = observed.sum(axis=0).reshape(1, -1)
total = observed.sum()
expected = np.dot(row_totals, col_totals) / total
residuals = (observed – expected) / np.sqrt(expected)

# Визуализируем остатки
plt.figure(figsize=(10, 8))
resid_df = pd.DataFrame(residuals, index=cross_tab.index, columns=cross_tab.columns)
sns.heatmap(resid_df, annot=True, cmap='RdBu_r', 
vmin=-3, vmax=3, center=0, fmt='.2f')
plt.title('Стандартизированные остатки (> 2 или < -2 статистически значимы)')
plt.tight_layout()
plt.show()

Правильно подобранная визуализация результатов pd.crosstab значительно облегчает интерпретацию данных и коммуникацию выводов заинтересованным сторонам. Комбинируя различные типы визуализаций, можно раскрыть разные аспекты анализируемых данных и обеспечить комплексное понимание выявленных зависимостей. 🖼️

Практические сценарии применения pd.crosstab в проектах

Функция pd.crosstab находит применение в широком спектре аналитических сценариев, демонстрируя свою универсальность и эффективность. Рассмотрим конкретные практические кейсы, где этот инструмент становится незаменимым. 🔍

1. Маркетинговый анализ

В маркетинговых исследованиях pd.crosstab позволяет быстро сегментировать клиентскую базу и анализировать поведение различных групп потребителей:

Python

Скопировать код

# Анализ предпочтений продуктов по возрастным группам и полу
product_preferences = pd.crosstab(
[df['Возрастная группа'], df['Пол']], 
df['Предпочитаемая категория'], 
values=df['Частота покупок'], 
aggfunc='mean',
margins=True
)

Такой анализ позволяет выявить целевые сегменты для каждой категории продуктов и оптимизировать маркетинговые кампании, фокусируясь на наиболее релевантных группах клиентов.

2. Финансовый анализ и управление рисками

В финансовой сфере pd.crosstab помогает оценивать распределение рисков и доходности по различным категориям активов:

Python

Скопировать код

# Анализ доходности по категориям активов и рейтингам риска
risk_return_analysis = pd.crosstab(
df['Категория актива'], 
df['Рейтинг риска'], 
values=df['Годовая доходность'], 
aggfunc=np.mean
)

# Добавление стандартного отклонения для оценки волатильности
volatility_analysis = pd.crosstab(
df['Категория актива'], 
df['Рейтинг риска'], 
values=df['Годовая доходность'], 
aggfunc=np.std
)

Комбинируя такие таблицы, финансовые аналитики могут создавать комплексные карты соотношения риска и доходности для принятия взвешенных инвестиционных решений.

3. Медицинские исследования

В медицинской аналитике pd.crosstab применяется для выявления взаимосвязей между факторами риска, симптомами и исходами лечения:

Python

Скопировать код

# Анализ эффективности различных методов лечения 
# в зависимости от факторов пациента
treatment_outcomes = pd.crosstab(
[patients_df['Возрастная группа'], patients_df['Сопутствующие заболевания']], 
patients_df['Метод лечения'], 
values=patients_df['Оценка улучшения'], 
aggfunc='mean'
)

# Статистический анализ зависимости осложнений от факторов риска
complications_analysis = pd.crosstab(
patients_df['Фактор риска'], 
patients_df['Наличие осложнений'], 
normalize='index'
)

Такой анализ помогает медицинским специалистам оптимизировать протоколы лечения и разрабатывать персонализированные подходы к терапии.

4. HR-аналитика и управление персоналом

В области управления человеческими ресурсами pd.crosstab позволяет анализировать текучесть кадров, удовлетворенность сотрудников и эффективность программ развития:

Python

Скопировать код

# Анализ текучести кадров по отделам и уровням должностей
turnover_analysis = pd.crosstab(
[hr_df['Отдел'], hr_df['Уровень должности']], 
hr_df['Статус (уволен/работает)'], 
normalize='index'
)

# Анализ удовлетворенности в зависимости от стажа и отдела
satisfaction_analysis = pd.crosstab(
[hr_df['Стаж работы (категория)'], hr_df['Отдел']], 
hr_df['Уровень удовлетворенности'], 
values=hr_df['Оценка'], 
aggfunc='mean'
)

Эти данные позволяют HR-специалистам выявлять проблемные области и разрабатывать целенаправленные программы удержания талантов и повышения вовлеченности сотрудников.

5. Анализ в машинном обучении

При построении моделей машинного обучения pd.crosstab используется для предварительного анализа данных и оценки результатов классификации:

Python

Скопировать код

# Создание матрицы ошибок для оценки модели классификации
confusion_matrix = pd.crosstab(
y_true, 
y_pred, 
rownames=['Фактические значения'], 
colnames=['Предсказанные значения']
)

# Анализ важности признаков через их взаимосвязь с целевой переменной
feature_importance = pd.crosstab(
df['Признак'], 
df['Целевая переменная'], 
normalize='index'
)

Такой анализ помогает выявлять наиболее информативные признаки, оценивать качество моделей и выбирать оптимальные стратегии предобработки данных.

6. Анализ пользовательского поведения в цифровых продуктах

В продуктовой аналитике pd.crosstab помогает понять, как различные сегменты пользователей взаимодействуют с продуктом:

Python

Скопировать код

# Анализ конверсии по сегментам пользователей и каналам привлечения
conversion_analysis = pd.crosstab(
[users_df['Сегмент'], users_df['Канал привлечения']], 
users_df['Совершил целевое действие'], 
normalize='index'
)

# Анализ удержания пользователей в зависимости от платформы и функций
retention_analysis = pd.crosstab(
[users_df['Платформа'], users_df['Используемые функции']], 
users_df['Статус через 30 дней'], 
normalize='index'
)

Эти данные позволяют продуктовым командам оптимизировать пользовательский опыт и максимизировать ключевые метрики продукта.

7. Геопространственный анализ

При работе с географическими данными pd.crosstab помогает анализировать распределение различных показателей по регионам:

Python

Скопировать код

# Анализ распределения продаж по регионам и категориям товаров
regional_sales = pd.crosstab(
geo_df['Регион'], 
geo_df['Категория товара'], 
values=geo_df['Объем продаж'], 
aggfunc='sum'
)

# Нормализация для сравнения регионов разного размера
normalized_regional_sales = pd.crosstab(
geo_df['Регион'], 
geo_df['Категория товара'], 
values=geo_df['Объем продаж'], 
aggfunc=lambda x: sum(x) / geo_df.loc[geo_df['Регион'] == geo_df['Регион'].iloc[0], 'Население'].iloc[0],
normalize=False
)

Такой анализ помогает компаниям оптимизировать логистические цепочки, планировать расширение бизнеса и адаптировать ассортимент под региональные предпочтения.

В 2025 году, с ростом объемов доступных данных и усложнением аналитических задач, владение такими универсальными инструментами как pd.crosstab становится критическим навыком для специалистов по данным во всех отраслях. Эта функция обеспечивает быструю экстракцию ценных инсайтов, что особенно важно в условиях конкурентной бизнес-среды, где скорость принятия решений на основе данных часто определяет успех проектов. 🚀

Анализ данных требует не только инструментов, но и методологии. Эффективное использование pd.crosstab — лишь один из многих навыков, определяющих профессионализм аналитика. Освоив технические аспекты создания сводных таблиц, важно развивать и навыки интерпретации результатов, формулирования гипотез и проверки их через данные. В мире, где каждая компания становится data-driven, способность выделять значимые паттерны из хаоса чисел и превращать их в конкретные бизнес-решения становится суперсилой.

Екатерина Громова

аналитик данных

Свежие материалы

Наука об осмыслении информации как фундаментального понятия

26 мая 2025

Исследования ВЦИОМ: общественное мнение и социальные тренды

26 мая 2025

Образование в цифрах: статистика, факты и показатели обучения

26 мая 2025

Анализ данных с pd.crosstab в Python – создаем сводные таблицы

Что такое pd.crosstab и зачем он нужен аналитику данных

Базовый синтаксис pd.crosstab для создания сводных таблиц

Расширенные возможности pd.crosstab в Python-анализе

1. Многоуровневые индексы

2. Применение пользовательских агрегационных функций

3. Условная агрегация с помощью lambda-функций

4. Манипуляция с результирующей таблицей

5. Продвинутая нормализация и статистический анализ

Визуализация результатов работы pd.crosstab

1. Тепловые карты (heatmap)

2. Мозаичные диаграммы

3. Группированные столбчатые диаграммы

4. Круговые диаграммы для сравнения долей

5. Интерактивные визуализации с Plotly

6. Визуализация многоуровневых кросс-таблиц

7. Специализированные визуализации для анализа остатков

Практические сценарии применения pd.crosstab в проектах

1. Маркетинговый анализ

2. Финансовый анализ и управление рисками

3. Медицинские исследования

4. HR-аналитика и управление персоналом

5. Анализ в машинном обучении

6. Анализ пользовательского поведения в цифровых продуктах

7. Геопространственный анализ

Загрузка...