Полное руководство: использование метода info() в DataFrame Pandas

#Python и Pandas для анализа данных #Подготовка данных и EDA (разведочный анализ)

Пройдите тест, узнайте какой профессии подходите

Сколько вам лет

До 18

От 18 до 24

От 25 до 34

От 35 до 44

От 45 до 49

От 50 до 54

Больше 55

Для кого эта статья:

начинающие аналитики данных
студенты и профессионалы, изучающие Python и Pandas
специалисты, работающие с большими датасетами и анализом данных
Метод info() — это ключевой инструмент в арсенале аналитика данных, работающего с библиотекой Pandas. Он позволяет мгновенно получить исчерпывающую сводку о DataFrame: количество строк и столбцов, типы данных, объем памяти и наличие пропущенных значений. Представьте, что ваш датасет — это незнакомая территория, а info() — это мощный бинокль, который позволяет быстро оценить ландшафт перед тем, как приступить к детальному исследованию. 📊 Без этого метода первичный анализ данных превращается в долгий и неэффективный процесс поиска иголки в стоге сена.

Хотите профессионально освоить анализ данных с DataFrame и другими инструментами Python? Курс «Аналитик данных» с нуля от Skypro поможет вам не только разобраться с методом info() и другими функциями Pandas, но и даст целостное понимание процессов анализа данных. От базовых концепций до продвинутых техник — вы освоите весь необходимый инструментарий современного аналитика. Инвестиция в знания, которая окупается уже с первого рабочего проекта!

Что раскрывает метод

Метод info() предоставляет краткую сводку о DataFrame, включающую ключевые характеристики, которые необходимо знать перед началом анализа данных. Этот метод можно сравнить с быстрым медицинским осмотром для вашего датасета — он позволяет моментально выявить потенциальные проблемы и особенности.

Основные сведения, которые предоставляет info():

Количество строк и столбцов в DataFrame
Название каждого столбца
Типы данных (dtypes) каждого столбца
Количество ненулевых значений в каждом столбце
Общее использование памяти датасетом

Почему это критически важно? При работе с новым датасетом аналитик должен сразу понимать его структуру и качество, чтобы эффективно планировать дальнейшие шаги анализа. 🔍 Метод info() позволяет быстро определить:

Аспект данных	Что показывает `info()`	Значимость для анализа
Полнота данных	Количество непустых значений	Позволяет оценить необходимость импутации пропусков
Типы данных	dtype каждого столбца	Определяет, какие преобразования могут потребоваться
Размер датасета	Общий объем используемой памяти	Важно для оптимизации производительности
Структура данных	Количество строк и столбцов	Позволяет оценить сложность датасета

В отличие от других методов предварительного просмотра данных, таких как head(), tail() или describe(), метод info() сосредоточен на метаданных DataFrame, а не на самих значениях. Это делает его незаменимым для быстрой оценки технического состояния ваших данных.

Александр Петров, ведущий специалист по данным
Однажды мне поручили срочно проанализировать массивный датасет клиентских транзакций. База содержала миллионы строк, и при обычном подходе с просмотром выборки данных я бы потратил часы только на понимание структуры. Вместо этого я первым делом запустил df.info() и за считанные секунды обнаружил, что все временные метки хранились как строки, а не datetime, а колонка с суммами транзакций содержала 15% пропусков. Это немедленно определило мои первые шаги по предобработке: конвертация типов и стратегия работы с пропущенными значениями. В результате вместо многочасовой предварительной работы я смог перейти к содержательному анализу уже через 20 минут.

Синтаксис и параметры метода

Метод info() имеет простой базовый синтаксис, но содержит несколько параметров, которые позволяют настроить вывод информации в соответствии с вашими потребностями. Понимание всех возможностей этого метода значительно повышает эффективность начального анализа данных.

Python

Скопировать код

DataFrame.info(verbose=None, buf=None, max_cols=None, memory_usage=None, show_counts=None)

Рассмотрим каждый параметр и его влияние на результат работы функции:

verbose — определяет уровень детализации вывода. При verbose=True (значение по умолчанию для небольших датасетов) показывается информация о каждом столбце. При verbose=False отображается только сводная информация.
buf — позволяет направить вывод в файл или другой объект, поддерживающий запись. По умолчанию результат выводится в sys.stdout.
max_cols — задает максимальное количество столбцов для отображения. Особенно полезно для широких таблиц.
memory_usage — контролирует отображение информации об использовании памяти. По умолчанию True.
show_counts — определяет, показывать ли количество непустых значений для каждого столбца. По умолчанию True для длинных DataFrame.

Важно отметить, что начиная с версии Pandas 2.0 (актуальной в 2025 году), метод info() получил дополнительные возможности для повышения информативности вывода и удобства использования. 💡

Python

Скопировать код

# Пример базового использования
import pandas as pd

# Создаем тестовый DataFrame
data = {
'Имя': ['Алексей', 'Мария', 'Иван', 'Екатерина', None],
'Возраст': [25, 30, None, 22, 35],
'Зарплата': [50000, 60000, 55000, None, 70000],
'Дата найма': pd.to_datetime(['2021-05-10', '2020-01-15', '2022-03-01', '2021-07-20', '2019-11-05'])
}

df = pd.DataFrame(data)

# Получаем информацию о DataFrame
df.info()

Результат выполнения этого кода предоставит подробную информацию о вашем DataFrame, включая типы данных и количество непустых значений в каждом столбце.

Для оптимального использования метода info() при работе с различными типами датасетов, следует учитывать следующие рекомендации:

Сценарий использования	Рекомендуемые параметры	Преимущества
Большие датасеты с многими столбцами	`verbose=True, max_cols=10`	Фокус на ключевых столбцах без перегрузки вывода
Предварительный обзор нового датасета	`memory_usage=True, show_counts=True`	Полное представление о структуре и занимаемой памяти
Сохранение информации для документации	`buf=open('dataset_info.txt', 'w')`	Автоматическая запись метаданных в файл
Компактный обзор	`verbose=False`	Получение только обобщенной информации

Анализ данных с помощью pandas DataFrame

Метод info() — это не просто инструмент для получения сухой технической информации о DataFrame. При правильном использовании он становится отправной точкой для глубокого анализа данных, помогая выявить потенциальные проблемы и определить необходимые шаги предобработки. 📈

Основные аспекты анализа, которые можно выполнить с помощью info():

Анализ пропущенных значений — info() показывает количество непустых ячеек в каждом столбце, что позволяет быстро определить, где есть пропуски и насколько они значимы.
Проверка типов данных — несоответствие типов данных ожидаемым значениям может указывать на проблемы с качеством данных или необходимость преобразования.
Оценка памяти — для больших датасетов важно понимать, сколько памяти они занимают, особенно при ограниченных ресурсах.
Определение размерности — количество строк и столбцов помогает оценить сложность и масштаб предстоящего анализа.

Рассмотрим практический пример, демонстрирующий, как использовать info() для быстрого анализа и принятия решений:

Python

Скопировать код

# Загрузка набора данных
import pandas as pd
import numpy as np

# Создаем тестовый датасет с разными типами проблем
df = pd.DataFrame({
'ID': range(1, 1001),
'Имя': ['Клиент_' + str(i) if i % 20 != 0 else None for i in range(1, 1001)],
'Возраст': [np.random.randint(18, 65) if i % 10 != 0 else None for i in range(1, 1001)],
'Доход': [float(np.random.randint(30000, 150000)) if i % 5 != 0 else None for i in range(1, 1001)],
'Дата_регистрации': pd.date_range(start='2020-01-01', periods=1000),
'Категория': [chr(65 + i % 5) for i in range(1, 1001)],
'Активность': [str(i % 2 == 0) for i in range(1, 1001)]
})

# Применение info() для анализа
df.info()

Анализируя результаты метода info(), мы можем выявить следующие инсайты:

У нас есть пропуски в столбцах "Имя" (5%), "Возраст" (10%) и "Доход" (20%) — это требует стратегии обработки пропущенных значений.
Столбец "Активность" имеет тип 'object', хотя содержит логические значения в строковом формате — это кандидат для преобразования в тип bool.
Столбец "Дата_регистрации" уже имеет правильный тип datetime64, что избавляет нас от необходимости дополнительных преобразований.

Основываясь на этой информации, мы можем сразу определить первые шаги для предобработки данных:

Python

Скопировать код

# Преобразование типов данных на основе анализа info()
df['Активность'] = df['Активность'].map({'True': True, 'False': False})

# Стратегия обработки пропущенных значений
df['Возраст'].fillna(df['Возраст'].median(), inplace=True)
df['Доход'].fillna(df['Доход'].mean(), inplace=True)
df['Имя'].fillna('Неизвестный', inplace=True)

# Проверка результатов преобразований
df.info()

Такой подход значительно ускоряет процесс подготовки данных к анализу, так как мы точно знаем, какие проблемы нужно решить и где они находятся. 🚀

Практическое применение

Марина Соколова, руководитель отдела аналитики
В 2024 году наша команда столкнулась с необходимостью обработать датасет транзакций национальной retailer-сети, содержащий более 50 миллионов строк и 120 столбцов. Первая попытка загрузить его в память закончилась ошибкой переполнения. Мы решили разбить процесс на этапы, но сначала нужно было понять структуру данных. Использование df.info(memory_usage='deep') позволило нам не только увидеть распределение типов данных, но и точно определить, какие столбцы занимают больше всего памяти. Оказалось, что 70% объема приходилось на текстовые колонки с длинными описаниями товаров, которые для нашего анализа не требовались. Мы оптимизировали загрузку, сразу исключив эти столбцы, и дополнительно преобразовали типы числовых данных в более компактные. В итоге датасет, который изначально не помещался в память, занял всего 30% доступных ресурсов после оптимизации, основанной на результатах метода info().

Работа с крупномасштабными данными требует особого подхода, и метод info() становится незаменимым помощником в этом процессе. При работе с большими датасетами важно не только понимать их структуру, но и оптимизировать использование памяти и вычислительных ресурсов. 🏗️

Ключевые стратегии использования info() для больших датасетов:

Оптимизация памяти — параметр memory_usage='deep' позволяет получить точную информацию о реальном использовании памяти каждым столбцом, что критически важно для оптимизации.
Селективная загрузка — на основе предварительного анализа можно загружать только необходимые столбцы, значительно сокращая требования к памяти.
Понижение точности числовых типов — информация о диапазоне значений помогает определить, можно ли использовать более компактные типы данных (например, int32 вместо int64).
Оценка качества данных — для больших датасетов критически важно заранее оценить количество пропусков и аномалий, чтобы спланировать этапы очистки.

Рассмотрим практический пример оптимизации работы с большим датасетом с использованием info():

Python

Скопировать код

# Работа с большим датасетом
import pandas as pd

# Чтение только части столбцов на основе предварительного анализа
# Предположим, что у нас есть файл с данными о продажах с множеством столбцов
columns_to_read = ['date', 'product_id', 'quantity', 'price', 'customer_id']

# Предварительный просмотр типов данных (чтение только 10,000 строк)
df_sample = pd.read_csv('large_sales_data.csv', usecols=columns_to_read, nrows=10000)
df_sample.info(memory_usage='deep')

# Оптимизируем типы данных на основе анализа
dtypes = {
'product_id': 'int32', # Уменьшаем разрядность с int64 до int32
'customer_id': 'int32',
'quantity': 'int16', # Для количества товаров достаточно int16
'price': 'float32' # Для цены используем float32 вместо float64
}

# Теперь загружаем полный датасет с оптимизированными типами
df_full = pd.read_csv('large_sales_data.csv', 
usecols=columns_to_read,
dtype=dtypes,
parse_dates=['date'])

# Проверяем результаты оптимизации
df_full.info(memory_usage='deep')

Дополнительные рекомендации для работы с большими датасетами:

Используйте параметр max_cols для ограничения вывода при наличии сотен столбцов.
Сохраняйте результаты info() в файл для дальнейшего анализа и документирования:

Python

Скопировать код

with open('dataset_analysis.txt', 'w') as f:
df.info(buf=f, memory_usage='deep')

Для очень больших датасетов рассмотрите возможность использования подхода "разделяй и властвуй", анализируя данные по частям:

Python

Скопировать код

# Анализ данных чанками
chunk_size = 1000000 # Размер чанка в строках
reader = pd.read_csv('massive_data.csv', chunksize=chunk_size)

# Анализируем первый чанк для понимания структуры
first_chunk = next(reader)
first_chunk.info(memory_usage='deep')

А вы уверены, что выбрали правильное направление в IT? Специалисты по данным, использующие такие инструменты как Pandas и его метод info(), сейчас среди самых востребованных профессионалов. Но подойдет ли вам эта область? Тест на профориентацию от Skypro поможет определить, насколько аналитика данных соответствует вашим склонностям и сильным сторонам. Проверьте за 5 минут, действительно ли мир данных — ваше призвание, или стоит обратить внимание на другие IT-специализации!

Продвинутые техники работы с методом

Для опытных аналитиков данных метод info() может быть использован в более сложных сценариях, выходящих за рамки базового анализа. Интеграция этого метода в автоматизированные рабочие процессы и комбинирование его с другими инструментами Pandas открывает новые возможности для углубленного анализа данных. ⚙️

Рассмотрим несколько продвинутых техник и практик:

Автоматическая генерация отчетов о качестве данных

Python

Скопировать код

def generate_data_quality_report(df, filename='data_quality_report.txt'):
"""Создает подробный отчет о качестве данных на основе info() и дополнительных метрик."""
# Базовая информация
with open(filename, 'w') as f:
f.write('ОТЧЕТ О КАЧЕСТВЕ ДАННЫХ\n')
f.write('=' * 50 + '\n\n')

f.write('1. ОБЩАЯ ИНФОРМАЦИЯ О ДАТАСЕТЕ\n')
f.write('-' * 50 + '\n')
df.info(buf=f)

f.write('\n\n2. ПРОПУЩЕННЫЕ ЗНАЧЕНИЯ\n')
f.write('-' * 50 + '\n')
missing_data = df.isnull().sum()
missing_percent = (missing_data / len(df)) * 100
missing_summary = pd.DataFrame({
'Пропущено значений': missing_data,
'Процент пропусков': missing_percent.round(2)
})
f.write(missing_summary[missing_data > 0].to_string() + '\n')

f.write('\n\n3. ТИПЫ ДАННЫХ И РЕКОМЕНДАЦИИ\n')
f.write('-' * 50 + '\n')
for column, dtype in df.dtypes.items():
f.write(f"Столбец: {column}, Тип: {dtype}\n")
if dtype == 'object':
unique_count = df[column].nunique()
f.write(f" – Уникальных значений: {unique_count}\n")
if unique_count < 10:
f.write(f" – Рекомендация: Рассмотрите преобразование в категориальный тип\n")
elif pd.api.types.is_numeric_dtype(dtype):
f.write(f" – Диапазон: {df[column].min()} – {df[column].max()}\n")

print(f"Отчет о качестве данных создан: {filename}")

# Пример использования
generate_data_quality_report(df)

Интеграция с системами мониторинга данных — регулярное выполнение info() для отслеживания изменений в структуре данных.

Python

Скопировать код

def monitor_dataset_changes(current_df, reference_df_path, output_path):
"""Сравнивает текущий датасет с эталонной версией и фиксирует изменения."""
import os
from io import StringIO

# Загружаем эталонный датасет
reference_df = pd.read_csv(reference_df_path)

# Получаем info для текущего датасета
current_info = StringIO()
current_df.info(buf=current_info)
current_info.seek(0)
current_info_str = current_info.read()

# Получаем info для эталонного датасета
reference_info = StringIO()
reference_df.info(buf=reference_info)
reference_info.seek(0)
reference_info_str = reference_info.read()

# Сравниваем и записываем результаты
with open(output_path, 'w') as f:
f.write("ОТЧЕТ О ИЗМЕНЕНИЯХ В ДАТАСЕТЕ\n")
f.write("=" * 50 + "\n\n")

if current_info_str == reference_info_str:
f.write("Изменений в структуре данных не обнаружено.\n")
else:
f.write("ОБНАРУЖЕНЫ ИЗМЕНЕНИЯ В СТРУКТУРЕ ДАННЫХ!\n\n")
f.write("Текущая структура:\n")
f.write(current_info_str + "\n")
f.write("Эталонная структура:\n")
f.write(reference_info_str + "\n")

# Проверяем изменения в типах данных
current_dtypes = current_df.dtypes
reference_dtypes = reference_df.dtypes

changed_dtypes = []
for col in set(current_dtypes.index) & set(reference_dtypes.index):
if current_dtypes[col] != reference_dtypes[col]:
changed_dtypes.append((col, reference_dtypes[col], current_dtypes[col]))

if changed_dtypes:
f.write("\nИзменения в типах данных:\n")
for col, old_type, new_type in changed_dtypes:
f.write(f"Столбец '{col}': {old_type} -> {new_type}\n")

print(f"Отчет о изменениях создан: {output_path}")

Оптимизация видимости вывода info() для специфических задач

Для некоторых задач требуется модификация стандартного вывода info(). Например, для сосредоточения на определенных аспектах данных:

Python

Скопировать код

def focused_info(df, focus_on='missing', threshold=0):
"""
Предоставляет целевую информацию о DataFrame, фокусируясь на конкретном аспекте.

Параметры:
- focus_on: 'missing' для фокуса на пропущенных значениях,
'memory' для фокуса на использовании памяти,
'types' для анализа типов данных
- threshold: пороговое значение для фильтрации (процент для пропусков,
байты для памяти)
"""
import sys
from io import StringIO

# Получаем базовую информацию
buffer = StringIO()
df.info(buf=buffer, memory_usage='deep')
buffer.seek(0)

# Разбираем вывод info()
info_lines = buffer.readlines()

# Фокусируемся на выбранном аспекте
if focus_on == 'missing':
# Анализ пропущенных значений
missing_counts = df.isnull().sum()
missing_percent = (missing_counts / len(df)) * 100

print("АНАЛИЗ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ:")
print("=" * 50)
for col, percent in missing_percent.items():
if percent > threshold:
print(f"{col}: {missing_counts[col]} пропусков ({percent:.2f}%)")

elif focus_on == 'memory':
# Анализ использования памяти
print("АНАЛИЗ ИСПОЛЬЗОВАНИЯ ПАМЯТИ:")
print("=" * 50)
memory_info = {}

for line in info_lines:
if "memory usage:" in line.lower():
total_memory = line.split(":")[1].strip()
print(f"Всего памяти: {total_memory}")
elif "dtypes:" not in line and "RangeIndex" not in line and "Columns" not in line:
parts = line.split()
if len(parts) >= 3 and parts[0].isdigit():
col_name = parts[1]
memory = parts[-1] if "+" in parts[-1] else None
if memory and "bytes" in memory:
memory_value = float(memory.replace("bytes", "").strip("+"))
memory_info[col_name] = memory_value

# Сортируем по использованию памяти
sorted_memory = {k: v for k, v in sorted(memory_info.items(), 
key=lambda item: item[1], 
reverse=True)}

for col, mem in sorted_memory.items():
if mem > threshold:
print(f"{col}: {mem:,.0f} bytes ({mem/1048576:.2f} MB)")

elif focus_on == 'types':
# Анализ типов данных
print("АНАЛИЗ ТИПОВ ДАННЫХ:")
print("=" * 50)
type_counts = df.dtypes.value_counts()
print("Сводка по типам данных:")
for dtype, count in type_counts.items():
print(f"{dtype}: {count} столбцов")

print("\nПотенциальные проблемы с типами данных:")
for col, dtype in df.dtypes.items():
issues = []
if dtype == 'object':
unique_ratio = df[col].nunique() / len(df)
if unique_ratio > 0.9:
issues.append("Вероятно, строковые данные с высокой кардинальностью")
elif unique_ratio < 0.1 and df[col].nunique() < 10:
issues.append("Кандидат на конвертацию в категориальный тип")
elif pd.api.types.is_numeric_dtype(dtype):
if df[col].min() >= 0 and "int" not in str(dtype):
issues.append("Положительные числа можно хранить как беззнаковые")

if issues:
print(f"{col} ({dtype}):")
for issue in issues:
print(f" – {issue}")

Применение этих продвинутых техник позволяет извлечь максимум пользы из метода info(), интегрировав его в более сложные рабочие процессы анализа данных и автоматизированные системы мониторинга. Это особенно ценно в контексте промышленной обработки данных и долгосрочных проектов, где структура данных может меняться со временем. 🔄

Метод info() в DataFrame Pandas — это не просто инструмент для базового обзора данных, а мощный аналитический ресурс, который при правильном использовании становится фундаментом эффективного анализа. От первичной оценки структуры до сложных схем мониторинга и оптимизации — этот метод предоставляет критически важную информацию на всех этапах работы с данными. Ключ к мастерству в анализе данных лежит не только в понимании алгоритмов и методов, но и в умении быстро и точно оценивать сами данные, с которыми предстоит работать. И в этом отношении info() остается незаменимым первым шагом любого аналитического процесса.

Екатерина Громова

аналитик данных

Свежие материалы

Как управлять динамикой среднего балла: эффективные методы

26 мая 2025

Исследования ВЦИОМ: общественное мнение и социальные тренды

26 мая 2025

5 ключевых факторов, влияющих на результат измерений: анализ

26 мая 2025