Работа с pandas: основы и примеры

Пройдите тест, узнайте какой профессии подходите

Я предпочитаю
0%
Работать самостоятельно и не зависеть от других
Работать в команде и рассчитывать на помощь коллег
Организовывать и контролировать процесс работы

Введение в pandas и установка

Pandas — это мощная библиотека для анализа данных в Python. Она предоставляет структуры данных и функции, которые позволяют легко манипулировать данными и выполнять сложные операции. Основные структуры данных в pandas — это Series и DataFrame. Series представляет собой одномерный массив с метками, а DataFrame — это двумерная таблица с метками строк и столбцов.

Чтобы установить pandas, используйте команду pip:

Bash
Скопировать код
pip install pandas

После установки библиотеки, вы можете импортировать её в ваш проект:

Python
Скопировать код
import pandas as pd

Pandas также часто используется вместе с другими библиотеками для научных вычислений, такими как NumPy и Matplotlib. NumPy предоставляет поддержку для массивов и матриц, а Matplotlib — инструменты для визуализации данных. Убедитесь, что у вас установлены эти библиотеки для более полного использования возможностей pandas.

Кинга Идем в IT: пошаговый план для смены профессии

Создание и работа с DataFrame

DataFrame — это основная структура данных в pandas, которая представляет собой таблицу с метками строк и столбцов. Вы можете создать DataFrame из различных источников данных, таких как списки, словари или другие структуры данных. DataFrame позволяет легко манипулировать данными, выполнять фильтрацию, сортировку и агрегацию.

Создание DataFrame из словаря

Создание DataFrame из словаря — это один из самых простых способов начать работу с pandas. Словарь должен содержать ключи, которые будут использоваться в качестве названий столбцов, и значения, которые будут использоваться в качестве данных для этих столбцов.

Python
Скопировать код
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

Основные операции с DataFrame

Вы можете выполнять различные операции с DataFrame, такие как выборка данных, добавление новых столбцов и строк, фильтрация и сортировка. Эти операции позволяют эффективно работать с данными и получать нужную информацию.

Выборка данных

Выборка данных — это одна из основных операций при работе с DataFrame. Вы можете выбирать данные по столбцам, строкам или использовать сложные условия для фильтрации.

Python
Скопировать код
# Выборка столбца
print(df['Name'])

# Выборка строки по индексу
print(df.iloc[1])

# Выборка строки по метке
print(df.loc[1])

Добавление нового столбца

Добавление нового столбца в DataFrame позволяет расширить данные и добавить дополнительную информацию. Вы можете использовать существующие данные для создания новых столбцов или добавлять данные из внешних источников.

Python
Скопировать код
df['Salary'] = [50000, 60000, 70000]
print(df)

Добавление новой строки

Добавление новой строки в DataFrame позволяет расширить данные и добавить новые записи. Вы можете использовать метод append для добавления новой строки.

Python
Скопировать код
new_row = {'Name': 'David', 'Age': 40, 'City': 'San Francisco', 'Salary': 80000}
df = df.append(new_row, ignore_index=True)
print(df)

Чтение и запись данных из/в Excel

Pandas позволяет легко читать и записывать данные из и в Excel файлы. Это особенно полезно для работы с большими наборами данных, которые часто хранятся в формате Excel. Для этого используются функции read_excel и to_excel.

Чтение данных из Excel

Чтение данных из Excel файла позволяет загрузить данные в DataFrame для дальнейшего анализа и манипуляции. Вы можете указать имя файла и, при необходимости, лист, который нужно загрузить.

Python
Скопировать код
df = pd.read_excel('data.xlsx')
print(df)

Запись данных в Excel

Запись данных в Excel файл позволяет сохранить результаты анализа и манипуляции данными. Вы можете указать имя файла и, при необходимости, исключить индекс из сохранения.

Python
Скопировать код
df.to_excel('output.xlsx', index=False)

Фильтрация и манипуляция данными

Фильтрация данных — это процесс выбора подмножества данных на основе определённых условий. Pandas предоставляет множество методов для фильтрации и манипуляции данными. Эти методы позволяют эффективно работать с данными и получать нужную информацию.

Фильтрация данных

Фильтрация данных позволяет выбирать строки, которые соответствуют определённым условиям. Вы можете использовать логические операторы для создания сложных условий фильтрации.

Python
Скопировать код
# Фильтрация строк, где возраст больше 30
filtered_df = df[df['Age'] > 30]
print(filtered_df)

Манипуляция данными

Вы можете выполнять различные манипуляции с данными, такие как изменение значений, удаление строк и столбцов, группировка данных и т.д. Эти операции позволяют эффективно работать с данными и получать нужную информацию.

Изменение значений

Изменение значений в DataFrame позволяет обновлять данные и вносить коррективы. Вы можете использовать методы at и iat для изменения значений в конкретных ячейках.

Python
Скопировать код
# Изменение значения в конкретной ячейке
df.at[0, 'Age'] = 26
print(df)

Удаление строк и столбцов

Удаление строк и столбцов позволяет очищать данные и удалять ненужную информацию. Вы можете использовать методы drop для удаления строк и столбцов.

Python
Скопировать код
# Удаление столбца
df = df.drop(columns=['Salary'])
print(df)

# Удаление строки
df = df.drop(index=0)
print(df)

Создание сводных таблиц (pivot tables)

Сводные таблицы (pivot tables) позволяют агрегировать данные и представлять их в удобной форме. В pandas для создания сводных таблиц используется метод pivot_table. Сводные таблицы позволяют легко анализировать данные и получать сводную информацию.

Пример создания сводной таблицы

Создание сводной таблицы позволяет агрегировать данные по определённым критериям и представлять их в удобной форме. Вы можете использовать различные функции агрегации для получения нужной информации.

Python
Скопировать код
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
    'Month': ['January', 'January', 'January', 'February', 'February', 'February'],
    'Sales': [250, 300, 200, 400, 500, 300]
}
df = pd.DataFrame(data)

pivot_table = df.pivot_table(values='Sales', index='Name', columns='Month', aggfunc='sum')
print(pivot_table)

Агрегация данных

Вы можете использовать различные функции агрегации, такие как sum, mean, count и другие. Эти функции позволяют агрегировать данные и получать сводную информацию.

Python
Скопировать код
pivot_table = df.pivot_table(values='Sales', index='Name', columns='Month', aggfunc='mean')
print(pivot_table)

Эти основы помогут вам начать работу с pandas и эффективно анализировать данные. Попробуйте применить эти методы на своих данных и экспериментируйте с различными функциями библиотеки. 😉

Читайте также