Pandas — это мощная библиотека Python для анализа и обработки данных. Она предоставляет структуры данных, такие как DataFrame и Series, которые позволяют удобно манипулировать данными различных форматов и источников. В этой статье мы познакомимся с основами работы с pandas и рассмотрим некоторые практические примеры. 😊
Установка и импорт pandas
Для начала работы с pandas, вам необходимо установить библиотеку. Это можно сделать с помощью команды:
pip install pandas
После установки, импортируйте pandas в свой Python-скрипт:
import pandas as pd
Теперь мы готовы начать работу с pandas!
Основные структуры данных в pandas
Series
Series — это одномерный массив с метками (индексами). Создать Series можно с помощью следующего кода:
data = [1, 2, 3, 4, 5] ser = pd.Series(data) print(ser)
Результат:
0 1
1 2
2 3
3 4
4 5
dtype: int64
DataFrame
DataFrame — это двумерная таблица, состоящая из строк и столбцов с метками. Создать DataFrame можно, например, из словаря:
data = { "Name": ["Alice", "Bob", "Charlie"], "Age": [25, 30, 35], "City": ["New York", "San Francisco", "Los Angeles"] } df = pd.DataFrame(data) print(df)
Результат:
Name Age City
0 Alice 25 New York
1 Bob 30 San Francisco
2 Charlie 35 Los Angeles
Работа с данными
Загрузка данных
Pandas позволяет загружать данные из различных источников, таких как CSV, Excel, JSON и SQL. Например, для загрузки данных из CSV-файла используйте следующий код:
df = pd.read_csv("data.csv")
Фильтрация и сортировка данных
Pandas предоставляет удобные функции для фильтрации и сортировки данных. Например, выберем всех людей старше 30 лет и отсортируем их по возрасту:
filtered_df = df[df["Age"] > 30] sorted_df = filtered_df.sort_values(by="Age", ascending=True) print(sorted_df)
Обработка пропущенных данных
В реальных данных часто встречаются пропущенные значения. Pandas предоставляет несколько методов для работы с ними, таких как заполнение или удаление строк с пропущенными данными:
# Заполнение пропущенных данных нулями filled_df = df.fillna(0) # Удаление строк с пропущенными данными dropped_df = df.dropna()
Это лишь некоторые возможности работы с pandas. Библиотека предлагает множество функций для анализа и обработки данных, которые пригодятся в вашей повседневной работе. Удачи в изучении pandas и анализе данных! 🚀
Добавить комментарий