Что такое pandas и как с ним работать

Пройдите тест, узнайте какой профессии подходите

Содержание

Вконтакте

Одноклассники

Скопировать ссылку

Познакомьтесь с мощной библиотекой Python — pandas, узнайте о её основных структурах данных и функциях для анализа и обработки данных!

Алексей Кодов

Автор статьи

Pandas — это мощная библиотека Python для анализа и обработки данных. Она предоставляет структуры данных, такие как DataFrame и Series, которые позволяют удобно манипулировать данными различных форматов и источников. В этой статье мы познакомимся с основами работы с pandas и рассмотрим некоторые практические примеры. 😊

Установка и импорт pandas

Для начала работы с pandas, вам необходимо установить библиотеку. Это можно сделать с помощью команды:

pip install pandas

После установки, импортируйте pandas в свой Python-скрипт:

import pandas as pd

Теперь мы готовы начать работу с pandas!

Основные структуры данных в pandas

Series

Series — это одномерный массив с метками (индексами). Создать Series можно с помощью следующего кода:

data = [1, 2, 3, 4, 5]
ser = pd.Series(data)
print(ser)

Результат:

0    1
1    2
2    3
3    4
4    5
dtype: int64

DataFrame

DataFrame — это двумерная таблица, состоящая из строк и столбцов с метками. Создать DataFrame можно, например, из словаря:

data = {
    "Name": ["Alice", "Bob", "Charlie"],
    "Age": [25, 30, 35],
    "City": ["New York", "San Francisco", "Los Angeles"]
}
df = pd.DataFrame(data)
print(df)

Результат:

      Name  Age           City
0    Alice   25       New York
1      Bob   30  San Francisco
2  Charlie   35    Los Angeles

Работа с данными

Загрузка данных

Pandas позволяет загружать данные из различных источников, таких как CSV, Excel, JSON и SQL. Например, для загрузки данных из CSV-файла используйте следующий код:

df = pd.read_csv("data.csv")

Фильтрация и сортировка данных

Pandas предоставляет удобные функции для фильтрации и сортировки данных. Например, выберем всех людей старше 30 лет и отсортируем их по возрасту:

filtered_df = df[df["Age"] &gt; 30]
sorted_df = filtered_df.sort_values(by="Age", ascending=True)
print(sorted_df)

Обработка пропущенных данных

В реальных данных часто встречаются пропущенные значения. Pandas предоставляет несколько методов для работы с ними, таких как заполнение или удаление строк с пропущенными данными:

# Заполнение пропущенных данных нулями
filled_df = df.fillna(0)

# Удаление строк с пропущенными данными
dropped_df = df.dropna()

Это лишь некоторые возможности работы с pandas. Библиотека предлагает множество функций для анализа и обработки данных, которые пригодятся в вашей повседневной работе. Удачи в изучении pandas и анализе данных! 🚀

Пройди тест: кто я в IT