10 Ноя 2022
4 мин
14801

Pandas: обзор библиотеки для Python

Библиотека Pandas входит в топ-5 самых востребованных навыков для вакансий в области data science.

Содержание

Библиотека Pandas — «рабочая лошадка» аналитика данных. Она входит в топ-5 самых востребованных навыков для вакансий в области data science.

Рассказываем в статье, что такое Pandas для Python, как его установить, пользоваться и почему это классная штука.

Что такое Pandas для Python

Библиотеку используют для анализа и обработки табличных данных. Pandas — это как Excel, но мощнее. В Pandas можно спокойно работать с данными объемом в миллионы строк.

Поэтому на курсе Skypro «Аналитик данных» студентам дают основы Python. За несколько месяцев можно освоить базовые навыки, чтобы обрабатывать данные быстрее и качественнее. А еще с помощью знаний Python можно создавать визуализации, чтобы данные подтягивались туда из таблиц и обновлялись автоматически.

У Pandas открытый исходный код и подробная документация.

Структуры классов

Есть два главных класса библиотеки: Series и DataFrame.

Класс Series

Series — одномерный индексированный массив, который способен хранить данные любого типа. Номер записи в массиве называется индексом.

Пример создания Series:

пример создания Series

Класс DataFrame

DataFrame — таблица с разными типами столбцов, то есть двумерная структура данных.

Пример создания DataFrame:

пример создания DataFrame

Как установить Pandas

Установите набор программ Anaconda — в него входит Python вместе с Pandas и другими полезными библиотеками.

  1. Скачайте установщик с сайта Anaconda.
  2. Откройте файл и следуйте инструкциям. Не забудьте поставить галочку в опции «Add Anaconda to my PATH environment variable».
  3. Перезагрузите компьютер.
  4. Откройте anaconda navigator и запустите jupyter notebook.

После этого импортируйте Pandas командой import pandas as pd.

Основная функциональность

Методы классов Series и DataFrame позволяют считать сводные статистики: среднюю, медиану, сумму и другие.

Пример:

Загружаем данные с характеристиками алмазов.

пример использования Pandas

Считаем среднее и стандартное отклонение цены.

расчет отклонения цены

Для статистик по категориям используйте группировку.

Пример:

Посмотрим средние значения цены и размеров по разным типам огранки из колонки cut.

пример расчета в Pandas

Обратите внимание, как отличается цена

Для двух групп используйте сводные таблицы.

Пример:

Узнаем среднюю цену алмазов по качеству обработки и цвету.

работа Pandas на примере

При помощи Pandas можно визуализировать данные. Для создания графиков используйте метод plot с параметром kind, который отвечает за тип визуализации.

Некоторые виды графиков:

  • линейный — вызывается по умолчанию;
  • столбчатый;
  • гистограмма;
  • боксплот;
  • диаграмма рассеяния.

Посмотрим, как цена зависит от размера, построив диаграмму рассеяния.

визуализация данных в Pandas

Примеры использования в аналитике

Продолжим изучать данные об алмазах. Постараемся ответить на вопрос, что влияет на цену. Для работы понадобятся библиотеки Seaborn и Matplotlib, которые вы установили вместе с Anaconda.

Загрузим таблицу и посмотрим на ее начало, используя команду head.

вставка таблица в Pandas

Shape показывает количество строк (53 940) и столбцов (10):

отображение количества строк и столбцов в Pandas

С помощью метода info посмотрим на типы данных и количество заполненных значений в колонках.

аналитика данных в Pandas

Сolor, cut и clarity — категориальные переменные. Остальные — вещественные (числа).

Проанализируем их по отдельности.

Анализ категориальных переменных

Посмотрим на уникальные значения по каждой колонке с помощью команды value_counts. Вызовем ее из цикла.

for i in ['cut', 'clarity', 'color']:
print(df[i].value_counts())

Для визуализации используем боксплоты, которые показывают распределение цены по каждой из категорий.

боксплоты в Pandas
Вывод — исходя из графиков, дороже всего стоят алмазы с параметрами:

  • Premium в колонке cut.
  • VS1, VS2, SI1, SI2, I1 в колонке clarity.
  • H, I или J в колонке color.

Анализ вещественных переменных

Статистику по числовым столбцам получим командой describe.

describe в Pandas

Посмотрим, как с ними взаимодействует стоимость камней, с помощью диаграмм рассеяния.

диаграммы рассеяния в Pandas

Вывод — цена сильнее всего зависит от переменных carat и x.

Мы узнали, что колонки carat, x, cut, clarity и color влияют на стоимость алмаза. Дальше можно построить модель для предсказания цены в зависимости от этих переменных.

Чтобы узнать, как это правильно сделать, записывайтесь на курс «Аналитик данных». За пять месяцев вы научитесь работать со статистикой, в Python, SQL и Excel. Наставники на курсе — аналитики из «Сбера», «Яндекса» и других крупных компаний. В конце курса специалисты центра карьеры помогут составить грамотное резюме и найти первую работу.

Краткие итоги

  1. Pandas — это библиотека Python для анализа таблиц.
  2. Чтобы пользоваться Pandas, установите Anaconda.
  3. Pandas позволяет группировать данные, генерировать сводные таблицы, вычислять статистики и рисовать графики.
  4. На примере датасета diamonds мы посмотрели, как использовать Pandas, чтобы понять, что влияет на цену алмазов.
  5. Научиться применять Pandas и Python можно на курсе «Аналитик данных».

Содержание

Добавить комментарий

Определи профессию по рисунку
Пройдите тест, узнайте какой профессии подходитеНачать тест
+