Импорт данных из MySQL в Pandas с сохранением названий столбцов

#Python и Pandas для анализа данных #Pandas и анализ данных

Пройдите тест, узнайте какой профессии подходите

Сколько вам лет

До 18

От 18 до 24

От 25 до 34

От 35 до 44

От 45 до 49

От 50 до 54

Больше 55

Быстрый ответ

Импорт данных из базы MySQL в DataFrame Pandas с учетом имен колонок можно выполнить при помощи функции pandas.read_sql_query():

Python

Скопировать код

import pandas as pd
import sqlalchemy

# Создаем движок SQLAlchemy.
engine = sqlalchemy.create_engine('mysql+pymysql://username:password@host/db_name')

# SQL-запрос
sql = "SELECT * FROM table_name;" # Выбираем все данные

# Импортируем данные в DataFrame
df = pd.read_sql_query(sql, engine)

Замените username, password, host, db_name и table_name на соответствующие ваши данные. В результате переменная df будет содержать DataFrame с полным набором колонок из выбранной таблицы.

Строка подключения

Для создания подключения используется SQLAlchemy. Строка подключения объединяет информацию об аутентификации и расположении базы данных:

'mysql+pymysql://username:password@host/db_name'

Вставьте свои данные в формат DBMS+pymysql://username:password@host/db_name. Для пользователей SQLite: замените mysql+pymysql на sqlite:///.

Эффективное извлечение больших объемов данных

Если вам предстоит работа с большими наборами данных, примените условия WHERE, чтобы извлекать только нужные колонки или записи. Для оптимизации загрузки используйте параметр chunksize в функции read_sql_query:

Python

Скопировать код

# Получение данных по частям
for chunk in pd.read_sql_query(sql, engine, chunksize=1000):
    process(chunk)  # Ваша функция обработки данных должна быть здесь.

Обработка ошибок и определение типов данных

Будьте к возможным ошибкам в подключении к базе данных и запросах. Для того чтобы помочь Pandas корректно идентифицировать типы данных, можно переопределить их:

Python

Скопировать код

df = pd.read_sql_query(sql, engine, dtype={'column_name': 'datatype'})

В dtype укажите название столбца вместо 'column_name' и нужный тип данных Pandas, например np.float64, str и т.д.

Визуализация

Таким образом, мы переносим данные MySQL в безопасное хранилище Pandas (DataFrame):

Markdown

Скопировать код

База данных MySQL (🗃️): [Col_Name1, Col_Name2, Col_Name3]

Через pandas.read_sql_query() данные переходят в:

Python

Скопировать код

df = pandas.read_sql_query(SQL_QUERY, connection)

И затем помещаются в DataFrame Pandas (🐼):

Markdown

Скопировать код

DataFrame Pandas (📊): [Col_Name1, Col_Name2, Col_Name3]
# Имена колонок включены в DataFrame, и все они обретут долгую и счастливую жизнь!

Таким образом, данные со всеми именами колонок успешно устанавливаются в DataFrame.

Продвинутые приемы

Если вы уже освоили основы, давайте перейдем к более сложным техникам.

ORM SQLAlchemy для сложных запросов

Для реализации сложных запросов с использованием классов Python, которые ассоциированы с моделями базы данных, применяйте ORM SQLAlchemy.

Python

Скопировать код

from sqlalchemy import Column, Integer
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker

Base = declarative_base()

# Определение модели
class MyTable(Base):
    __tablename__ = 'my_table'
    id = Column(Integer, primary_key=True)
    # и другие колонки

Session = sessionmaker(bind=engine)
session = Session()

# Запросы выполняются через ORM
query = session.query(MyTable)
df = pd.read_sql(query.statement, query.session.bind)

Параметризованные запросы

Для вставки переменных в SQL-запросы применяйте параметризованные запросы:

Python

Скопировать код

params = {"limit_rows": 10}
sql = "SELECT * FROM table_name LIMIT :limit_rows;"
df = pd.read_sql_query(sql, engine, params=params)

Такой подход не только позволяет избежать SQL-инъекций, но и повышает величину полезной нагрузки, упрощая работу с заполнением запросов данными.

Обработка данных временных рядов

При работе с данными временных рядов, Pandas станет вашим незаменимым помощником:

Python

Скопировать код

# Предположим, 'my_date_column' это ваш временной столбец.
df['my_date_column'] = pd.to_datetime(df['my_date_column'])
df.set_index('my_date_column', inplace=True)

Полезные материалы

pandas.read_sql — документация pandas 2.2.0 — Официальная документация Pandas по функции read_sql.
MySQL :: Руководство разработчика Connector/Python для MySQL — Подробное руководство по MySQL Python Connector.
SQLAlchemy – Инструменты для работы с базами данных на Python — Официальный сайт SQLAlchemy, комплект инструментов для работы с базами данных на Python.
Python и база данных MySQL: Практическое введение – Real Python — Подробное руководство по использованию Python в связке с MySQL.
Project Jupyter | Главная страница — Главная страница Проекта Jupyter, упрощающего анализ данных с помощью Pandas.

Проверь как ты усвоил материалы статьи

Пройди тест и узнай насколько ты лучше других читателей

Какой метод используется для импорта данных из MySQL в DataFrame Pandas?

1 / 5

Екатерина Громова

аналитик данных

Свежие материалы

Методы HTTP: GET, POST и другие

6 сентября 2024

Критика и ограничения HTTP

6 сентября 2024

Вопросы по SQL на собеседовании для тестировщиков

6 сентября 2024

Импорт данных из MySQL в Pandas с сохранением названий столбцов

Быстрый ответ

Строка подключения

Эффективное извлечение больших объемов данных

Обработка ошибок и определение типов данных

Визуализация

Продвинутые приемы

ORM SQLAlchemy для сложных запросов

Параметризованные запросы

Обработка данных временных рядов

Полезные материалы

Загрузка...