Удаление столбцов с определенной строкой в Pandas DataFrame

Пройдите тест, узнайте какой профессии подходите

Я предпочитаю
0%
Работать самостоятельно и не зависеть от других
Работать в команде и рассчитывать на помощь коллег
Организовывать и контролировать процесс работы

Быстрый ответ

Если необходимо исключить столбцы, где в названиях присутствует конкретная подстрока, вам поможет следующий код:

Python
Скопировать код
df = df.drop([col for col in df.columns if 'substring' in col], axis=1)

Такой синтаксически компактный пример команды позволит удалить из DataFrame все столбцы, в названиях которых упоминается 'substring'.

Кинга Идем в IT: пошаговый план для смены профессии

Различные способы удаления столбцов

Рассмотрим различные подходы, помогающие решить эту задачу в соответствии с контекстом.

Игнорирование регистра

В случае, если регистр подстроки при поиске не имеет значения, применяйте метод lower():

Python
Скопировать код
df = df.drop([col for col in df.columns if 'substring'.lower() in col.lower()], axis=1)
Подробнее об этом расскажет наш спикер на видео
skypro youtube speaker

Использование регулярных выражений

Для более гибкого поиска можно использовать str.contains с регулярными выражениями:

Python
Скопировать код
df = df[df.columns[~df.columns.str.contains('substring', regex=True)]]

Применение функции filter

Существует возможность избежать использования списочных выражений, применив функцию filter напрямую:

Python
Скопировать код
df = df.drop(df.filter(like='substring').columns, axis=1)

Методы startswith и endswith

Для удаления столбцов, которые начинаются или заканчиваются определенной последовательностью символов, используйте startswith и endswith:

Python
Скопировать код
df = df.drop([col for col in df.columns if col.startswith('substring')], axis=1)
df = df.drop([col for col in df.columns if col.endswith('substring')], axis=1)

Не забывайте указывать axis=1 при работе со столбцами.

Как избежать распространенных ошибок

Опыт работы с DataFrame говорит о ряде типичных ошибок, избежание которых положительно сказывается на качестве кода.

Обход предупреждения SettingWithCopyWarning

Для предотвращения появления предупреждения SettingWithCopyWarning, используйте copy():

Python
Скопировать код
df_clean = df.drop([col for col in df.columns if 'substring' in col], axis=1).copy()

Задействование сложных условий выбора

В сложных задачах и при работе с большим обьемом данных условия могут объединяться:

Python
Скопировать код
df = df.drop(df.columns[(df.columns.str.contains('substring')) | (df.columns.str.contains('another'))], axis=1)

Сохранение исходного DataFrame

Для сохранения исходного DataFrame без изменений, присваивайте результат операции новой переменной:

Python
Скопировать код
df_filtered = df.drop([col for col in df.columns if 'substring' in col], axis=1)

Визуализация

Восприятие проблемы упрощается, если есть возможность взглянуть на неё.

Продумайте DataFrame как о саде с клумбами – столбцами, каждая из которых имеет своё "имя".

Markdown
Скопировать код
Сад DataFrame: [🌷 Маргаритка, 🌻 Подсолнух, 🥀 Роза_содержит_стр, 🌼 Тюльпан]

Удаление столбцов можно сравнить с избавлением от сорняков:

Python
Скопировать код
df = df.drop([col for col in df.columns if 'содержит_стр' in col], axis=1)

Теперь сад вашего DataFrame выглядит ухоженным и аккуратным:

Markdown
Скопировать код
Очищенный сад: [🌷 Маргаритка, 🌻 Подсолнух, 🌼 Тюльпан]

Оптимизация работы с данными

Работа с pandas предполагает не только использование мощных инструментов, но и стремление к элегантности в коде.

Мощь инструментов pandas

Воспользуйтесь всем арсеналом полезных методов для строк, таких как str.contains, str.startswith, str.endswith, чтобы сделать вашу работу с данными максимально эффективной.

Упрощение программирования на Python

Python предлагает удивительные возможности использования списочных выражений и лямбда-функций. Они помогают реализовывать сложные операции в pandas поистине легко.

Полезные материалы

  1. pandas.DataFrame.drop — документация pandas 2.2.0
  2. python – Как отбирать строки из DataFrame основываясь на значениях столбцов? – Stack Overflow
  3. pandas.Series.str.contains — документация pandas 2.2.0
  4. Применение лямбда-функций в Python – Real Python
  5. Подробное руководство по Python
  6. SettingwithCopyWarning: как корректно обойти это предупреждение в Pandas – Dataquest
  7. Использование функций apply и lambda в pandas. Освойте, чтобы достичь мастерства в Pandas | автор Рахул Агарвал
Проверь как ты усвоил материалы статьи
Пройди тест и узнай насколько ты лучше других читателей
Какой метод используется для удаления столбцов из DataFrame, содержащих конкретную подстроку в названии?
1 / 5