Разделяем строку dataframe на две колонки: использование '<fips>'

#Python и Pandas для анализа данных #Анализ данных #Подготовка данных и EDA (разведочный анализ)

Пройдите тест, узнайте какой профессии подходите

Сколько вам лет

До 18

От 18 до 24

От 25 до 34

От 35 до 44

От 45 до 49

От 50 до 54

Больше 55

Быстрый ответ

Метод str.split() с параметром expand=True позволяет разбить столбец dataframe на два отдельных столбца.

Python

Скопировать код

data[['хлеб', 'начинка']] = data['column'].str.split(' ', 1, expand=True)

Так, в вашем data отобразятся новые столбцы: хлеб и начинка.

Сложные разделения: применение регулярных выражений и extract()

В некоторых случаях столбец нужно разделять более тонко, чем просто на части. Для этого подходит метод str.extract() с использованием регулярных выражений:

Python

Скопировать код

df[['первый', 'второй']] = df['column'].str.extract(r'(\w+)\W+(\w+)')

Знание регулярных выражений крайне важно в таких операциях. Пример использования именованных групп в регулярных выражениях:

Python

Скопировать код

df[['первый', 'второй']] = df['column'].str.extract(r'(?P<первый>\w+)\W+(?P<второй>\w+)')

Обработка пропусков

При неравномерном разделении могут появиться пропущенные значения:

Python

Скопировать код

df['column'].str.split(' ', expand=True).notnull().all(axis=1)

Этот код позволит проверить новые столбцы на наличие пропусков.

Основное и последующее действия: переименование, слияние, удаление

После разделения нужно привести результаты к порядку. Можно комбинировать методы rename() и join(), чтобы добавить новые столбцы к dataframe:

Python

Скопировать код

df = df.join(df['column'].str.split(' ', 1, expand=True)
.rename(columns={0: 'первый', 1: 'второй'}))

После завершения операции, не забудьте удалить первоначальный столбец с помощью df.drop():

Python

Скопировать код

df.drop('column', axis=1, inplace=True)

Визуализация

Представьте столбец вашего dataframe как одну цепочку, которую вы хотите разделить на две части:

До: | Цепь 📿 | "Звено1, Звено2" |

После применения .str.split() произойдет следующее разделение:

После: | Звено1 📿 | Звено2 📿 |

Python

Скопировать код

df[['Звено1', 'Звено2']] = df['Цепь'].str.split(',', expand=True)

Теперь у вас есть два отдельных столбца, готовых к дальнейшей обработке!

Сложные случаи разделения? Нет проблем!

Если перед вами стоит сложная задача, регулярные выражения всегда вам в помощь:

Python

Скопировать код

df['column'].str.split('\s+', expand=True)

С помощью этого метода вы сможете обнаружить спрятанные пробелы в данных.

При разделении даты и времени важно соблюдать формат данных:

Python

Скопировать код

df[['дата', 'время']] = df['datetime'].str.split('T', expand=True)

С помощью .str.get() или .str[index] можно обращаться к элементам после разделения. Именно как секретный трюк:

Python

Скопировать код

df['первое_слово'] = df['column'].str.split().str.get(0)

Творческое извлечение и мощь extractall()

Используйте .str.extractall() для детального извлечения данных из столбца:

Python

Скопировать код

соответствия = df['column'].str.extractall(r'(\b\w+\b)')

Этот метод идеален для работы со столбцами, содержащими множество "скрытых сюрпризов".

Полезные материалы

pandas.Series.str.split – ваш первый шаг в изучении str.split().
Обзор типов данных в Pandas – познайте все уголки зоопарка Pandas.
Объединение наборов данных – как управлять данными после их разделения.
Уроки по очистке данных – всё, что нужно знать, чтобы поддерживать порядок в своих данных.
5 малоизвестных трюков с pandas – секретные методы совершенствования ваших данных.

Проверь как ты усвоил материалы статьи

Пройди тест и узнай насколько ты лучше других читателей

Какой метод позволяет разбить строку столбца dataframe на два отдельных столбца?

1 / 5

Екатерина Громова

аналитик данных

Свежие материалы

Видео уроки по анализу данных

6 сентября 2024

Как скачать и установить Python на телефон или планшет

6 сентября 2024

Лучшие каналы для изучения Python

6 сентября 2024

Разделяем строку dataframe на две колонки: использование '<fips>'

Быстрый ответ

Сложные разделения: применение регулярных выражений и extract()

Обработка пропусков

Основное и последующее действия: переименование, слияние, удаление

Визуализация

Сложные случаи разделения? Нет проблем!

Творческое извлечение и мощь extractall()

Полезные материалы

Загрузка...