Одной из распространенных задач в обработке данных является чтение данных из нескольких файлов и их объединение в один DataFrame для дальнейшего анализа. В этой статье будет рассмотрен пример объединения нескольких CSV-файлов в один DataFrame с помощью библиотеки pandas.
Сначала импортируем необходимые библиотеки — pandas и glob. Последняя используется для работы с путями к файлам.
import glob import pandas as pd
Для чтения всех CSV-файлов из определенного каталога можно использовать функцию glob, которая возвращает список всех файлов, соответствующих заданному шаблону.
path = 'путь/к/каталогу' filenames = glob.glob(path + "/*.csv")
Создаем пустой список dfs, в который будут добавляться DataFrame’ы, полученные в результате чтения каждого из CSV-файлов.
dfs = []
Далее с помощью цикла for проходим по всем именам файлов из списка filenames, читаем содержимое каждого файла с помощью функции pd.read_csv и добавляем полученный DataFrame в список dfs.
for filename in filenames: dfs.append(pd.read_csv(filename))
После того, как все данные прочитаны и DataFrame’ы добавлены в список, можно объединить их в один DataFrame с помощью функции pd.concat. Аргумент ignore_index=True говорит о том, что индексы исходных DataFrame’ов должны быть проигнорированы, и для нового DataFrame’а должны быть созданы новые индексы.
big_frame = pd.concat(dfs, ignore_index=True)
Таким образом, в результате выполнения данного кода все CSV-файлы из указанного каталога будут прочитаны и объединены в один DataFrame big_frame, который затем может быть использован для дальнейшего анализа данных.
Добавить комментарий