Одной из распространенных задач в обработке данных является чтение данных из нескольких файлов и их объединение в один DataFrame для дальнейшего анализа. В этой статье будет рассмотрен пример объединения нескольких CSV-файлов в один DataFrame с помощью библиотеки pandas.
Сначала импортируем необходимые библиотеки — pandas и glob. Последняя используется для работы с путями к файлам.
1 2 | import glob import pandas as pd |
Для чтения всех CSV-файлов из определенного каталога можно использовать функцию glob, которая возвращает список всех файлов, соответствующих заданному шаблону.
1 2 | path = 'путь/к/каталогу' filenames = glob.glob(path + "/*.csv" ) |
Создаем пустой список dfs, в который будут добавляться DataFrame’ы, полученные в результате чтения каждого из CSV-файлов.
1 | dfs = [] |
Далее с помощью цикла for проходим по всем именам файлов из списка filenames, читаем содержимое каждого файла с помощью функции pd.read_csv и добавляем полученный DataFrame в список dfs.
1 2 | for filename in filenames: dfs.append(pd.read_csv(filename)) |
После того, как все данные прочитаны и DataFrame’ы добавлены в список, можно объединить их в один DataFrame с помощью функции pd.concat. Аргумент ignore_index=True говорит о том, что индексы исходных DataFrame’ов должны быть проигнорированы, и для нового DataFrame’а должны быть созданы новые индексы.
1 | big_frame = pd.concat(dfs, ignore_index = True ) |
Таким образом, в результате выполнения данного кода все CSV-файлы из указанного каталога будут прочитаны и объединены в один DataFrame big_frame, который затем может быть использован для дальнейшего анализа данных.
Добавить комментарий