Часто при работе с данными, особенно при обработке больших объемов данных, возникает потребность в упорядочивании данных. В Python для этих целей активно используется библиотека pandas, и одним из ключевых элементов этой библиотеки является DataFrame — двумерная маркированная структура данных с возможностью хранения разнородных типов данных.
Рассмотрим пример. Имеется список словарей:
data = [ {'name': 'John', 'age': 30, 'city': 'New York'}, {'name': 'Anna', 'age': 20, 'city': 'Los Angeles'}, {'name': 'Peter', 'age': 40, 'city': 'Chicago'}, {'name': 'Linda', 'age': 50, 'city': 'San Francisco'} ]
Необходимо преобразовать этот список словарей в DataFrame для удобства дальнейшей обработки.
Для этого воспользуемся функцией pandas.DataFrame()
. В качестве аргумента функция принимает список словарей:
import pandas as pd df = pd.DataFrame(data)
Результат выполнения этого кода будет следующим:
name age city 0 John 30 New York 1 Anna 20 Los Angeles 2 Peter 40 Chicago 3 Linda 50 San Francisco
Как видно из примера, каждый словарь списка преобразовался в строку DataFrame, при этом ключи словаря стали именами столбцов, а их значения — значениями в соответствующих ячейках.
Если в некоторых словарях отсутствуют некоторые ключи, то в соответствующих ячейках DataFrame будет значение NaN:
data = [ {'name': 'John', 'age': 30, 'city': 'New York'}, {'name': 'Anna', 'city': 'Los Angeles'}, {'age': 40, 'city': 'Chicago'}, {'name': 'Linda', 'age': 50} ] df = pd.DataFrame(data)
В результате получим:
name age city 0 John 30.0 New York 1 Anna NaN Los Angeles 2 NaN 40.0 Chicago 3 Linda 50.0 NaN
Таким образом, использование pandas DataFrame позволяет эффективно и удобно работать с данными, представленными в виде списка словарей.
Добавить комментарий