Вебинары Разобраться в IT Реферальная программа
Программирование Аналитика Дизайн Маркетинг Управление проектами
07 Июл 2023
2 мин
543

Создание обучающих и тестовых выборок из одного dataframe с помощью pandas

Обработка и анализ данных — это ключевые этапы в процессе машинного обучения. Однако, перед тем как приступить к обучению модели, необходимо подготовить

Обработка и анализ данных — это ключевые этапы в процессе машинного обучения. Однако, перед тем как приступить к обучению модели, необходимо подготовить данные. Это включает в себя разделение исходного набора данных на обучающую и тестовую выборки.

Допустим, есть большой набор данных в виде dataframe в pandas. Часто возникает задача разделить эти данные на две случайные выборки: 80% данных для обучения модели и 20% данных для тестирования модели.

Использование функции traintestsplit()

Наиболее простым и распространенным способом выполнения этой задачи является использование функции train_test_split() из библиотеки sklearn.model_selection. Это функция позволяет быстро и легко разделить данные на обучающие и тестовые выборки.

from sklearn.model_selection import train_test_split

# предполагается, что df - это исходный dataframe
train_df, test_df = train_test_split(df, test_size=0.2)

В этом коде df — это исходный dataframe, который нужно разделить. test_size — это параметр, который определяет размер тестовой выборки. В данном случае он равен 0.2, что означает, что 20% исходных данных будут использоваться для тестирования модели, а остальные 80% — для обучения.

Вывод

Подготовка данных — важный этап в процессе машинного обучения. С помощью библиотеки pandas и функции train_test_split() из sklearn.model_selection можно легко разделить исходный набор данных на обучающую и тестовую выборки. Это позволяет обучить модель на одной части данных, а затем проверить ее эффективность на другой.

Добавить комментарий