Обработка и анализ данных — это ключевые этапы в процессе машинного обучения. Однако, перед тем как приступить к обучению модели, необходимо подготовить данные. Это включает в себя разделение исходного набора данных на обучающую и тестовую выборки.
Допустим, есть большой набор данных в виде dataframe в pandas. Часто возникает задача разделить эти данные на две случайные выборки: 80% данных для обучения модели и 20% данных для тестирования модели.
Использование функции traintestsplit()
Наиболее простым и распространенным способом выполнения этой задачи является использование функции train_test_split()
из библиотеки sklearn.model_selection
. Это функция позволяет быстро и легко разделить данные на обучающие и тестовые выборки.
from sklearn.model_selection import train_test_split # предполагается, что df - это исходный dataframe train_df, test_df = train_test_split(df, test_size=0.2)
В этом коде df
— это исходный dataframe, который нужно разделить. test_size
— это параметр, который определяет размер тестовой выборки. В данном случае он равен 0.2, что означает, что 20% исходных данных будут использоваться для тестирования модели, а остальные 80% — для обучения.
Вывод
Подготовка данных — важный этап в процессе машинного обучения. С помощью библиотеки pandas и функции train_test_split()
из sklearn.model_selection
можно легко разделить исходный набор данных на обучающую и тестовую выборки. Это позволяет обучить модель на одной части данных, а затем проверить ее эффективность на другой.
Добавить комментарий