> Modules non standards > Scikit-Learn > Sélection des données
Sélection des données
On peut facilement séparer un dataset en training set et test set. Si X est l'array des variables indépendantes et y le vecteur des classes :
-
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 1, stratify = y)
- test_size = 30 indique que 30% est pour le test.
- random_state permet d'initialiser le générateur aléatoire.
- stratify = y indique de splitter selon les valeurs de y (autant de chaque classe dans les samples de training et de test).
- marche aussi sur un dataframe pandas : dfTrain, dfTest = train_test_split(df, test_size = 0.3)
Copyright python-simple.com
programmer en python, tutoriel python, graphes en python, Aymeric Duclert