> Modules non standards > Scikit-Learn > Sélection des données
Sélection des données
On peut facilement séparer un dataset en training set et test set. Si X est l'array des variables indépendantes et y le vecteur des classes :
-
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 1, stratify = y)
- test_size = 0.3 indique que 30% est pour le test.
- random_state permet d'initialiser le générateur aléatoire.
- stratify = y indique de splitter selon les valeurs de y (autant de chaque classe dans les samples de training et de test). Il faut donner une array de valeurs de même taille que le nombre de lignes de l'array numpy (ou du dataframe).
- shuffle = True : indique qu'il faut randomiser les lignes (c'est le défaut)
- marche aussi sur un dataframe pandas : dfTrain, dfTest = train_test_split(df, test_size = 0.3)
Copyright python-simple.com
programmer en python, tutoriel python, graphes en python, Aymeric Duclert