> Modules non standards > Scikit-Learn > Datasets
Datasets
Il y a des datasets exemples que l'on peut charger :
from sklearn import datasets
iris = datasets.load_iris()
- les objets sont de la classe sklearn.utils.Bunch, et ont les champs accessibles comme avec un dictionnaire ou un namedtuple (iris['target_names'] ou iris.target_names).
- iris.target : les valeurs de la variable à prédire (sous forme d'array numpy de 0 à n - 1)
- iris.target_names : les labels associés aux valeurs n valeurs de la variable à prédire (si variable nominative)
- iris.data : les valeurs des variables prédictives (sous forme d'array numpy 2d).
- iris.feature_names : les noms des variables prédictives.
- print(iris.DESCR) : pour imprimer la description du dataset.
- iris['target_names'] : une autre façon d'accéder à iris.target_names (valable pour les autres propriétés).
- les données sont stockées dans le champ data comme array numpy 2d : iris.data. Les individus sont en ligne et les variables en colonnes.
- s'il y a une variable réponse, elle est stockée dans le champ target : iris.target
- pour voir les champs disponibles, on peut faire print(iris.keys())
Autres datasets :
- load_breast_cancer() : pour de la classification à 2 classes.
- load_diabetes() : pour de la régression.
- load_digits() : pour de la classification à 10 classes (il y a un champ images ici, car c'est pour classer des images de chiffres).
- load_wine() : pour de la classification à 3 classes.
- fetch_california_housing() : pour de la régression (prédiction des valeurs des maisons avec des variables quantitatives).
(data, classes) = datasets.make_blobs() permet de créer un nuage des points selon des distributions gaussiennes isotropes (avec autant de point par gaussienne). Renvoie un tuple avec 2 valeurs :
- l'array 2d des features.
- 'array 1d des classes.
Paramètres :
- n_samples : nombre de points au total (défaut = 100).
- n_features : nombre de features (de dimensions) (défaut = 2)
- centers : nombre de gaussiennes (défaut = 3). On peut aussi donner une array 2d de dimension nombre de gaussiennes x nombre de features (par exemple : centers = numpy.array([[4, 4], [0, 0], [0, 4], [4, 0]]) spécifie 4 gaussiennes en 2 dimensions).
- cluster_std : la déviation standard des gaussiennes (défaut = 1). On peut aussi donner une liste de valeurs pour avoir une déviation standard différente pour chaque gaussiennes (par exemple cluster_std = [0.1, 0.5, 1, 2] avec l'exemple des 4 gaussiennes ci-dessus).
- random_state : à fixer si on veut avoir des résultats reproductibles.
Copyright python-simple.com
programmer en python, tutoriel python, graphes en python, Aymeric Duclert