Mis a jour le 2025-04-14, 12:10

Datasets

Il y a des datasets exemples que l'on peut charger :
from sklearn import datasets
iris = datasets.load_iris()
  
  • les objets sont de la classe sklearn.utils.Bunch, et ont les champs accessibles comme avec un dictionnaire ou un namedtuple (iris['target_names'] ou iris.target_names).
  • iris.target : les valeurs de la variable à prédire (sous forme d'array numpy de 0 à n - 1)
  • iris.target_names : les labels associés aux valeurs n valeurs de la variable à prédire (si variable nominative)
  • iris.data : les valeurs des variables prédictives (sous forme d'array numpy 2d).
  • iris.feature_names : les noms des variables prédictives.
  • print(iris.DESCR) : pour imprimer la description du dataset.
  • iris['target_names'] : une autre façon d'accéder à iris.target_names (valable pour les autres propriétés).
  • les données sont stockées dans le champ data comme array numpy 2d : iris.data. Les individus sont en ligne et les variables en colonnes.
  • s'il y a une variable réponse, elle est stockée dans le champ target : iris.target
  • pour voir les champs disponibles, on peut faire print(iris.keys())
Autres datasets :
  • load_breast_cancer() : pour de la classification à 2 classes.
  • load_diabetes() : pour de la régression.
  • load_digits() : pour de la classification à 10 classes (il y a un champ images ici, car c'est pour classer des images de chiffres).
  • load_wine() : pour de la classification à 3 classes.
  • fetch_california_housing() : pour de la régression (prédiction des valeurs des maisons avec des variables quantitatives).
(data, classes) = datasets.make_blobs() permet de créer un nuage des points selon des distributions gaussiennes isotropes (avec autant de point par gaussienne). Renvoie un tuple avec 2 valeurs :
  • l'array 2d des features.
  • 'array 1d des classes.
Paramètres :
  • n_samples : nombre de points au total (défaut = 100).
  • n_features : nombre de features (de dimensions) (défaut = 2)
  • centers : nombre de gaussiennes (défaut = 3). On peut aussi donner une array 2d de dimension nombre de gaussiennes x nombre de features (par exemple : centers = numpy.array([[4, 4], [0, 0], [0, 4], [4, 0]]) spécifie 4 gaussiennes en 2 dimensions).
  • cluster_std : la déviation standard des gaussiennes (défaut = 1). On peut aussi donner une liste de valeurs pour avoir une déviation standard différente pour chaque gaussiennes (par exemple cluster_std = [0.1, 0.5, 1, 2] avec l'exemple des 4 gaussiennes ci-dessus).
  • random_state : à fixer si on veut avoir des résultats reproductibles.

Copyright python-simple.com
programmer en python, tutoriel python, graphes en python, Aymeric Duclert