Datasets

Il y a des datasets exemples que l'on peut charger :

from sklearn import datasets
iris = datasets.load_iris()

les objets sont de la classe sklearn.utils.Bunch, et ont les champs accessibles comme avec un dictionnaire ou un namedtuple (iris['target_names'] ou iris.target_names).
iris.target : les valeurs de la variable à prédire (sous forme d'array numpy de 0 à n - 1)
iris.target_names : les labels associés aux valeurs n valeurs de la variable à prédire (si variable nominative)
iris.data : les valeurs des variables prédictives (sous forme d'array numpy 2d).
iris.feature_names : les noms des variables prédictives.
print(iris.DESCR) : pour imprimer la description du dataset.
iris['target_names'] : une autre façon d'accéder à iris.target_names (valable pour les autres propriétés).
les données sont stockées dans le champ data comme array numpy 2d : iris.data. Les individus sont en ligne et les variables en colonnes.
s'il y a une variable réponse, elle est stockée dans le champ target : iris.target
pour voir les champs disponibles, on peut faire print(iris.keys())

Autres datasets :

load_breast_cancer() : pour de la classification à 2 classes.
load_diabetes() : pour de la régression.
load_digits() : pour de la classification à 10 classes (il y a un champ images ici, car c'est pour classer des images de chiffres).
load_wine() : pour de la classification à 3 classes.
fetch_california_housing() : pour de la régression (prédiction des valeurs des maisons avec des variables quantitatives).

(data, classes) = datasets.make_blobs() permet de créer un nuage des points selon des distributions gaussiennes isotropes (avec autant de point par gaussienne). Renvoie un tuple avec 2 valeurs :

l'array 2d des features.
'array 1d des classes.

Paramètres :

n_samples : nombre de points au total (défaut = 100).
n_features : nombre de features (de dimensions) (défaut = 2)
centers : nombre de gaussiennes (défaut = 3). On peut aussi donner une array 2d de dimension nombre de gaussiennes x nombre de features (par exemple : centers = numpy.array([[4, 4], [0, 0], [0, 4], [4, 0]]) spécifie 4 gaussiennes en 2 dimensions).
cluster_std : la déviation standard des gaussiennes (défaut = 1). On peut aussi donner une liste de valeurs pour avoir une déviation standard différente pour chaque gaussiennes (par exemple cluster_std = [0.1, 0.5, 1, 2] avec l'exemple des 4 gaussiennes ci-dessus).
random_state : à fixer si on veut avoir des résultats reproductibles.

programmer en python, tutoriel python, graphes en python, Aymeric Duclert