Mis a jour le 2024-10-20, 20:16

Calcul des agrégats sur les dataframes

Moyenne et écart-type :
Pour calculer les pourcentages d'un dataframe :
Pour standardiser un dataframe :
Pour calculer la moyenne et l'écart-type sur plusieurs colonnes : df.agg(['mean', 'std']).T : donne une ligne par variable et 2 colonnes : mean et std.
Pour avoir un dataframe avec la moyenne de chaque ligne, mais les mêmes colonnes que le dataframe de départ :
On peut grouper un dataframe par une ou plusieurs colonne. Si df = pandas.DataFrame({'A': ['a', 'b', 'a', 'a', 'b'], 'B': [8, 4, 5, 10, 8], 'C': ['x', 'x', 'y', 'y', 'x'], 'D': [0, 1, 2, 3, 4]}) :
Fonction agg :
Aggrégation selon les valeurs de l'index :
df.groupby(df.index.names).agg(total = ('nbr', sum)) : aggrégation par même valeur de l'index, puis somme de la colonne nbr pour créer une colonne total (on peut aussi faire simplement df.groupby(df.index).agg(sum) pour faire la somme par valeur d'index.
apply : applique une fonction sur chaque groupe. La fonction recoit en argument un dataframe par groupe et renvoie un dataframe, et tous les dataframes sont assemblés par apply pour donner le résultat :
transform : applique une fonction sur chaque groupe et renvoie un dataframe de même dimension que le dataframe original :
transform : très utile pour par exemple calculer le pourcentage de chaque ligne par groupe :
filter :
crosstab :

Copyright python-simple.com
programmer en python, tutoriel python, graphes en python, Aymeric Duclert