Mis a jour le 2021-03-28, 20:41

Calcul des agrégats sur les dataframes

Moyenne et écart-type :
Pour calculer les pourcentages d'un dataframe :
Pour calculer la moyenne et l'écart-type sur plusieurs colonnes : df.agg(['mean', 'std']).T : donne une ligne par variable et 2 colonnes : mean et std.
Attention : pandas.DataFrame.std utilise ddof = 1 (donc calcule l'écart-type corrigé), tandis que numpy.std utilise ddof = 0 (donc l'écart-type non corrigé) par défaut !
Pour standardiser un dataframe :
Pour avoir un dataframe avec la moyenne de chaque ligne, mais les mêmes colonnes que le dataframe de départ :
On peut grouper un dataframe par une ou plusieurs colonne. Si df = pandas.DataFrame({'A': ['a', 'b', 'a', 'a', 'b'], 'B': [8, 4, 5, 10, 8], 'C': ['x', 'x', 'y', 'y', 'x'], 'D': [0, 1, 2, 3, 4]}) :
Fonction agg :
filter :
apply : applique une fonction sur chaque groupe. La fonction recoit en argument un dataframe par groupe :

Copyright python-simple.com
programmer en python, tutoriel python, graphes en python, Aymeric Duclert