Terminons notre parcours avec les statistiques descriptives! 📈 Cette leçon va t’apprendre à organiser, représenter et analyser des données.
📊 Séries statistiques
Une série statistique est un ensemble de données regroupées selon un caractère étudié.
Exemple : Notes sur 20 d’une classe de 15 élèves : 12, 14, 8, 16, 11, 13, 15, 9, 17, 10, 14, 12, 15, 13, 16
🎯 Caractéristiques de position
Moyenne : La somme des valeurs divisée par l’effectif total
\[ \bar{x} = \frac{x_1 + x_2 + … + x_n}{n} \]
Médiane : La valeur qui partage la série en deux groupes de même effectif
Mode : La valeur qui apparaît le plus fréquemment
Exemple : Avec nos notes triées : 8, 9, 10, 11, 12, 12, 13, 13, 14, 14, 15, 15, 16, 16, 17
- Moyenne : (8+9+10+11+12+12+13+13+14+14+15+15+16+16+17)/15 = 13,2
- Médiane : 13 (8ème valeur)
- Mode : 12, 13, 14, 15, 16 (chacun apparaît 2 fois)
📐 Caractéristiques de dispersion
Étendue : Différence entre la plus grande et la plus petite valeur
\[ E = x_{max} – x_{min} \]
Variance : Moyenne des carrés des écarts à la moyenne
\[ V = \frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})^2 \]
Écart-type : Racine carrée de la variance
\[ \sigma = \sqrt{V} \]
Exemple : Avec nos notes :
- Étendue : 17 – 8 = 9
- Variance : ≈ 6,16
- Écart-type : ≈ 2,48
📊 Représentations graphiques
Diagramme en bâtons : Pour les caractères discrets
Histogramme : Pour les caractères continus regroupés en classes
Diagramme circulaire (camembert) : Pour représenter des proportions
Voici un histogramme de nos notes :
\begin{tikzpicture}[scale=0.7]
\begin{axis}[
ybar,
ymin=0,
xlabel={Notes},
ylabel={Effectif},
symbolic x coords={8-10,11-13,14-16,17-20},
xtick=data
]
\addplot coordinates {(8-10,3) (11-13,5) (14-16,6) (17-20,1)};
\end{axis}
\end{tikzpicture}
🔗 Corrélation linéaire
La corrélation mesure la relation linéaire entre deux variables quantitatives.
Covariance :
\[ Cov(X,Y) = \frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})(y_i – \bar{y}) \]
Coefficient de corrélation linéaire (r de Pearson) :
\[ r = \frac{Cov(X,Y)}{\sigma_X \sigma_Y} \]
Ce coefficient est toujours compris entre -1 et 1 :
- r ≈ 1 : forte corrélation positive
- r ≈ -1 : forte corrélation négative
- r ≈ 0 : pas de corrélation linéaire
Exemple : Relation entre le temps de révision et la note obtenue
Voici un nuage de points montrant une corrélation positive :
\begin{tikzpicture}[scale=0.7]
\begin{axis}[
xlabel={Temps de révision (h)},
ylabel={Note sur 20},
xmin=0,
xmax=10,
ymin=0,
ymax=20,
grid=both
]
\addplot[only marks, mark=*, blue] coordinates {(1,5) (2,8) (3,10) (4,12) (5,13) (6,15) (7,16) (8,17) (9,18)};
\addplot[thick, red, domain=0:10] {1.5*x + 4};
\end{axis}
\end{tikzpicture}
📋 Tableau récapitulatif des représentations
- Diagramme en bâtons : Données discrètes
- Histogramme : Données continues
- Camembert : Pourcentages
- Nuage de points : Relation entre deux variables
💡 Conseil d’interprétation
« Corrélation n’est pas causalité ! » Une corrélation entre deux variables ne signifie pas nécessairement que l’une cause l’autre.