Mathématiques

Terminons notre parcours avec les statistiques descriptives! 📈 Cette leçon va t’apprendre à organiser, représenter et analyser des données.

📊 Séries statistiques

Une série statistique est un ensemble de données regroupées selon un caractère étudié.

Exemple : Notes sur 20 d’une classe de 15 élèves : 12, 14, 8, 16, 11, 13, 15, 9, 17, 10, 14, 12, 15, 13, 16

🎯 Caractéristiques de position

Moyenne : La somme des valeurs divisée par l’effectif total

\[ \bar{x} = \frac{x_1 + x_2 + … + x_n}{n} \]

Médiane : La valeur qui partage la série en deux groupes de même effectif

Mode : La valeur qui apparaît le plus fréquemment

Exemple : Avec nos notes triées : 8, 9, 10, 11, 12, 12, 13, 13, 14, 14, 15, 15, 16, 16, 17

  • Moyenne : (8+9+10+11+12+12+13+13+14+14+15+15+16+16+17)/15 = 13,2
  • Médiane : 13 (8ème valeur)
  • Mode : 12, 13, 14, 15, 16 (chacun apparaît 2 fois)

📐 Caractéristiques de dispersion

Étendue : Différence entre la plus grande et la plus petite valeur

\[ E = x_{max} – x_{min} \]

Variance : Moyenne des carrés des écarts à la moyenne

\[ V = \frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})^2 \]

Écart-type : Racine carrée de la variance

\[ \sigma = \sqrt{V} \]

Exemple : Avec nos notes :

  • Étendue : 17 – 8 = 9
  • Variance : ≈ 6,16
  • Écart-type : ≈ 2,48

📊 Représentations graphiques

Diagramme en bâtons : Pour les caractères discrets

Histogramme : Pour les caractères continus regroupés en classes

Diagramme circulaire (camembert) : Pour représenter des proportions

Voici un histogramme de nos notes :

\begin{tikzpicture}[scale=0.7]
\begin{axis}[
ybar,
ymin=0,
xlabel={Notes},
ylabel={Effectif},
symbolic x coords={8-10,11-13,14-16,17-20},
xtick=data
]
\addplot coordinates {(8-10,3) (11-13,5) (14-16,6) (17-20,1)};
\end{axis}
\end{tikzpicture}

🔗 Corrélation linéaire

La corrélation mesure la relation linéaire entre deux variables quantitatives.

Covariance :

\[ Cov(X,Y) = \frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})(y_i – \bar{y}) \]

Coefficient de corrélation linéaire (r de Pearson) :

\[ r = \frac{Cov(X,Y)}{\sigma_X \sigma_Y} \]

Ce coefficient est toujours compris entre -1 et 1 :

  • r ≈ 1 : forte corrélation positive
  • r ≈ -1 : forte corrélation négative
  • r ≈ 0 : pas de corrélation linéaire

Exemple : Relation entre le temps de révision et la note obtenue

Voici un nuage de points montrant une corrélation positive :

 \begin{tikzpicture}[scale=0.7]
\begin{axis}[
xlabel={Temps de révision (h)},
ylabel={Note sur 20},
xmin=0,
xmax=10,
ymin=0,
ymax=20,
grid=both
]
\addplot[only marks, mark=*, blue] coordinates {(1,5) (2,8) (3,10) (4,12) (5,13) (6,15) (7,16) (8,17) (9,18)};
\addplot[thick, red, domain=0:10] {1.5*x + 4};
\end{axis}
\end{tikzpicture} 

📋 Tableau récapitulatif des représentations

  • Diagramme en bâtons : Données discrètes
  • Histogramme : Données continues
  • Camembert : Pourcentages
  • Nuage de points : Relation entre deux variables

💡 Conseil d’interprétation

« Corrélation n’est pas causalité ! » Une corrélation entre deux variables ne signifie pas nécessairement que l’une cause l’autre.