Statistiques et traitement des données

Bienvenue dans cette dernière leçon où nous allons explorer les relations entre deux variables ! 🔗 Cette compétence est cruciale pour comprendre les liens qui peuvent exister entre différents phénomènes.

🔗 Introduction aux séries doubles

Jusqu’à présent, nous avons étudié une seule variable à la fois. Maintenant, nous allons examiner deux variables simultanément pour voir si elles sont liées.

Exemples de situations réelles :

  • Le lien entre le budget publicitaire et les ventes
  • La relation entre le temps d’étude et les notes
  • La corrélation entre température et consommation d’énergie

📊 Le nuage de points

C’est la représentation graphique fondamentale pour deux variables quantitatives. Chaque point représente un individu avec ses deux caractéristiques.

Prenons l’exemple d’une étude sur le lien entre le temps de révision et la note à un examen :

Élève Temps (h) Note/20
A 2 8
B 5 12
C 8 14
D 10 16
E 12 17
F 15 19

Rendered by QuickLaTeX.com

📈 Le point moyen

Le point moyen G a pour coordonnées les moyennes des deux variables :

G(\bar{x}, \bar{y})

Dans notre exemple :

\bar{x} = \frac{2+5+8+10+12+15}{6} = 8,67

\bar{y} = \frac{8+12+14+16+17+19}{6} = 14,33

Ajoutons ce point sur notre graphique :

Rendered by QuickLaTeX.com

📏 La covariance

La covariance mesure la façon dont deux variables varient ensemble :

\text{Cov}(x,y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})

Calculons-la pour notre exemple :

xi yi xi-¯x yi-¯y Produit
2 8 -6,67 -6,33 42,22
5 12 -3,67 -2,33 8,55
8 14 -0,67 -0,33 0,22
10 16 1,33 1,67 2,22
12 17 3,33 2,67 8,89
15 19 6,33 4,67 29,56
Somme 91,66

\text{Cov}(x,y) = \frac{91,66}{6} = 15,28

📊 Le coefficient de corrélation

Plus utile que la covariance, le coefficient de corrélation de Pearson est standardisé entre -1 et 1 :

r = \frac{\text{Cov}(x,y)}{\sigma_x \sigma_y}

Calculons d’abord les écarts-types :

\sigma_x = 4,32

\sigma_y = 3,72

Maintenant le coefficient :

r = \frac{15,28}{4,32 \times 3,72} = \frac{15,28}{16,07} = 0,95

Une valeur de 0,95 indique une corrélation positive très forte !

📐 La droite d’ajustement

Quand les points sont alignés, on peut tracer une droite d’ajustement. Son équation est :

y = ax + b

Avec :

a = \frac{\text{Cov}(x,y)}{V(x)}

b = \bar{y} - a\bar{x}

Dans notre exemple :

a = \frac{15,28}{18,67} = 0,82

b = 14,33 - 0,82 \times 8,67 = 7,22

Donc : y = 0,82x + 7,22

Représentation graphique complète :

Rendered by QuickLaTeX.com

🎯 Interprétation et prédiction

Avec notre droite, on peut faire des prédictions ! Par exemple, pour 7 heures de révision :

y = 0,82 \times 7 + 7,22 = 12,96

On peut prédire une note d’environ 13/20.

Attention : Cette prédiction n’est valable que dans la plage de nos données observées.

⚠️ Les pièges à éviter

  • Corrélation n’est pas causalité : Deux variables peuvent être corrélées sans qu’il y ait de lien de cause à effet
  • Attention aux valeurs extrêmes : Un point aberrant peut fausser complètement l’analyse
  • Vérifier la linéarité : La droite d’ajustement n’est valable que si les points sont alignés

💡 Astuce mnémotechnique

Pour interpréter le coefficient de corrélation :

  • 0,8 à 1 : Corrélation forte
  • 0,5 à 0,8 : Corrélation modérée
  • 0 à 0,5 : Corrélation faible
  • Négatif : Les variables varient en sens inverse

Félicitations ! 🎉 Tu maîtrises maintenant les concepts fondamentaux des statistiques à deux variables. Tu peux organiser, analyser et interpréter des données comme un véritable expert !