Le coefficient de corrélation est une mesure statistique qui quantifie l’intensité et le sens de la relation linéaire entre deux variables quantitatives. Il nous indique à quel point les variables évoluent ensemble.
Définition du coefficient de corrélation linéaire
Le coefficient de corrélation linéaire de Pearson, noté r, varie entre -1 et +1 :
- r = +1 : corrélation positive parfaite
- r = -1 : corrélation négative parfaite
- r = 0 : absence de corrélation linéaire
Calcul du coefficient r 🧮
Formule de Pearson
Le coefficient de corrélation se calcule avec la formule :
\[r = \frac{\sum{(x_i – \bar{x})(y_i – \bar{y})}}{\sqrt{\sum{(x_i – \bar{x})^2} \times \sum{(y_i – \bar{y})^2}}}\]
Cette formule peut sembler complexe, mais elle se décompose en étapes simples.
Exemple détaillé 📋
Reprenons nos données sur les heures d’étude et les notes :
| Heures (x) | Note (y) | x-ẍ | y-ȳ | (x-ẍ)(y-ȳ) | (x-ẍ)² | (y-ȳ)² |
|---|---|---|---|---|---|---|
| 2 | 8 | -4 | -5,6 | 22,4 | 16 | 31,36 |
| 4 | 12 | -2 | -1,6 | 3,2 | 4 | 2,56 |
| 6 | 14 | 0 | 0,4 | 0 | 0 | 0,16 |
| 8 | 16 | 2 | 2,4 | 4,8 | 4 | 5,76 |
| 10 | 18 | 4 | 4,4 | 17,6 | 16 | 19,36 |
| Total | 48 | 40 | 59,2 |
Étape 1 : Calcul de la covariance
\[\text{cov}(x,y) = \frac{\sum{(x_i – \bar{x})(y_i – \bar{y})}}{n} = \frac{48}{5} = 9,6\]
Étape 2 : Calcul des écarts-types
\[\sigma_x = \sqrt{\frac{\sum{(x_i – \bar{x})^2}}{n}} = \sqrt{\frac{40}{5}} = \sqrt{8} \approx 2,83\]
\[\sigma_y = \sqrt{\frac{\sum{(y_i – \bar{y})^2}}{n}} = \sqrt{\frac{59,2}{5}} = \sqrt{11,84} \approx 3,44\]
Étape 3 : Calcul de r
\[r = \frac{\text{cov}(x,y)}{\sigma_x \times \sigma_y} = \frac{9,6}{2,83 \times 3,44} \approx 0,985\]
Nous obtenons un coefficient de corrélation très proche de 1, indiquant une forte corrélation positive.
Interprétation des valeurs de r 🔍
Échelle d’interprétation
- 0,9 ≤ |r| ≤ 1,0 : corrélation très forte
- 0,7 ≤ |r| < 0,9 : corrélation forte
- 0,5 ≤ |r| < 0,7 : corrélation modérée
- 0,3 ≤ |r| < 0,5 : corrélation faible
- 0,0 ≤ |r| < 0,3 : corrélation très faible ou nulle
Signification du signe
Le signe de r indique le sens de la relation :
- r > 0 : les variables varient dans le même sens
- r < 0 : les variables varient en sens opposé
Représentations graphiques selon r 📊
Voici différents nuages de points selon la valeur de r :
\begin{tikzpicture}
\begin{axis}[
width=8cm, height=6cm,
title={r ≈ 1 (forte positive)},
xmin=0, xmax=10, ymin=0, ymax=10
]
\addplot[only marks, blue] coordinates {
(1,1) (2,2) (3,3) (4,4) (5,5)
(6,6) (7,7) (8,8) (9,9)
};
\addplot[domain=0:10, red] {x};
\end{axis}
\end{tikzpicture}
\begin{tikzpicture}
\begin{axis}[
width=8cm, height=6cm,
title={r ≈ -1 (forte négative)},
xmin=0, xmax=10, ymin=0, ymax=10
]
\addplot[only marks, blue] coordinates {
(1,9) (2,8) (3,7) (4,6) (5,5)
(6,4) (7,3) (8,2) (9,1)
};
\addplot[domain=0:10, red] {10-x};
\end{axis}
\end{tikzpicture}
\begin{tikzpicture}
\begin{axis}[
width=8cm, height=6cm,
title={r ≈ 0 (aucune corrélation)},
xmin=0, xmax=10, ymin=0, ymax=10
]
\addplot[only marks, blue] coordinates {
(1,5) (3,8) (5,2) (7,6) (9,4)
(2,7) (4,3) (6,9) (8,1)
};
\end{axis}
\end{tikzpicture}
Corrélation vs causalité ⚠️
Attention aux interprétations abusives !
Une erreur fréquente est de confondre corrélation et causalité :
- Corrélation : les variables varient ensemble
- Causalité : une variable cause la variation de l’autre
Exemple classique 🍦
Il existe une forte corrélation positive entre les ventes de glaces et le nombre de noyades. Cela ne signifie pas que manger des glaces cause des noyades ! Les deux phénomènes sont causés par une troisième variable : la chaleur estivale.
Coefficient de détermination R² 📐
Définition et calcul
Le coefficient de détermination R² est le carré du coefficient de corrélation :
\[R^2 = r^2\]
Dans notre exemple :
\[R^2 = (0,985)^2 \approx 0,97\]
Interprétation de R²
R² représente la proportion de variance de y expliquée par x. Dans notre cas, 97% de la variation des notes est expliquée par le temps d’étude.
C’est un indicateur très utile pour évaluer la qualité d’un modèle de régression.
Applications pratiques 🌍
Domaines d’utilisation
- Recherche médicale : relation entre traitement et guérison
- Finance : corrélation entre actions
- Météorologie : relation température/vent
- Éducation : corrélation présence/réussite
Cas d’étude en psychologie 🧠
Une étude cherche à déterminer s’il existe une corrélation entre le temps passé sur les réseaux sociaux et le niveau de stress.
Données collectées :
- r = 0,72 (corrélation forte positive)
- R² = 0,52 (52% de la variance du stress expliquée)
Interprétation : il existe une relation significative, mais d’autres facteurs influencent aussi le stress.
Limites et précautions 🚨
Points importants à retenir
- La corrélation ne prouve pas la causalité
- Elle mesure seulement les relations linéaires
- Elle est sensible aux valeurs aberrantes
- La taille de l’échantillon influence la significativité
Test de significativité
Pour des échantillons de taille n, on peut tester si r est significativement différent de 0. En général, pour n ≥ 30, un |r| ≥ 0,35 est considéré comme significatif.
Récapitulatif mnémotechnique 🧠
r = +1 : parfaitement aligné ↗️
r = -1 : parfaitement opposé ↘️
r = 0 : pas de relation linéaire ➡️
R² = part expliquée de la variance
Pensez à r comme rapport et R² comme Rendement du modèle !