Mathématique m1378

La droite de régression

Pour nous permettre de faire des prédictions à l'aide du nuage de points, on peut généralement lui associer un modèle mathématique. Pour cette fiche, ce sera la relation linéaire qui sera étudiée. Dans ce contexte particulier, la droite qui indique l'orientation du nuage de points s'appelle droite de régression.

​​La droite de régression est la droite qu’on peut tracer dans le nuage de points qui représente le mieux la distribution à deux caractères étudiée. Il existe plusieurs manières de trouver l’équation de cette droite de régression. Outre l'utilisation des calculatrices graphiques et de certains logiciels, on peut calculer manuellement l'équation de la droite de régression.

​Même si la méthode algébrique est un peu plus complexe, un exemple lui est tout de même associé. Pour ce qui est des deux autres méthodes, le même exemple sera abordé afin que l'on puisse constater que ces calculs ne servent qu'à estimer des valeurs, et non à la prédire avec certitude.

Méthode 1 : La droite médiane-médiane

Comme son nom le dit, la médiane de la distribution aura un rôle clé à jouer dans la démarche.

Suite à une enquête réalisée avec 7 familles, on s'est intéressé au nombre d'inscriptions à différentes activités sportives en fonction du nombre d'enfants par famille.
m1378 - 10.PNG
En sachant qu'une famille est composée de neuf enfants, à combien pourrait-on estimer le nombre d'inscriptions aux différentes activités sportives?

1) Ordonner les coordonnées selon la variable indépendante
Il s'agit donc d'ordonner les couples de la distribution selon leurs abscisses, ici le nombre d'enfants. Ainsi, on obtient la table des valeurs suivantes:
m1378 - 11.PNG

2) Séparer la distribution en trois groupes égaux, si possible
Puisque le nombre de données n'est pas divisible par 3, on va diviser les groupes pou​r faire en sorte que le 1er et le 3e​ groupe aient le même nombre de données.

​Pour cette division, il faut s'assurer que la différence entre le nombre de données dans chacun des groupes soient aussi près que possible les uns des autres. En d'autres mots, il était préférable de diviser selon un modèle 2-3-2 (1 donnée de différence) que 3-1-3 (2 données de différence).

3) Calculer les points médians de chaque groupe
En fait, il suffit de trouver la médiane en x et en y de chacun des groupes afin de former trois points médians soient:
|M_1 = \left(\frac{1+2}{2}, \frac{5+6}{2}\right) = (1,5 ; 5,5) |
|M_2 = \left(4, 6\right)|
|M_3 = \left(\frac{5 + 6}{2}, \frac{8 +9}{2}\right) = (5,5 ; 8,5)|

​​4) Calculer le point moyen |P|
En fait, il s'agit de faire la moyenne des coordonnées en x et en y des points médians. Ainsi, |P = \left(\frac{1,5 +4+5,5}{3}, \frac{5,5 +6+8,5}{3}\right) \approx \left(3,67 ; 6,67\right)|

5) Trouver l'équation de la droite de régression
En d'autres mots, il faut trouver l'équation sous la forme fonctionnelle de la droite qui passe par les points médians.

Pour le taux de variation, on doit utiliser les points |M_1| et |M_3|.
Ainsi, |a = \frac{\Delta y}{\Delta x} = \frac{8,5-5,5}{5,5-1,5}= 0,75|

Pour trouver la valeur initiale, on substitue par le point moyen |P|.
|y = 0,75 x + b|​
|\Rightarrow 6,67 = 0,75 \cdot 3,67 + b|
|\Rightarrow 3,92 \approx b|

Donc, l'équation de la droite de régression est |y = 0,75x + 3,92|

6) Utilisation de l'équation de la droite de régression
Puisqu'on veut estimer le nombre d'inscriptions selon un nombre d'enfants connus (9), on substitue la variable x par 9 et on calcule.
|y = 0,75 x + 3,92|
|\Rightarrow y = 0,75 \cdot 9 + 3,92|
|\Rightarrow y = 10,67|

7) Interpréter la réponse
De par le contexte, on peut estimer à 11 le nombre d'inscriptions à des activités sportives.


**Erratum: À 7min30sec, on devrait lire: les points M1 (45,54) et M3 (92,84). Le calcul est exact mais il y a une erreur dans la première phrase.**

​​Méthode 2 : La droite de Mayer

​​Comparer à la droite médiane-médiane, elle peut paraître un peu plus simple dû au nombre réduit d'étapes à suivre.

​Suite à une enquête réalisée sur 7 familles, on s'est intéressé au nombre d'inscriptions à différentes activités sportives en fonction du nombre d'enfants par famille.
m1378 - 10.PNG
En sachant qu'une famille est composée de neuf enfants, à combien pourrait-on estimer le nombre d'inscriptions aux différentes activités sportives?

1) Ordonner les coordonnées selon la variable indépendante
Pour cette étape, il est très important de ne pas "défaire" les couples initiaux. Ainsi, on obtient la table des valeurs suivantes:
m1378 - 11.PNG

2) Séparer la distribution en deux groupes égaux, si possible
Puisqu'on a un nombre impair de données, un groupe en contiendra 3 et l'autre 4. Dans ce cas, on pourrait séparer la table des valeurs de la façon suivante:
m1378 - 12.PNG
3) Calculer les points moyens de chaque groupe
En d'autres mots, il faut calculer la moyenne des coordonnées en x et en y pour le premier groupe. Par ailleurs, ce point sera noté |P_1 = \left(\overline{x}_1, \overline{y}_1\right)|.
Par la suite, on fera de même avec le deuxième groupe pour obtenir |P_2 = \left(\overline{x}_2, \overline{y}_2\right)|.

|\overline{x}_1 = \frac{1+2+3+4}{4} = 2,5|
|\overline{y}_1 = \frac{5+6+4+6}{4} = 5,25|​
Donc, |P_1 = \left(2,5 ; 5,25 \right)|

|\overline{x}_2 = \frac{5+5+6}{3} \approx 5,33|
|\overline{y}_2 = \frac{7+8+9}{3} = 8|
Ainsi, |P_2 = \left(5,33 ; 8\right)|

4) Trouver l'équation de la droite de régression
Par construction, la droite de régression passe par les points |P_1| et |P_2|. Pour trouver son équation sous la forme fonctionnelle, on obtient:
|a = \frac{\Delta y}{\Delta x} = \frac{8 - 5,25}{5,33 - 2,5} \approx 0,97|
Ainsi, |y = ax + b \Rightarrow y = 0,97x + b|.
Pour trouver la valeur initiale, on procède par substitution:
|y = 0,97x + b |
|\Rightarrow 8 = 0,97 \cdot 5,33 + b|
|\Rightarrow 2,83 = b|
Ainsi, l'équation de la droite de régression est |y = 0,97x + 2,83|

5) Utilisation de l'équation de la droite de régression
Dans le cas présent, on connait le nombre d'enfants (9), mais on veut déterminer le nombre d'inscriptions. Pour ce faire, on procède par substitution.
|y = 0,97x + 2,83|
|\Rightarrow y = 0,97 \left(9\right) + 2,83|
|\Rightarrow y = 11,56|
De par le contexte, on peut estimer à 12 le nombre d'inscriptions à des activités sportives.
Finalement, il ne faut pas oublier que ces méthodes permettent d'estimer le résultat recherché. Par contre, ce résultat n'est pas fiable à 100%.

Méthode 3 : La méthode algébrique

​Concernant cette méthode, il devient assez complexe de comprendre et d'appliquer la formule.

 

Voici ce qu'on obtiendrait avec l'exemple utilisé précédemment.

Suite à une enquête réalisée avec 7 familles, on s'est intéressé au nombre d'inscriptions à différentes activités sportives en fonction du nombre d'enfants par famille.
m1378 - 10.PNG
Afin de faciliter le calcul des formules ci-dessus servant à déterminer l'équation de la droite de régression, il est utile de modifier le tableau ci-dessus.

​Famille
Nb d'enfants |(x)|​​Nb d'inscriptions |(y)|
​|xy|
​|x^2|
​A
|​2|
​|6|
​|12|
​|4|
​B
​|6|
​|9|
​|54|
​|36|
​C
​|5|
​|7|
​|35|
​|25|
​D
​|4|
​|6|
​|24|
​|16|
​E
​|1|
​|5|
​|5|
​|1|
​F
​|5|
​|8|
​|40|
​|25|
​G
​|3|
​|4|
​|12|
​|9|
​Sommes
​|26|
​|45|
​|182|
​|116|
​Moyennes
​|\approx 3,71|
​|\approx 6,43|


Il ne nous reste qu'à intégrer ces nombres dans les formules décrites ci-haut pour trouver le taux de variation et l'ordonnée à l'origine de la droite de régression.

Pour le taux de variation: 
|\begin{align}
a &=\displaystyle \frac{n\cdot(\sum xy) - (\sum x)\cdot(\sum y)}{n\cdot(\sum x^2) - (\sum x)^2}\\
&=\displaystyle \frac{7\cdot (182) - (26)\cdot(45)}{7\cdot (116) - (26)^2}\\
&\approx 0,76
\end{align}|

Pour l'ordonnée à l'origine: 
|\begin{align}
b &= \overline{y} - a\cdot\overline{x}\\
&=6,43 - 0,76\cdot3,71\\
&\approx 3,6104
\end{align}|

L'équation de la droite de régression serait: 
|y = 0,76x + 3,61|

Voici un autre exemple d'application des formules.

Les points, dans le graphique cartésien ci-dessous, représentent les coordonnées de nouvelles maisons dans un nouveau développement immobilier. L’entrepreneur du développement veut faire passer un réseau de fibres optiques sous terre le plus près possible de toutes ces maisons. Trouve l’équation linéaire qui représentera la position de la fibre optique souterraine que devrait construire l’entrepreneur de ce nouveau développement.





Pour nous aider à utiliser les formules décrites ci-haut, il serait plus facile de compléter le tableau ci-dessous auparavant.



Il ne nous reste qu’à insérer ces nombres dans les formules décrites ci-haut pour trouver le taux de variation et l’ordonnée à l’origine de notre droite de régression.

Pour le taux de variation



Pour l'ordonnée à l'origine



Il est donc raisonnable de dire que l'équation de notre droite de régression est :



En respectant cette équation, le câble de fibre optique sera le plus près possible de chacune des maisons.

Les vidéos
Les exercices
Les références