La droite de Mayer

Fiche | Mathématiques

La méthode de la droite de Mayer est une méthode permettant de tracer une droite de régression pour un nuage de points donné en calculant des moyennes. Cette droite peut être utilisée pour interpoler ou extrapoler des valeurs, c’est-à-dire pour faire des prédictions.

Voici les étapes à suivre pour trouver la règle de la droite de Mayer et pour faire des prédictions à partir d’un ensemble de données à 2 caractères.

Règle
  1. Ordonner les coordonnées selon la variable indépendante.

  2. Séparer la distribution en 2 groupes égaux, si possible.

  3. Calculer les points moyens de chaque groupe |(P_1| et |P_2).|

  4. Trouver la règle de la droite de régression passant par les points |P_1| et |P_2.|

  5. Prédire des valeurs à l’aide de la règle de la droite.

Exemple

À la suite d’une enquête réalisée auprès de |16| familles québécoises, on s'est intéressé aux dépenses totales liées aux sports et aux loisirs en fonction de leur revenu familial.

La table de valeurs ci-dessous présente les données recueillies. Ces données ont ensuite été placées dans un plan cartésien pour former un nuage de points.

Les dépenses liées aux sports et aux loisirs en fonction du revenu familial
Revenu familial
($/année)
|125\ 000| |65\ 000| |35\ 000| |145\ 000| |130\ 000| |80\ 000| |50\ 000| |40\ 000|
Dépenses liées aux sports et aux loisirs
($/année)
|10\ 000| |8\ 000| |1\ 000| |9\ 000| |8\ 000| |6\ 000| |4\ 000| |2\ 000|
Revenu familial
($/année)
|90\ 000| |20\ 000| |75\ 000| |105\ 000| |100\ 000| |140\ 000| |150\ 000| |65\ 000|
Dépenses liées aux sports et aux loisirs
($/année)
|10\ 000| |500| |4\ 000| |6\ 000| |8\ 000| |13\ 000| |5\ 000| |5\ 000|
 Nuage de points représentant une corrélation positive.

a) Une famille a un revenu familial annuel de |250\ 000\ \$.| Si cette famille suit la même tendance que les autres familles québécoises interrogées, à quel montant son budget consacré aux sports et aux loisirs s'élève-t-il?

b) Une famille dépense en moyenne |7\ 500\ \$| par année pour les sports et les loisirs. À combien son revenu familial annuel s’élève-t-il si elle suit les habitudes d’une famille québécoise typique?


  1. Ordonner les coordonnées selon la variable indépendante

Les dépenses liées aux sports et aux loisirs en fonction du revenu familial
Revenu familial
($/année)
|20\ 000| |35\ 000| |40\ 000| |50\ 000| |65\ 000| |65\ 000| |75\ 000| |80\ 000|
Dépenses liées aux sports et aux loisirs
($/année)
|500| |1\ 000| |2\ 000| |4\ 000| |5\ 000| |8\ 000| |4\ 000| |6\ 000|
Revenu familial
($/année)
|90\ 000| |100\ 000| |105\ 000| |125\ 000| |130\ 000| |140\ 000| |145\ 000| |150\ 000|
Dépenses liées aux sports et aux loisirs
($/année)
|10\ 000| |8\ 000| |6\ 000| |10\ 000| |8\ 000| |13\ 000| |9\ 000| |5\ 000|
  1. Séparer la distribution en 2 groupes égaux

La distribution comprend |16| couples de données. Les |8| couples dont le revenu familial va de |20\ 000| à |80\ 000\ \$| par année constituent le 1er groupe. Les |8| autres couples forment le 2e groupe.

  1. Calculer les points moyens de chaque groupe |\boldsymbol{(P_1}| et |\boldsymbol{P_2)}|

Il suffit de trouver la moyenne en |x| et en |y| de chacun des groupes afin de former 2 points.

  Moyenne des abscisses |\boldsymbol{(\overline{x})}| Moyenne des ordonnées |\boldsymbol{(\overline{y})}| Point moyen
1er groupe |\begin{align}\overline{x}_1 &= \dfrac{\left(\begin{gathered}20\ 000+35\ 000+40\ 000+50\ 000\\+\,65\ 000+65\ 000+75\ 000+80\ 000\end{gathered}\right)}{8} \\ &= \dfrac{430\ 000}{8} \\ &=53\ 750 \end{align}| |\begin{align}\overline{y}_1 &= \dfrac{\left(\begin{gathered}500+1\ 000+2\ 000+4\ 000\\+\,5\ 000+8\ 000+4\ 000+6\ 000\end{gathered}\right)}{8} \\ &= \dfrac{30\ 500}{8} \\ &=3\ 812{,}5 \end{align}| |P_1(53\ 750; 3\ 812{,}5)|
2e groupe |\begin{align}\overline{x}_2 &= \dfrac{\left(\begin{gathered}90\ 000+100\ 000+105\ 000+125\ 000\\+\,130\ 000+140\ 000+145\ 000+150\ 000\end{gathered}\right)}{8} \\ &= \dfrac{985\ 000}{8} \\ &=123\ 125 \end{align}| |\begin{align}\overline{y}_2 &= \dfrac{\left(\begin{gathered}10\ 000+8\ 000+6\ 000+10\ 000\\+\,8\ 000+13\ 000+9\ 000+5\ 000\end{gathered}\right)}{8} \\ &= \dfrac{69\ 000}{8} \\ &=8\ 625 \end{align}| |P_2(123\ 125; 8\ 625)|
  1. Trouver la règle de la droite de régression passant par les points |\boldsymbol{P_1}| et |\boldsymbol{P_2}|

Comme il s’agit d’une droite, la règle est de la forme |y=ax+b.| On commence par calculer la pente |(a).| ||\begin{align}a&=\dfrac{\overline{y}_2-\overline{y}_1}{\overline{x}_2-\overline{x}_1}\\&=\dfrac{8\ 625-3\ 812{,}5}{123\ 125-53\ 750}\\&\approx 0{,}07\end{align}||Ensuite, on remplace |a| par |0{,}07| et les variables |x| et |y| par les coordonnées d’un des 2 points, puis on isole |b.| ||\begin{align} y &= ax+b \\ y &= 0{,}07x+b \\ 8\ 625 &= 0{,}07(123\ 125)+b \\ 8\ 625 &\approx 8\ 619+b \\ 6 &\approx b \end{align}||Ainsi, la règle de la droite de Mayer est |y=0{,}07x+6,| où |x| est le revenu familial et |y,| le budget consacré aux sports et aux loisirs, tous les 2 en |\$| par année. On peut tracer cette droite dans le graphique.

Nuage de points représentant une corrélation positive avec une droite de régression.
  1. Prédire des valeurs à l’aide de la règle de la droite

a) Une famille a un revenu familial annuel de |\boldsymbol{250\ 000\ \$.}| Si cette famille suit la même tendance que les autres familles québécoises interrogées, à quel montant son budget consacré aux sports et aux loisirs s'élève-t-il?

On peut faire une estimation des dépenses de cette famille en sports et en loisirs à l’aide de la droite de régression. Il s’agit d’une extrapolation, car le revenu familial en question |(250\ 000\ \$)| est en dehors de l’intervalle étudié |(20\ 000| à |150\ 000\ \$).| 

On remplace la variable |x| par |250\ 000| dans la règle de la droite de régression et on complète le calcul. ||\begin{align}y&=0{,}07x+6\\y&=0{,}07(250\ 000)+6\\y&=17\ 500+6\\y&=17\ 506\ \$ \end{align}||Réponse : Si une famille ayant un revenu annuel de |250\ 000\ \$| suit la même tendance que les autres familles québécoises interrogées, elle devrait consacrer environ |17\ 506\ \$| aux sports et aux loisirs.
 

b) Une famille dépense en moyenne |\boldsymbol{7\ 500\ \$}| par année pour les sports et les loisirs. À combien son revenu familial annuel s’élève-t-il si elle suit les habitudes d’une famille québécoise typique?

On peut estimer le revenu annuel de cette famille à l’aide de la droite de régression. Il s’agit d’une interpolation, car le budget annuel consacré aux loisirs et aux sports |(7\ 500\ \$)| est à l’intérieur de l’intervalle étudié |(500| à |13\ 000\ \$).|

On remplace |y| par |7\ 500| et on isole |x.| ||\begin{align} y &= 0{,}07x+6 \\ 7\ 500 &= 0{,}07x+6 \\ 7\ 500\boldsymbol{\color{#ec0000}{-6}} &= 0{,}07x+6 \boldsymbol{\color{#ec0000}{-6}} \\ \dfrac{7\ 494}{\boldsymbol{\color{#ec0000}{0{,}07}}} &= \dfrac{0{,}07x}{\boldsymbol{\color{#ec0000}{0{,}07}}} \\ 107\ 057\ \$ &\approx x \end{align}||Réponse : Si une famille dépense en moyenne |7\ 500\ \$| par année pour les sports et les loisirs, on peut s’attendre à ce que son revenu familial annuel soit d’environ |107\ 057\ \$.|
 

Remarque : Le même problème a été résolu dans les fiches portant sur la droite de régression et sur la droite médiane-médiane. Chaque fois, on obtient des résultats comparables.

Astuces

Lorsqu’il faut ordonner les points

  • On ordonne les points selon leur abscisse. Il ne faut pas ordonner les abscisses et les ordonnées séparément.

  • Si 2 points ont le même abscisse, mais des ordonnées différentes, alors celui avec la plus petite ordonnée est placé en premier.

Exemple :

Voici une table de valeurs.

|x| |13| |12| |13| |13| |10| |12|
|y| |35| |24| |35| |28| |25| |29|

On obtient la table suivante.

|x| |10| |12| |12| |13| |13| |13|
|y| |25| |24| |29| |28| |35| |35|

On n’obtient pas celle-ci.

|x| |10| |12| |12| |13| |13| |13|
|y| |24| |25| |28| |29| |35| |35|

Lorsqu’il faut séparer les points en 2 groupes

  • Si le nombre de points se divise par 2, les groupes sont égaux.
    Par exemple, 16 = 8 + 8.

  • Si le nombre de points ne se divise pas par 2, on peut choisir d’ignorer le couple du milieu ou de l’inclure dans un des 2 groupes, au choix.
    Par exemple, 29 = 15 + 14 ou  14 + 15 ou 14 + 14 + une donnée qu’on laisse de côté.

La comparaison des méthodes : Mayer vs médiane-médiane

La méthode de la droite de Mayer est généralement plus rapide à effectuer que celle de la droite médiane-médiane, mais il ne s’agit pas toujours de la meilleure méthode. Voici un exemple où on présente les 2 démarches en parallèle dans le but de les comparer.

Exemple

Lors d’une saison de hockey, les points marqués par tous les joueurs sont comptabilisés. Les points d’un joueur comprennent les passes décisives (assist en anglais) et les buts. Au hockey, on compte jusqu’à 2 passes décisives par but marqué, soit les 2 dernières passes effectuées juste avant le but.

Voici le nombre de passes décisives et de points de 10 attaquants réguliers des Bruins de Boston lors de la saison 2022-2023 de la LNH.

Joueur Nombre de passes Nombre de points
D. Pastrnak ||49|| ||109||
B. Marchand ||46|| ||66||
P. Zacha ||37|| ||58||
P. Bergeron ||30|| ||57||
D. Krejci ||40|| ||56||
J. DeBrusk ||23|| ||48||
C. Coyle ||29|| ||44||
T. Hall ||20|| ||36||
T. Frederic ||14|| ||30||
N. Foligno ||16|| ||28||

Si on se fie aux données de cette équipe, un joueur qui aurait fait |60| passes décisives aurait dû terminer la saison avec combien de points?

Voir la solution

Attention!

La méthode de Mayer se base sur le calcul de la moyenne. Or, la moyenne est une mesure de tendance centrale qui est très influencée par les données éloignées, aussi appelées données aberrantes. Au contraire, la méthode médiane-médiane n’est pas influencée par les données aberrantes.

Autrement dit, lorsqu’il y a une ou des données éloignées dans une distribution, les prédictions faites à l’aide de la droite de Mayer sont moins fiables, c’est-à-dire moins représentatives de l’ensemble des données que celles effectuées à l’aide de la droite médiane-médiane. C’est donc cette dernière méthode qu’il faut privilégier dans de telles situations.

En revenant sur l’exemple des points marqués par les joueurs des Bruins de Boston, on pourra déterminer quelle réponse est la plus fiable entre celle obtenue à l’aide de la droite de Mayer et celle obtenue à l’aide de la droite médiane-médiane.

On commence par tracer le nuage de points et les 2 droites dans le même graphique.

La droite de Mayer et la droite médiane-médiane passent au travers d’un nuage de points qui a une donnée éloignée.

D’abord, on remarque que la pente des 2 droites est assez différente. Pour la droite médiane-médiane, le taux de variation est de |1{,}2,| alors que la droite de Mayer a une pente de |1{,}6.|

On remarque aussi que le point |(49,109),| qui représente les données de David Pastrnak, est éloigné des autres. Ce joueur a accumulé beaucoup plus de points au total par rapport à son nombre de passes décisives que le reste de son équipe |\left(\dfrac{109}{49} \approx 2{,}22\right).|

Les données de Pastrnak ont eu une influence sur la méthode de Mayer, car elles ont été incluses dans les calculs des points moyens. Cela a eu pour effet d’augmenter la valeur de la pente de la droite de Mayer par rapport à l’autre méthode. En effet, le point |(49,109),| même s’il est élevé, n’influence pas les points médians. C’est pourquoi la droite médiane-médiane est moins inclinée et s’ajuste mieux à l’ensemble des données, ce qu’on peut observer sur le graphique. Au contraire, la droite de Mayer est plus inclinée pour se rapprocher du point |(49,109).| Elle est donc moins ajustée au reste du nuage de points.

Conclusion : On considère donc que les prédictions faites à partir de la droite médiane-médiane sont plus représentatives de l’ensemble des joueurs. Ainsi, un joueur qui fait |60| passes décisives dans une saison devrait obtenir environ |85| points et non |101.|