Mathématique m1369

Les quartiles

Pour avoir une meilleure idée de la répartition des données d'une distribution, on peut la diviser en sous-groupes nommés quartiles. Ainsi, les concepts en lien avec les quartiles sont: ​​

Calcul des quartiles​

Les quartiles sont trois valeurs qui séparent un ensemble de données placées en ordre croissant en quatre sous-ensembles comprenant exactement le même nombre de données.

Le premier quartile, noté |Q_1|, sépare le premier quart des données du reste des données. 

Le deuxième quartile, noté |Q_2|, sépare la distribution en deux parties égales. En d'autres mots, il s'agit de la médiane.

Le troisième quartile, noté |Q_3|, sépare les trois premiers quarts des données du reste des données.

En d'autres mots, on peut associer un pourcentage à chacun des quartiles. Pour le premier, 25% des données lui sont inférieures. Pour le second, 50% des données lui sont inférieures. Finalement, 75% des données sont inférieures au troisième quartile. 

Le quartile est une valeur qui ne fait généralement pas partie de la distribution étudiée. 

Par contre, chacun des quatre sous-ensembles formés par les quartiles s’appelle quart.

Maintenant que cette distinction est faite, voyons comment on peut déterminer la valeur des quartiles en fonction d'une situation donnée. Tout comme le calcul de la médiane, la démarche sera un peu différente si on travaille avec un nombre pair ou impair de données.

Nombre pair de données
Déterminer la valeur des trois quartiles de la distribution suivante :

|60, 32, 87, 98, 56, 75, 35, 68, 86,  90, 75, 59, 61, 84, 64, 48|

1) Placer les données en ordre croissant.

|32, 35, 48, 56, 59, 60, 61, 64, 68, 75, 75, 84, 86, 87, 90, 98|

2) Déterminer la médiane de l’ensemble de données.
Cette distribution est constituée de 16 données. Par conséquent, la médiane sera la moyenne entre la 8e et la 9donnée.

|Q_{2}=\frac{64+68}{2}=66|

3) Déterminer la valeur du premier quartile.
La valeur 66 sépare la distribution en deux moitiés égales contenant chacune huit données. Il faut maintenant déterminer la valeur de la médiane de chacune de ces parties. 

La première moitié est composée des données suivantes :

|32, 35, 48, 56, 59, 60, 61, 64|

La médiane de ce sous-ensemble de données est la moyenne entre la 4e et la 5donnée.

|Q_{1}=\frac{56+59}{2}=57,5|

4)Déterminer la valeur du troisième quartile.
La deuxième moitié est composée des données suivantes :

|68, 75, 75, 84, 86, 87, 90, 98|

La médiane de ce sous-ensemble de données est la moyenne entre la 4et la 5donnée.

|Q_{3}=\frac{84+86}{2}=85|

Au final, on peut représenter chacun des quarts et chacun des quartiles de la distribution de départ de la manière suivante :


De plus, on peut remarquer que chacun des quarts contient le même nombre de données, soit quatre.

Si on travaille avec un nombre impair de données, il y a moins de calculs à faire.

Nombre impair de données
Déterminer la valeur du premier quartile, de la médiane et du troisième quartile de la distribution suivante :



1) Placer les données en ordre croissant.



2) Déterminer la médiane de l’ensemble de données.
Comme cette distribution contient un nombre impair de données, la médiane correspond à la donnée du centre, soit la 7donnée.

Donc, |Q_2 = 5|.

3) Déterminer la valeur du premier quartile.
La première moitié est composée des données suivantes :


La médiane de ce sous-ensemble de données est la moyenne entre la 3e et la 4e donnée.

|Q_1 = \frac{2+3}{2} = 2,5|

4) 
Déterminer la valeur du troisième quartile
La deuxième moitié est composée des données suivantes :

La médiane de ce sous-ensemble de données est la moyenne entre la 3e et la 4e donnée.

|Q_3 = \frac{7+9}{2}=8|

Finalement, on peut représenter la distribution de départ et les quartiles de la manière suivante :


On remarque que les quartiles séparent les données en quatre quarts ayant le même nombre de données, soit trois, comme prévu.​​

​Fait à noter, il est essentiel de trouver la valeur de |Q_2| d'abord pour ensuite trouver celles de |Q_1| et |Q_3|. Par contre, l'ordre de calculs de ces deux derniers quartiles n'a pas d'importance. En d'autres mots, on peut déterminer la valeur de |Q_3| avant celle de |Q_1| ou vice versa.

​​Calcul de l'étendue interquartile

​En établissant la valeur des quartiles, il est possible de discuter de la dispersion des données. Graphiquement, la boîte d'un diagramme de quartiles illustre l’étendue interquartile. Concrètement, elle représente la dispersion du quart précédant la médiane et celui la succédant. Donc, cette boîte représente généralement 50 % des données. Pour obtenir la valeur de cette étendue, on effectue la soustraction suivante : 

|\text{Étendue interquartile} = 3^\text{e} \ \text{quartile} - 1^\text{er} \ \text{quartile} = Q_3 - Q_1 |

Pour illustrer le tout, l'exemple plus haut sera considéré.

Calcul de l'étendue interquartile
Selon la distribution suivante et les informations qui lui sont associées, détermine la valeur de l'étendue interquartile.

Selon la formule, on obtient:
|\text{Étendue interquartile} = Q_3 - Q_1 = 8 - 2,5 = 5,5|.

En d'autres mots, 50% des données sont regroupées dans un intervalle d'une longueur de 5,5 unités. Suite à ces calculs, il est possible d'interpréter​ ce résultat de plusieurs façons selon le contexte auquel la distribution est associée.

Calcul de l'étendue des quarts

​​​Dans le contexte des ​quarts, ce ne sont pas seulement les quartiles qui sont considérés, mais les valeurs maximale et minimale le sont également.

Généralement notée |\text{ÉQ}|, il existe quatre formules pour calculer un tel étendue, soit une pour chaque quart. Ainsi,
| \text{ÉQ}_1 = Q_1 - x_{\text{min}}|
|\text{ÉQ}_2 = Q_2 - Q_1|
| \text{ÉQ}_3 = Q_3 - Q_2|
| \text {ÉQ}_4 = x_{\text{max}} - Q_3|

Avec |x_{\text{min}}| et |x_{\text{max}}| qui sont respectivement les valeurs minimale et maximale de la distribution sans les données éloignées.​

Concrètement, il s'agit seulement d'une soustraction entre certaines données significatives. ​

Calcul de l'étendue des quarts
En considérant la distribution suivante, détermine l'étendue de chacun des quarts.

Selon la formule ci-dessus,
| \text{ÉQ}_1 = Q_1 - x_{\text{min}} = 2,5 - 1 = 1,5|
| \text{ÉQ}_2 = Q_2 - Q_1 = 5 - 2,5 = 2,5|
| \text{ÉQ}_3 = Q_3 - Q_2 = 8 - 5 = 3|
| \text{ÉQ}_4 = x_{\text{max}} - Q_3 = 10 - 8 = 2|

​Finalement, on peut déterminer que le quart dont les données sont le plus dispersées est le 3e puisque c'est lui qui possède la plus grande étendue.

Une fois de plus, l'étendue des quarts permet de juger de la dispersion des données, mais seulement sur un sous-ensemble de la distribution au lieu de la considérer dans son entité. ​

Les vidéos
Les exercices
Les références