Mathématique m1364

L'utilisation de tableaux en statistique

​​​​​​​​​​​​​​​​​​​​​​​​​Pour favoriser une meilleure interprétation des données amassées lors d'une enquête, il est préférable d'utiliser des modes de représentations adéquats et concis. En voici quelques exemples:

Tableaux à données non regroupées

Lorsqu’on a une distribution contenant soit des données qui sont toutes différentes, soit un petit nombre de données, on peut décider de ne pas les regrouper et de simplement les énumérer.

Dans une récente enquête, on a demandé à 14 personnes de compter le nombre de minutes passées devant la télévision durant la dernière journée.
Voici les différentes réponses obtenues:
10, 11, 23, 29, 37, 38, 39, 39, 40, 51, 53, 57, 59, 61.

Dans ce cas, si on souhaite organiser ces données dans un tableau sans les regrouper, on pourrait les placer dans un diagramme à tige et à feuilles.

Le diagramme à tige et à feuilles représentant la distribution précédente est le suivant :
m1364i20.png
Dans ce cas précis, la colonne de gauche (la tige) est associée à la position des dizaines des différentes données de la distribution alors que les chiffres à droite (les feuilles) représentent la position des unités de cette même distribution. 

Tableaux à données condensées

Lorsque le nombre de données est plus grand et que plusieurs d'entre elles reviennent plus d’une fois, il peut être utile d'avoir recours à tableau à données condensées.

Il est à noter que ce tableau ne peut être utilisé que lorsque le caractère de la variable étudiée est quantitatif discret. Pour des variables à caractère quantitatif continu, on utilisera les tableaux à données regroupées en classes.

Un tableau à données condensées contient plusieurs colonnes : valeur, effectif, effectif cumulé, fréquence relative, fréquence relative cumulée. De façon générale, chaque ligne est associée à une valeur, une modalité ou une classe de données sauf la dernière qui fait état du total de chaque colonne.

La valeur est la réponse donnée à une question qui fait référence aux variables quantitatives.

La modalité est la réponse donnée à une question qui fait référence aux variables qualitatives.
 
L’effectif correspond au nombre de fois que la valeur, ou la modalité, est représentée dans la distribution.
 
L’effectif cumulé correspond au nombre de valeurs qui sont inférieures ou égales à la valeur identifiée dans la distribution.
 
La fréquence relative est le pourcentage correspondant à l’effectif d’une valeur, ou d'une modalité, par rapport au nombre total de données. La fréquence relative se calcule comme suit :

|\text{Fréquence relative} = \frac{\text{Effectif}}{\text{Effectif total}} \times 100|

La fréquence relative cumulée est le pourcentage correspondant à la somme des fréquences relatives ​​des valeurs inférieures ou égales à celle analysée​. La fréquence relative cumulée se calcule comme suit :

|\text{Fréquence rel. cum.} = \frac{\text{Effectif d'une donnée + effectif des valeurs inférieures}}{\text{Nb total de données}} \times 100|

Pour illustrer le tout, voici un exemple mettant en relation chacune de ces définitions.

Une personne se place dans la cour d’une école secondaire et demande l'âge des gens qu’elle croise. Elle obtient :

14, 16, 13, 12, 12, 13, 17, 15, 15, 15, 18, 12, 13, 13, 14, 13, 14, 15, 16, 15, 15, 12, 17, 17, 16, 14, 14, 14, 15, 15, 13, 16, 17, 15, 13, 14.

Dans ce cas, les valeurs des âges sont de 12, 13, 14, 15, 16, 17 et 18.

On obtient le tableau suivant :
​​
m1364i10.PNG

En observant ce tableau, on remarque que le chiffre 9 apparaît à l’intersection de la colonne « effectif » et de la ligne « 15 ». Concrètement, cela signifie que 9 personnes rencontrées dans la cour d’école ont 15 ans.

Toujours, à la ligne qui correspond à 15 ans, on remarque que l’effectif cumulé est égal à 27. Selon sa définition, cela signifie que 27 personnes ont 15 ans ou moins. Pour obtenir ce résultat, on a additionné tous les effectifs correspondants à des valeurs inférieures ou égales à 15 : 4 (pour 12 ans) + 7 (pour 13 ans) + 7 (pour 14 ans) + 9 (pour 15 ans) = 27.

Pour ce qui est de la fréquence relative de cette même valeur, elle correspond à 25%. En effet, si 9 personnes sur 36 ont 15 ans, cela correspond à 25% puisque 

​|\frac{9}{36} \times 100 = 25 \% |


Du côté de la fréquence relative cumulée, elle correspond à 75%. En effet, si 27 personnes sur 36 ont 15 ans ou moins, alors:

| \frac{27}{36} \times 100 =75 \%|.​


***Note : On ne met rien sur la dernière ligne de la colonne de la fréquence relative cumulée.​

Tableaux à données regroupées en classes

Lorsque le nombre de valeurs différentes dans la distribution est très grand ou encore lorsque la variable étudiée est continue, on utilise habituellement un tableau à données regroupées en classes pour organiser les données.
Un tableau à données regroupées en classes contient à peu près les mêmes colonnes que le tableau à données condensées: classe, effectif, effectif cumulé, fréquence relative, fréquence relative cumulée. Comme on peut le remarquer, seule la première colonne change : la colonne « valeur » devient la colonne « classe ».

Une classe est un intervalle de valeurs qui s’écrit à l'aide de crochets. Lorsqu’un crochet est ouvert, la valeur qui lui est associée est exclue. Au contraire, lorsqu’un crochet est fermé, la valeur associée est incluse dans l’intervalle.

L'amplitude d'une classe correspond à sa valeur la plus élevée moins sa valeur la moins élevée.

Pour bien comprendre l'influence des crochets et l'importance de l'amplitude, prends le temps de lire l'exemple suivant.

Dans un but de recherche sur l'influence du climat sur la taille des différents rongeurs, on a mesuré 20 rongeurs d'une même espèce et voici les résultats en cm: 

12,1 ; 12,3 ; 12,4 ; 12,5 ; 13,2 ; 13,7 ; 14,2 ; 14,8 ; 14,9 ; 14,9 ; 14,9 ; 15,1 ; 15,2 ; 15,3 ; 15,3 ; 15,4 ; 15,5 ; 15,6 ; 16,3 ; 16,3.
 
Voici les étapes à suivre pour construire le tableau à données regroupées en classes de cette situation.

1) Déterminer le nombre de classes
Généralement, le nombre de classes d’un tableau est compris entre cinq et huit​. Dans le cas présent, on peut choisir, de façon tout à fait arbitraire, de construire 6 classes de données.

2) Déterminer l'étendue de la distribution
​Pour calculer l'étendue d'une distribution, il suffit de prendre la plus grande valeur et de la soustraire par le plus petite valeur. Dans le cas présent, on obtient:

|16,3−12,1=4,2|.

3) Déterminer l'amplitude de chacune des classes
Ensuite, on peut estimer l'amplitude de chaque classe avec le calcul suivant:

|\text{Amplitude​}= \frac{\text{Étendue}}{\text{Nb de classes}} ​= \frac{4,2}{6} = 0,7|.

Pour le bien de la cause, on peut décider de légèrement augmenter l'amplitude de cet intervalle afin de s'assurer que la plus petite et la plus grande valeur soient respectivement incluses dans la première et la dernière classe. Donc, on peut la hausser à 0,8.
 
4) Construction du tableau à données regroupées en classes
Ainsi, la première classe pourrait être  [12,1 ; 12,9 [. Pour ce qui est de la seconde classe, elle serait définie par l'intervalle [12,9 ; 13,7 [ ​et on procède ainsi en s'assurant que la dernière donnée fasse partie du dernier intervalle. Finalement, on obtient le tableau suivant:

m1364i11.PNG

Les vidéos
Les exercices
Les références