Ce cours présente des notions de statistiques descriptive d’une façon simple, avec des explications non compliqués. Ce memento peut être une aide mémoire ou un plus qui éclairera vos acquis.
1. Analyse d’une population statistique selon différents caractères:
Pour étudier une population statistique, on procède à un classement des unités statistiques au moyen de certains critères appelés caractères.
Ce diagramme illustre une population de 35 élèves. Pour chaque élève, différentes caractéristiques ont été recueillies : le prénom, le nombre de frères et sœurs, la taille, ainsi que le résultat d’un test d’anglais. Ces caractéristiques sont appelées des « caractères ».
Il existe deux sortes de caractères : les caractères quantitatifs et les caractères qualitatifs.
Caractères quantitatifs:
Sont ceux qui prennent des valeurs numériques. De ce fait, on les appelle aussi parfois des « variables ». Dans notre exemple, la taille des élèves, ainsi que le nombre de leurs frères et soeurs sont des caractères quantitatifs.
Sont ceux qui prennent des valeurs numériques. De ce fait, on les appelle aussi parfois des « variables ». Dans notre exemple, la taille des élèves, ainsi que le nombre de leurs frères et soeurs sont des caractères quantitatifs.
Les valeurs d’un caractère quantitatif peuvent être manipulées algébriquement. On peut par exemple calculer la taille moyenne des élèves de cette classe ou bien encore l’écart entre la taille minimale et la taille maximale, etc.
Inversement, certains caractères quantitatifs ne peuvent prendre qu’un nombre fini de valeurs sur un intervalle. C’est le cas du caractère « nombre de frères et soeurs ». En effet, si l’on choisit l’intervalle qui va de 2 à 4 frères et soeurs, en incluant les valeurs 2 et 4, nous voyons alors qu’il n’y a que 3 valeurs possibles : 2,3 et 4. Chaque élève peut, en effet, à l’intérieur de cet intervalle, avoir 2 frères et soeurs, 3 frères et soeurs ou 4 frères et soeurs. Ces caractères quantitatifs qui, comme dans notre exemple, ne peuvent prendre qu’un nombre fini de valeurs à l’intérieur d’un intervalle, sont appelés caractères quantitatifs « discrets ».
Caractères qualitatifs:
Les caractères qualitatifs sont tous les caractères qui ne prennent pas de valeurs numériques. Par exemple, le nom de chaque élève et l’appréciation reçue à l’issue du test d’anglais sont des caractères qualitatifs. Le nom de chaque élève est une modalité non numérique. De même, l’appréciation reçue au test d’anglais est composée de 5 modalités non numériques : A, B, C, D et E.
Les caractères qualitatifs sont tous les caractères qui ne prennent pas de valeurs numériques. Par exemple, le nom de chaque élève et l’appréciation reçue à l’issue du test d’anglais sont des caractères qualitatifs. Le nom de chaque élève est une modalité non numérique. De même, l’appréciation reçue au test d’anglais est composée de 5 modalités non numériques : A, B, C, D et E.
Caractères qualitatifs ordinaux et caractères qualitatifs nominaux:
Les modalités de certains caractères qualitatifs peuvent être ordonnées ou hiérarchisées. On dit alors que le caractère est ordinal. C’est le cas de tous les caractères qualitatifs dont les modalités sont des opinions. L’appréciation reçue à l’issue du test d’anglais est un caractère qualitatif ordinal, car on peut classer les appréciations de la meilleure (A) à la moins bonne (E). Lorsque les modalités d’un caractère ne peuvent pas être ordonnées, le caractère est dit nominal. C’est le cas du prénom de chaque élève dans notre tableau.
Le schéma ci-après récapitule les quatre types de caractères rencontrés en statistique descriptive.
2. Échantillon d’une population statistique
On parle d’échantillon d’une population statistique quand les unités statistiques sont tirées au sort ou choisies par une méthode qui permet d’assurer la représentativité de l’échantillon par rapport à la population totale.
Le diagramme ci-après représente la population statistique d’une classe de 35 élèves. Supposons que l’on y choisisse, par tirage au sort, 6 élèves. Ces 6 élèves constituent alors un échantillon. Dans la réalité, les échantillons représentent une proportion bien plus faible que 6/35 (c’est-à-dire 17% des élèves).
Remarquons qu’un échantillon peut être considéré comme une population en elle-même, quoique beaucoup plus petite que la population dont il est extrait. En tant que population, il peut faire l’objet d’une étude statistique dont les conclusions, sous certaines conditions, sont susceptibles d’être étendues à la population toute entière. C’est l’objet de la statistique mathématique.
Il faut distinguer l’échantillon du sous-ensemble de la population obtenu par un classement ou “découpage” des unités statistiques au moyen de certains critères. Nous pouvons ainsi diviser la population des 35 élèves en deux sous-ensembles, par exemple les garçons et les filles. On aura alors le schéma suivant :
Le tableau suivant contient les valeurs et les modalités prises par les caractères d’une population de 35 élèves.
Nous avons vu dans la fiche précédente qu’il était parfois commode de créer une distribution1, c’est-à-dire de regrouper les unités statistiques en fonction des valeurs ou des modalités d’un caractère. Ainsi, nous pouvons distribuer les 35 élèves en fonction de leur taille pour obtenir les deux premières colonnes du tableau suivant :
Mais il est fréquent que l’on mettre cette distribution par effectifs sous forme d’une distribution de fréquences ou sous forme de distribution de pourcentages. Divisons l’effectif associé à chaque taille par l’effectif total des élèves (35). Nous obtenons alors la colonne 3 des fréquences de chaque taille dans l’effectif total. En multipliant par 100, nous obtenons la colonne 4 des pourcentages de chaque taille dans l’effectif total.
4. Modes de regroupement des unités statistiques
Le tableau suivant contient les valeurs et les modalités prises par les caractères d’une population de 35 élèves. Dans ce tableau, les « unités statistiques » (ici les élèves ») n’ont pas été regroupées. C’est un tableau exhaustif. Nous pouvons lire sur chaque ligne du tableau les différentes valeurs ou modalités des caractères associés à chacune des 35 unités statistiques de la population. Chaque colonne correspond à une série simple de valeurs numériques ou de modalités. Par exemple, dans le cas de la dimension « taille », il y a 21 valeurs différentes. Dans le cas du caractère «Résultat du test d’anglais », il y a 5 modalités différentes A, B, C, D et E).
(même tableau ci-dessus: prénom, sexe taille…)
Distribution par valeurs ou par modalités:
Mais lorsque le nombre d’unités statistiques augmente, il devient difficile de présenter exhaustivement les données et l’on procède alors à des regroupements par valeurs ou par modalités. Dans ce cas, on parle de distribution.
Mais lorsque le nombre d’unités statistiques augmente, il devient difficile de présenter exhaustivement les données et l’on procède alors à des regroupements par valeurs ou par modalités. Dans ce cas, on parle de distribution.
Distribution par valeurs
Prenons l’exemple du caractère «taille ». Un regroupement des 35 unités statistiques pour chacune des valeurs possibles du caractère donnera alors le tableau suivant :
Prenons l’exemple du caractère «taille ». Un regroupement des 35 unités statistiques pour chacune des valeurs possibles du caractère donnera alors le tableau suivant :
Distribution par modalités
On peut aussi regrouper les unités statistiques en fonctions des résultats obtenus au test d’anglais. On obtient alors une distribution sur les modalités A, B, C , D et E :
Distribution par catégories
Lorsqu’il y a beaucoup de valeurs ou de modalités, on peut procéder à un regroupement par catégories de valeurs ou par catégories de modalités.
Catégories de valeurs
Dans ce cas, on définit des intervalles de tailles et on distribue les unités statistiques dans l’intervalle correspondant :
Dans ce cas, on définit des intervalles de tailles et on distribue les unités statistiques dans l’intervalle correspondant :
Catégories de modalités
Dans ce cas, on définit des catégories de modalités et on distribue les unités statistiques dans la catégorie correspondante :
En statistique, la population désigne un ensemble d’unités. Ces unités sont des êtres vivants ou des objets concrets ou abstraits. Ainsi, en économie, les populations rencontrées sont aussi bien des populations humaines, que des populations d’entreprises, de produits ou de pays, pour ne prendre que quelques exemples. Au sujet des populations humaines, celles-ci ont été depuis très longtemps recensées et étudiées statistiquement. De ce fait, un lien étroit existe entre la statistique et la démographie et le terme “individu” est souvent employé comme synonyme du terme “unité “, même lorsque l’on étudie des populations non humaines.
La meilleure façon de se représenter une population statistique est de songer à une base de données. C’est pourquoi, dans ce cours, sauf mention contraire, nous considérons que les expressions “population” et “base de données” sont synonymes. Autrement dit, nous nous occupons d’étudier des populations concrètes, dont le nombre, même s’il est très grand, est toujours fini et dénombrable. Les unités statistiques peuvent toujours être comptées avec précision et même identifiées individuellement. Ceci est très important, car cela va nous simplifier la tâche. Cette identification entre “population” et “base de données” ne pose pour l’essentiel aucun problème en économie. En effet, même les populations très nombreuses, comme par exemple la population mondiale, peuvent être comptabilisées dans des bases de données que les ordinateurs permettent ensuite de traiter statistiquement.
La première information statistique que l’on tire d’une population est le nombre de ses unités, que nous désignerons par n.
À titre d’exemple, voici la liste des 35 élèves d’une classe. {Ahmed, Alexandre, Antoine, Sandra, Hugo, Anne, Jeannot, Sara, Karim, Chloé, Kim, Loïck, Leila, Laurène, Lucas, Ludovic, Marine, Maxime, Valentine, Pauline, Paul, Pedro, Pierre, Quentin, Thomas , Nadia, Valentin, Vim, Lara, Flora, Clément, Rudy, Michael, Alison, Aline}
À titre d’exemple, voici la liste des 35 élèves d’une classe. {Ahmed, Alexandre, Antoine, Sandra, Hugo, Anne, Jeannot, Sara, Karim, Chloé, Kim, Loïck, Leila, Laurène, Lucas, Ludovic, Marine, Maxime, Valentine, Pauline, Paul, Pedro, Pierre, Quentin, Thomas , Nadia, Valentin, Vim, Lara, Flora, Clément, Rudy, Michael, Alison, Aline}
Ces 35 élèves sont les unités qui composent notre population (n = 35). Cette population de 35 unités peut schématiquement être représentée par ce diagramme :
Il existe tellement de définitions différentes de la statistique qu’on pourrait presque en faire une étude … statistique. Ainsi, Raymond DUMAS, dans son ouvrage “L’entreprise et la statistique”, datant de 1967, en dénombre-t-il déjà une centaine.
La statistique descriptive n’est en fait qu’une partie de la statistique. La statistique au sens large comprend en effet deux branches :
- La statistique descriptive, qui nous intéresse ici, et que l’on peut définir comme un ensemble de méthodes permettant de décrire les unités statistiques qui composent une population.
- La statistique mathématique dont l’objet est de formuler des lois à partir de l’observation d’échantillons, c’est-à-dire de tirages limités effectués au sein d’une population. La statistique mathématique intervient dans les enquêtes et les sondages. Elle s’appuie sur la statistique descriptive, mais aussi sur le calcul des probabilités.
La statistique, qu’elle soit descriptive ou mathématique, est employée dans toutes les sciences, ainsi que dans la vie quotidienne. Son utilisation très intensive dans le champ de l’économie a fait naître une nouvelle expression : L’économétrie. L’économétrie est l’application de la statistique (descriptive et mathématique) à la mesure et à l’étude chiffrée des grandeurs économiques.