Ressources naturelles Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Liens de l'Office de l'efficacité énergétique

 

L'Office de l'efficacité énergétique

Menu

Enquête 2007 sur l'utilisation de l'énergie par les ménages (EUEM 2007) – Rapport statistique détaillé

Version PDF | EUEM 2007 Rapport sommaire |
Table des matières | Suivant

Annexe A – Méthodologie

1.0 Validation et regroupement des données

1.1 Contexte

Les données de l’Enquête sur les ménages et l’environnement (EME) ont été recueillies en trois étapes distinctes.

Au cours de la première étape, les données ont été collectées à l’aide d’entrevues téléphoniques assistées par ordinateur, réalisées auprès de propriétaires et de locataires de logement. Les sujets abordés dans le cadre de l’EME comprenaient les caractéristiques de l’utilisation de l’énergie par les ménages, l’utilisation de l’eau, l’emploi de pesticides et d’engrais, le recyclage et le compostage, l’environnement intérieur, les véhicules et les décisions en matière de transport, l’utilisation d’appareils alimentés à l’essence, les décisions d’achat et la qualité de l’air.

Parmis les données récoltées par l’EME, le rapport statistique détaillé présenté ici ne fait état que de celles sur l’utilisation de l’énergie. Pour en savoir davantage sur l’EME, communiquez avec Statistique Canada.

La deuxième étape de l’EME, intitulée Enquête sur les ménages et l’environnement : utilisation de l’énergie (EME-UE), portait sur les facteurs ayant une incidence sur l’utilisation de l’énergie par les ménages. Les données ont été recueillies à l’aide d’un questionnaire envoyé par la poste aux propriétaires et aux locataires de logement. Afin que l’on puisse obtenir les réponses les plus précises possibles, un questionnaire a aussi été envoyé aux propriétaires de logements de location et aux gestionnaires de copropriétés : les questions portaient uniquement sur l’équipement de chauffage et de climatisation des logements, sur les caractéristiques et l’état des logements ainsi que sur la consommation d’énergie.

Les données sur la consommation d’énergie recueillies dans le cadre de la troisième étape concernaient les ménages individuels. Ces données ont été obtenues des ménages ou de leurs fournisseurs d’énergie.

Aux fins de ce rapport, les données de la deuxième et de la troisième étapes, ainsi que les données de la première étape relatives à l’utilisation de l’énergie, sont présentées sous l’appellation EUEM 2007. Statistique Canada a mené la deuxième et la troisième étapes pour le compte de RNCan et dénomme celles-ci EME-UE.

Les données collectées au cours de ces trois étapes sont censées se rapporter à l’année 2007.

Les estimations présentées ici sont le résultat d’un regroupement des données recueillies dans le cadre des trois étapes de l’enquête. RNCan a opéré ce regroupement afin d’améliorer les estimations de l’EUEM 2007.

1.2 Validation des données

Puisque le même échantillon de ménages a servi aux trois étapes, il était logique de penser que les réponses aux questions communes aux trois étapes seraient uniformes. Or, la validation des données a révélé des incohérences importantes dans les réponses données d’une étape à l’autre, ainsi qu’au cours d’une même étape.

Comme exemple d’incohérence entre les étapes, signalons le cas où un ménage a indiqué que le système de chauffage principal était une fournaise au gaz naturel à la première étape, mais a répondu « Ne sait pas » à la question sur le système de chauffage principal à la deuxième étape et « Non déclaré » à la question sur la source d’énergie.

À titre d’exemple d’incohérence au cours d’une même étape, citons le cas où un ménage, à la deuxième étape, a répondu qu’il n’utilisait pas d’ordinateur à la maison, mais a répondu « Non déclaré » quant au nombre d’ordinateurs utilisés et « 5 ans ou moins » quant à l’âge de l’ordinateur le plus souvent utilisé.

1.3 Regroupement des données

Les incohérences relevées dans les données de l’EUEM 2007 ont été prises en compte, à l’aide d’enchaînements logiques, dans le regroupement des données.

Un exemple d’enchaînement logique pour traiter une incohérence entre les étapes, consiste à accepter une réponse « certaine » plutôt qu’une réponse « incertaine »
(« Ne sait pas » et « Non déclaré »).

Ainsi, dans le cas d’un ménage ayant indiqué que le système de chauffage principal était une fournaise au gaz naturel à la première étape, mais ayant répondu « Ne sait pas » à la question sur le système de chauffage principal à la deuxième étape et « Non déclaré » à la question sur la source d’énergie, nous avons considéré pour le regroupement des données que le ménage avait une fournaise au gaz naturel. Dans cet exemple, la réponse « certaine », soit la fournaise au gaz naturel, est acceptée plutôt que les réponses « incertaines », soit « Ne sait pas » quant au système de chauffage principal et
« Non déclaré » quant à la source d’énergie.

Un exemple d’enchaînement logique pour traiter une incohérence relevée dans une même étape consiste à accepter ou à rejeter les réponses aux questions de suivi sur un sujet particulier en fonction de la réponse donnée à la question qui introduisait le sujet.

Ainsi, à la deuxième étape, dans le cas d’un ménage ayant indiqué qu’il n’utilisait pas d’ordinateur à la maison, mais ayant répondu « Non déclaré » quant au nombre d’ordinateurs utilisés et « 5 ans ou moins » quant à l’âge de l’ordinateur le plus souvent utilisé, nous avons considéré pour le regroupement des données que le ménage n’utilisait pas d’ordinateur à la maison et que le nombre d’ordinateurs utilisés était de zéro. La question de l’âge de l’ordinateur le plus fréquemment utilisé n’était alors plus pertinente et un saut valide a été enregistré.

Dans cet exemple, « Utilisez-vous un ordinateur à la maison? » est considérée comme la question qui introduisait le sujet de l’ordinateur. Une réponse négative à cette question ne permet pas à un ménage de répondre aux questions suivantes sur l’ordinateur, alors qu’une réponse positive lui aurait permis de le faire.

En règle générale, pour les variables des questions communes, les réponses des propriétaires et des gestionnaires d’immeuble concernant les caractéristiques des logements ont été acceptées (p. ex., sur le système de chauffage) plutôt que celles de leurs occupants. De plus, les réponses de la deuxième étape ont été acceptées plutôt que celles de la première étape, sauf dans les cas où une question introduisant un sujet à la première étape a suscité beaucoup moins de réponses « incertaines ».

Les données présentées ici représentent les estimations tirées de la base de données définitive de l’EUEM 2007 (c.-à-d., après validation et regroupement des données).

Pour en savoir davantage sur la validation et le regroupement des données, communiquez avec RNCan.

1.4 Réponses des propriétaires et des gestionnaires d’immeuble

Le questionnaire de la deuxième étape (voir l’annexe C) a été conçu pour recueillir des renseignements auprès des personnes les mieux renseignées sur les pratiques des ménages et les caractéristiques des logements.

Il a été déterminé que les locataires étaient les mieux renseignés sur les pratiques des ménages et que les propriétaires et gestionnaires d’immeuble étaient les mieux placés pour répondre aux questions portant sur les caractéristiques des logements. Les réponses fournies par le locataire et par le propriétaire ou le gestionnaire de l’immeuble au sujet du ménage forment le champ de l’enquête pour la totalité du questionnaire de la deuxième étape.

Toutefois, le taux de réponse au questionnaire de la deuxième étape envoyé par la poste aux propriétaires et gestionnaires d’immeuble a été plus bas que prévu. Par conséquent, le champ de l’enquête sur les caractéristiques des logements est incomplet dans la base de données définitive de l’EUEM 2007 en ce qui concerne les logements loués.

Statistique Canada a choisi de considérer toutes les réponses des questionnaires qui n’ont pas été retournés par les propriétaires ou gestionnaires d’immeuble comme des sauts valides dans le fichier original des microdonnées de la deuxième étape. Par conséquent, ces réponses sont demeurées telles dans la base de données définitive de l’EUEM 2007.

2.0 Enquête sur les ménages et l’environnement : utilisation de l’énergie, 2007

2.1 Contexte

L’EME 2007 s’est déroulée en deux étapes (voir la section 1.1).

La première étape se voulait une brève entrevue téléphonique pour compléter l’Enquête sur la santé dans les collectivités canadiennes (ESCC).

La deuxième étape était l’Enquête sur les ménages et l’environnement : utilisation de l’énergie (EME-UE), menée sous forme d’un questionnaire à retourner par la poste (avec la possibilité de répondre par Internet). Cette dernière était auparavant intitulée Enquête sur l’utilisation de l’énergie par les ménages.

L’enquête par téléphone portait sur les comportements et les pratiques des ménages en rapport avec l’environnement.

Les sujets abordés dans le cadre de l’EME-UE comprenaient les caractéristiques du logement, les appareils électroménagers et électriques, le système de chauffage et de climatisation et la quantité d’énergie consommée au sein du ménage en 2007.

L’EME-UE visait à fournir des renseignements à RNCan sur la consommation d’énergie des ménages canadiens.

On y trace le profil :

  • de l’utilisation de certains équipements et appareils consommateurs d’énergie;
  • des caractéristiques des logements relatives à l’énergie;
  • des caractéristiques démographiques des ménages;
  • des habitudes de consommation;
  • de la quantité d’énergie utilisée au cours de la période de référence.

Des données ont été recueillies sur l’âge, la dimension et l’état des logements, ainsi que sur les améliorations apportées à ceux-ci et sur les types d’équipement de chauffage et de climatisation.

Les données de l’EME-UE permettront à l’OEE de déterminer les niveaux moyens de l’intensité énergétique des ménages (quantité d’énergie utilisée sur une certaine superficie) et de comparer le niveau d’intensité des maisons selon le type, la région, l’année de construction, le nombre d’étages, les agglomérations, etc. Ces données pourront également être réparties selon la source d’énergie, afin de comparer le rendement énergétique.

Grâce à ces données, RNCan pourra :

  • comprendre davantage les habitudes (tendances) de consommation d’énergie des ménages;
  • évaluer le potentiel d’efficacité énergétique dans le secteur résidentiel;
  • analyser et mieux comprendre les effets des mesures d’efficacité énergétique envisagées pour l’avenir;
  • évaluer les programmes d’efficacité énergétique en place;
  • faciliter la mise en oeuvre de règlements relatifs à la consommation d’énergie des électroménagers, lesquels établissent des normes de rendement minimales afin d’éliminer du marché les électroménagers moins éconergétiques.

De plus, les données de l’EME-UE serviront à décider comment orienter les politiques futures pour améliorer le rendement énergétique au Canada et réduire ainsi les émissions de gaz à effet de serre.

2.2 Objectifs

L’EME-UE visait à recueillir des données sur les caractéristiques de l’utilisation de l’énergie et sur la consommation d’énergie au sein des logements occupés au Canada.

Les données sur l’utilisation de l’énergie, conjuguées aux données sur la consommation d’énergie tirées des factures des répondants ou obtenues directement auprès des fournisseurs d’énergie, peuvent servir à évaluer le rendement des programmes sur l’efficacité énergétique.

Le champ de l’enquête comprend également les caractéristiques des logements, les appareils électroménagers et électriques, le système de chauffage et de climatisation ainsi que la consommation d’énergie.

De plus, les renseignements recueillis au moyen de l’enquête téléphonique ont été ajoutés au fichier supplémentaire sur l’utilisation de l’énergie (pour les répondants qui ont accepté que ces renseignements soient transmis à RNCan).

La première étape de l’EME abordait les sujets suivants :

  • les caractéristiques de base des logements et des ménages;
  • les systèmes de chauffage et les habitudes d’économie d’énergie;
  • les pratiques sur l’utilisation et l’économie de l’eau;
  • l’utilisation de pesticides et d’engrais;
  • les pratiques de recyclage et de compostage;
  • les comportements sur le plan de la qualité de l’air;
  • l’utilisation de véhicules récréatifs et d’appareils alimentés à l’essence;
  • les véhicules à moteur et le transport pour se rendre au travail;
  • les décisions d’achat.

Cette enquête téléphonique, réalisée pour compléter l’ESCC, a été menée auprès des répondants qui furent interviewés entre janvier et juin 2007. Pour obtenir une description plus détaillée de l’EME 2007, consultez le Guide de l’utilisateur des microdonnées pour l’EME 2007.

2.3 Méthodologie

L’EME a d’abord été réalisée d’octobre 2007 à février 2008, auprès d’un sous-échantillon de ménages qui avaient été interrogés dans le cadre du cycle 4.1 de l’ESCC, entre le
1er janvier et le 30 juin 2007. Par conséquent, le plan d’échantillonnage de l’EME est étroitement lié à celui de l’ESCC. Par la suite, un questionnaire à retourner par la poste a été envoyé aux répondants de l’EME dans le cadre de l’EME-UE.

2.3.1 Plan d’échantillonnage de l’ESCC

Les données de l’ESCC sont recueillies dans les dix provinces et les trois territoires auprès de personnes de 12 ans et plus occupant un logement privé. Seule l’étape constituée par l’ESCC comprend les territoires. Sont exclus du champ de l’enquête les personnes vivant dans les réserves indiennes et sur les terres de la Couronne, les membres à temps plein des Forces canadiennes, la population carcérale et les personnes vivant dans des régions éloignées. L’ESCC couvre environ 98 p. 100 de la population canadienne âgée de 12 ans et plus.

Afin de fournir des estimations fiables aux 121 régions sanitaires (RS) et de respecter le budget établi pour le cycle 4.1 de l’ESCC, un échantillon de 130 000 personnes était nécessaire. Une stratégie de répartition de l’échantillon comportant trois étapes a accordé une importance relativement égale aux RS et aux provinces et territoires.

Pour les deux premières étapes, l’échantillon a été réparti entre les provinces et les territoires en fonction de la densité de la population et du nombre de RS. Pour la troisième étape, l’échantillon de chaque province et territoire a été réparti entre les RS proportionnellement à la racine carrée de la population estimative de chaque RS.

L’ESCC a utilisé trois bases d’échantillonnage pour sélectionner les échantillons de ménages :

  • 50 p. 100 à partir d’une base aréolaire;
  • 49 p. 100 à partir d’une liste téléphonique de base;
  • 1 p. 100 à partir d’un échantillonnage téléphonique par composition aléatoire (CA).

Pour la plupart des RS, 50 p. 100 de l’échantillonnage a été sélectionné à partir de la base aréolaire et 50 p. 100 à partir de la liste téléphonique de base.

La base aréolaire conçue pour l’Enquête sur la population active (EPA) du Canada a servi de base principale à l’ESCC. Le plan d’échantillonnage de l’EPA est un plan en grappes, stratifié à plusieurs degrés, où le logement représente l’unité finale d’échantillonnage.

Dans un premier temps, des strates homogènes sont formées et des échantillons indépendants de grappes sont sélectionnés dans chaque strate. Puis, des listes de logements sont dressées pour chaque grappe, après quoi des logements, c’est-à-dire des ménages, sont sélectionnés dans chaque liste.

Pour les besoins du plan d’échantillonnage de l’EPA, chaque province et territoire a été divisé en trois catégories de région : les grands centres urbains, les villes et les régions rurales.

Des strates géographiques ou socioéconomiques sont formées à l’intérieur de chaque grand centre urbain. Dans les strates, des grappes sont formées en regroupant des logements. Dans certains centres urbains, des strates distinctes sont créées pour les appartements ou pour les secteurs de dénombrement (SD) au sein desquels le revenu moyen des ménages est élevé. Dans chaque strate, six grappes ou immeubles résidentiels (parfois douze ou dix-huit appartements) sont sélectionnés à l’aide d’une méthode d’échantillonnage aléatoire avec probabilité proportionnelle à la taille (PPT), cette dernière correspondant au nombre de ménages. Le nombre six est utilisé pour l’ensemble du plan d’échantillonnage afin de permettre le renouvellement mensuel d’un sixième de l’échantillon de l’EPA.

Les autres villes et les régions rurales sont en premier lieu stratifiées en fonction de données géographiques, puis selon des caractéristiques socioéconomiques. Dans la plupart des strates, six grappes (habituellement des SD) sont sélectionnées à l’aide de la méthode PPT. Pour les populations à faible densité, un plan en trois volets est utilisé dans le cadre duquel deux ou trois principales unités d’échantillonnage, qui correspondent normalement à des groupes de SD, sont sélectionnées et divisées en grappes, dont six sont échantillonnées. L’échantillon définitif est tiré par échantillonnage systématique des logements.

2.3.2 Taille de l’échantillon par province pour l’EME-UE

L’échantillon de l’EME se voulait un échantillon aléatoire stratifié du cycle 4.1 de l’ESCC (de janvier à juin 2007), formé des logements répondants des provinces seulement (ceux des territoires étaient exclus). L’échantillon de l’EME-UE était formé de tous les logements répondants de l’EME. Signalons que les renseignements recueillis auprès des répondants qui ont refusé que les données soient transmises au client, soit RNCan, ne figurent pas dans le fichier de microdonnées commun.

Le tableau suivant indique le nombre de logements répondants figurant dans le fichier de microdonnées commun de l’EME-UE 2007.

Taille de l’échantillon

Province Nombre de
logements
Terre-Neuve-et-Labrador 262
Île-du-Prince-Édouard 188
Nouvelle-Écosse 397
Nouveau-Brunswick 398
Québec 2 267
Ontario 3 270
Manitoba 517
Saskatchewan 478
Alberta 789
Colombie-Britannique 1 207
Canada 9 773

2.4 Collecte des données

Dans le cadre de l’ESCC, nous avons d’abord communiqué avec les répondants entre janvier et juin 2007. Les répondants ont ensuite été interviewés par téléphone dans le contexte de l’EME entre octobre 2007 et février 2008. La dernière étape consistait à demander aux ménages ayant participé à l’entrevue téléphonique de remplir un questionnaire sur l’utilisation de l’énergie (EME-UE) et de le retourner par la poste. Les participants pouvaient également répondre par Internet, un mode que 4 p. 100 d’entre eux ont choisi. La collecte des données pour l’EME-UE s’est déroulée de novembre 2007 à avril 2008.

La dernière étape de l’EME-UE consistait à recueillir des données sur la consommation d’énergie auprès des fournisseurs d’énergie. Cette étape a été coordonnée par le bureau central de Statistique Canada et consistait à recueillir directement des fournisseurs les données sur la consommation d’électricité, de gaz naturel, de mazout et de propane, pour l’année de référence 2007, provenant des comptes des clients qui avaient préalablement donné leur accord.

2.5 Traitement des données

Cette section présente un résumé des étapes de traitement nécessaires à la production du fichier de microdonnées commun dans sa forme définitive.

2.5.1 Saisie des données

Les données ont été saisies en deux étapes au moyen d’un système de reconnaissance optique de caractères (ROC). Avec cette méthode, on scanne d’abord les questionnaires pour en créer une image numérique, puis des zones prédéfinies des images obtenues sont scrutées pour y faire ressortir le texte.

Pour l’EME, le système scanne une zone prédéfinie du questionnaire afin de repérer les données. Les images affichant des données dans la zone sont retenues pour une extraction manuelle des données ou une saisie d’images électroniques. Les champs vides sont automatiquement saisis comme nuls.

En outre, Statistique Canada a créé une fonction de contrôle de la qualité afin d’évaluer et d’assurer la qualité du travail réalisé par la reconnaissance optique et les saisies d’images électroniques.

2.5.2 Contrôle

Les erreurs d’enchaînement dans le questionnaire ont été le premier type d’erreur traité, soit les réponses à des questions qui ne s’appliquaient pas au répondant (et donc auxquelles une réponse n’aurait pas dû être donnée). Un contrôle effectué par ordinateur a permis d’éliminer automatiquement les données superflues en suivant l’enchaînement logique dans le questionnaire en fonction des réponses données à des questions précédentes et, parfois, subséquentes.

Le deuxième type d’erreur traité était l’absence de réponse à des questions qui exigeaient réponse. Dans ces cas, un code de non-réponse ou de « Non déclaré » était assigné à la question.

2.5.3 Codage des questions ouvertes

Quelques questions ouvertes exigeaient une réponse plus élaborée et ont dû se voir attribuer un code pour leur inclusion au fichier de données. Ces questions ouvertes étaient liées aux réponses de la catégorie « Autre » dans l’ensemble du questionnaire.

2.5.4 Imputation

L’imputation est le processus qui donne des valeurs valides aux variables qui doivent être modifiées du fait que certains renseignements ne sont pas valides ou manquent. L’on crée de nouvelles valeurs de manière à préserver la structure sous-jacente des données et à faire en sorte que les enregistrements qui en découlent passent tous les contrôles.

L’objectif ne vise pas à reproduire les valeurs réelles des microdonnées, mais à établir des fiches internes uniformes, qui produisent de bonnes estimations globales.

Nous pouvons faire la distinction entre trois types de non-réponse.

  • La non-réponse complète, lorsque le répondant ne fournit pas le nombre minimal de réponses. Ces enregistrements sont supprimés et pris en compte dans la pondération.
  • La non-réponse ponctuelle, lorsque le répondant ne fournit pas de réponse à une question et passe à la question suivante. Ce type de non-réponse est habituellement traité par recours au code « Non déclaré » ou à l’imputation.
  • La non-réponse partielle, lorsque le répondant fournit le nombre minimal de réponses, mais ne finit pas l’entrevue. Ce genre d’enregistrement peut être traité comme non-réponse complète ou comme non-réponse multiponctuelle.

Dans le cadre de l’EME-UE, la technique d’imputation par enregistrement donneurs a été utilisée pour compléter les données manquantes à certaines questions ainsi que dans le cas des non-réponses partielles.

2.5.5 Création de variables dérivées

Pour faciliter l’analyse, plusieurs données élémentaires incluses dans le fichier des microdonnées ont été obtenues en combinant des questions du questionnaire.

2.5.6 Pondération

La pondération est une étape où un poids est calculé et attribué à chaque enregistrement. Le principe qui sous-tend une estimation d’un échantillon probabiliste veut que chacune des personnes incluses dans l’échantillon représente, en plus d’elle-même, un certain nombre d’autres personnes qui n’y figurent pas. C’est le poids de l’échantillon.

Par exemple, dans un échantillon aléatoire simple de 2 p. 100 de la population, chaque personne incluse dans l’échantillon représente 50 membres de la population.

Ce poids, qui figure dans le ficher de microdonnées, est nécessaire au calcul d’estimations significatives.

2.6 Qualité des données

2.6.1 Taux de réponse

Le tableau suivant résume le taux de réponse pour l’ESCC, l’EME et l’EME-UE. Puisque l’EUEM ne tient pas compte des territoires, ces derniers ont été omis; le total de la colonne de l’ESCC ne représente donc pas le total véritable.

Province Ménages sélectionnés pour l’ESCC Taux de réponse à l’ESCC (%)* Logements sélectionnés pour l’EME Répondants à l’EME Taux de réponse à l’EME (%)** Réponses à l’EME-UE Taux de réponse à l’EME-UE (%) EME-UE : Logements ayant répondu et ayant accepté la transmission des données EME-UE Taux de réponse et de transmission (%)***
Terre-Neuve-et-Labrador 1 167 89,1 870 639 73,4 299 46,8 262 41,0
Île-du-Prince-Édouard 839 86,4 609 431 70,8 218 50,6 188 43,6
Nouvelle-Écosse 1 481 86,7 1 106 802 72,5 453 56,5 397 49,5
Nouveau-Brunswick 1 634 85,6 1 227 831 67,7 450 54,2 398 47,9
Québec 7 749 84,0 6 198 4 597 74,2 2 629 57,2 2 267 49,3
Ontario 14 411 83,5 10 173 7 271 71,5 3 753 51,6 3 270 45,0
Manitoba 2 165 88,3 1 752 1 313 74,9 610 46,5 517 39,4
Saskatchewan 2 237 89,3 1 586 1 181 74,5 546 46,2 478 40,5
Alberta 3 709 85,4 2 642 1 900 71,9 905 47,6 789 41,5
Colombie-Britannique 5 192 82,1 3 794 2 725 71,8 1 378 50,6 1 207 44,3
Canada 40 584 84,6 29 957 21 690 72,4 11 241 51,8 9 773 45,1

*  Le taux de réponse à l’ESCC est le nombre de ménages qui ont répondu à l’ESCC exprimé en pourcentage du nombre de ménages sélectionnés pour la période du 1er janvier au 30 juin 2007.

**  Le taux de réponse à l’EME est le nombre de logements qui ont répondu à l’EME exprimé en pourcentage du nombre de logements sélectionnés.

***  Le taux de réponse et de transmission de l’EME-UE est le nombre de logements qui ont répondu à l’EME-UE et qui ont accepté que les renseignements soient transmis à RNCan, exprimé en pourcentage du nombre de logements sélectionnés.

2.6.2 Erreurs de sondage

Les estimations découlant de cette enquête reposent sur un échantillon de logements. Des estimations quelque peu différentes auraient pu être obtenues si un recensement complet avait été effectué, en reprenant le même questionnaire et en faisant appel aux mêmes intervieweurs, superviseurs, méthodes de traitement, etc., que pour l’enquête. L’écart entre les estimations découlant de l’échantillon et celles que donnerait un dénombrement complet réalisé dans des conditions semblables est appelé erreur d’échantillonnage de l’estimation.

Des erreurs qui ne sont pas liées à l’échantillonnage peuvent se produire à presque toutes les étapes de l’enquête. Les intervieweurs peuvent avoir mal compris les instructions, les répondants peuvent se tromper dans leurs réponses, les réponses peuvent être incorrectement inscrites et des erreurs peuvent survenir au moment du traitement et de la mise en ordre des données. Ce sont là des exemples d’erreurs autres que d’échantillonnage.

Dans un grand nombre d’observations, les erreurs aléatoires ont peu d’effet sur les estimations obtenues; toutefois, les erreurs systématiques contribuent à fausser les estimations. Beaucoup de temps et d’efforts ont été consacrés à réduire le nombre des erreurs autres que d’échantillonnage.

Des mesures de contrôle de la qualité ont été prises à chacune des étapes de la collecte et du traitement des données. Ces mesures comprenaient :

  • le recours à des intervieweurs hautement qualifiés;
  • une formation poussée des intervieweurs sur les procédures d’enquête et le questionnaire;
  • l’observation des intervieweurs afin de repérer les problèmes liés à la conception du questionnaire ou à une mauvaise compréhension des instructions;
  • des procédures visant à s’assurer que les erreurs de saisie des données sont réduites au minimum;
  • des vérifications de la qualité du codage et du contrôle ayant pour but d’attester la logique du traitement.
2.6.2.1 Base du sondage

Comme l’EME 2007 (et indirectement l’EME-UE 2007) servait à compléter le cycle 4.1 de l’ESCC, c’est la base du sondage de l’ESCC qui a été utilisée. Cette base est fondée à la fois sur la base aréolaire de l’EPA et sur une liste téléphonique avec un élément à composition aléatoire. Le champ de l’ESCC était très large (98 p. 100 des ménages du Canada) : il est peu probable qu’une exclusion de 2 p. 100 introduise un écart important dans les données de l’enquête.

Il importe de mentionner que les entrevues menées dans le cadre de l’EME aient eu lieu entre 3 et 14 mois après celles du cycle 4.1 de l’ESCC, et que le questionnaire de l’EME-UE n’ait été envoyé aux répondants de l’EME qu’après l’entrevue.

2.6.2.2 Collecte des données

Pour la collecte des données de l’EME-UE, nous avons eu recours à un questionnaire que les répondants devaient remplir et retourner par la poste. Les questions nécessitant des précisions étaient accompagnées de directives et d’un texte explicatif. Une ligne téléphonique a également été mise en place pour répondre aux questions des répondants sur la façon de remplir le questionnaire. De plus, nous avons téléphoné jusqu’à cinq fois à ceux qui n’avaient pas retourné le questionnaire. En outre, vers le milieu de la période de la collecte des données, un rappel a été envoyé à tous les non-répondants.

2.6.2.3 Traitement des données

Le traitement des données de l’EME-UE comportait plusieurs étapes, notamment la vérification, le codage, le contrôle, l’imputation et l’estimation. À chaque étape, une copie du fichier de sortie a été faite afin de faciliter la vérification en comparant le fichier à celui de l’étape précédente. Une telle pratique de vérification améliore grandement l’étape du traitement des données.

Dans le but d’éliminer toutes les erreurs éventuelles, l’enquête ayant été réalisée au moyen d’un questionnaire sur support papier, le traitement des données a été effectué avec minutie. Ainsi :

  • les enchaînements et les incohérences ont été ajustés;
  • les entrées « Ne sait pas », « Non déclaré » et « Saut valide » ont été vérifiées;
  • des limites ont été établies pour certaines valeurs numériques, par exemple, la puissance de l’équipement de climatisation;
  • des variables dérivées ont été créées;
  • l’imputation a corrigé les données manquantes sur l’utilisation de l’énergie et les observations aberrantes.

Un contrôle de la qualité a été effectué au cours de la saisie des données, et les lots affichant un taux d’erreur plus élevé que prévu ont été saisis de nouveau. Un tel processus s’est traduit par une qualité limite moyenne après contrôle de moins de 0,1 p. 100.

2.6.2.4 Non-réponses

L’effet des non-réponses sur les résultats de l’enquête constitue une source importante d’erreurs autres que d’échantillonnage. L’ampleur de ces cas varie de la non-réponse partielle (le fait de ne pas répondre à une ou à plusieurs questions) à la non-réponse totale. Il y a non-réponse totale si aucun membre d’un ménage n’est en mesure de fournir les renseignements demandés ou s’il y a refus de participer à l’enquête. Lors de la pondération, on a compensé les cas de non-réponse totale en ajustant le poids des ménages qui ont répondu.

Dans la plupart des cas, il y a non-réponse partielle au questionnaire d’enquête lorsque le répondant ne comprend pas ou interprète mal une question, refuse d’y répondre ou ne peut se rappeler l’information demandée.

Dans les cas de non-réponse partielle, nous avons eu recours à l’imputation pour certaines variables (principalement liées à la consommation d’énergie) en appliquant diverses méthodes fondées sur d’autres données fournies par le répondant ou sur les données fournies par d’autres répondants affichant les mêmes caractéristiques.

La majorité des cas de non-réponse partielle étaient ceux où la consommation d’énergie était déclarée pour la plupart, mais pas la totalité, des jours de la période de référence.

À titre d’exemple, si la consommation d’électricité pour l’année a été déclarée pour la période du 6 janvier au 31 décembre 2007, la consommation d’électricité a été imputée pour les jours manquants (du 1er au 5 janvier). Dans un tel cas, les jours manquants ont été imputés à l’aide des données déclarées par le répondant pour les autres jours de la période de référence.

Un autre exemple fréquent de non-réponse partielle est le cas où un répondant déclare une consommation d’énergie pour tous les mois sauf un. Ici encore, les données déclarées servent à l’imputation du mois manquant.

Le processus d’imputation a donné de bons résultats et a contribué à remplir les réponses incomplètes.

2.6.2.5 Mesure de l’erreur d’échantillonnage

Nous donnons ici un aperçu des mesures de l’erreur d’échantillonnage utilisées couramment par Statistique Canada, qui incite vivement les utilisateurs qui produisent des estimations à partir du fichier de microdonnées à en faire autant. Les estimations établies à partir d’une enquête par échantillon seront inévitablement sujettes à l’erreur d’échantillonnage : il importe donc, du point de vue statistique, que les chercheurs en indiquent l’amplitude.

La base pour mesurer l’amplitude potentielle d’une erreur d’échantillonnage est l’erreur-type des estimations obtenues à partir des résultats d’une enquête.

Cependant, en raison de la diversité des estimations pouvant être produites à partir d’une enquête, l’erreur-type d’une estimation est habituellement exprimée en fonction de l’estimation à laquelle elle se rapporte. La mesure qui en résulte, appelée coefficient de variation d’une estimation, s’obtient en divisant l’erreur-type de l’estimation par l’estimation même et s’exprime en pourcentage de l’estimation.

Par exemple, si, d’après les résultats de l’enquête, l’on estime que 34,9 p. 100 des ménages avaient une pelouse et utilisaient des engrais chimiques en 2005, et si cette estimation affiche une erreur-type de 0,0051, le coefficient de variation de l’estimation est calculé comme suit :

0,0051 x 100 % = 1,46 %
0,349

2.7 Pondération

Puisque nous avons utilisé un sous-échantillon de l’échantillon de l’ESCC pour l’EME et l’EME-UE, la dérivation des poids des enregistrements de l’enquête est étroitement liée à la procédure de pondération utilisée pour l’ESCC, décrite brièvement ci-après.

2.7.1 Procédure de pondération pour l’ESCC

L’ESCC a recours à trois bases de sondage pour la sélection de son échantillon : une base aréolaire de logements comme base principale, et deux bases formées de numéros de téléphone pour compléter la base aréolaire. Comme seulement quelques différences mineures distinguent les deux bases de numéros de téléphone en termes de pondération, elles ont été traitées ensemble et constituent ce que nous appellerons la base téléphonique.

La procédure de pondération traite indépendamment la base aréolaire et la base téléphonique pour dériver les poids des ménages pour chaque base utilisée. Ces poids sont ensuite combinés en un seul ensemble de poids de ménages dans une étape appelée « intégration ». Après application de poids de personnes et quelques autres ajustements, le poids intégré devient le poids final. Signalons que le sous-poids de ménage de l’ESCC (après l’étape de l’intégration I1) correspond au poids initial de l’EME.

Aperçu de la procédure de pondération de l’ESCC.

Le sous-poids des ménages de l’ESCC (requis pour la pondération de l’EME) est disponible une fois terminées les étapes A0 à A4 (pour la base aréolaire), T0 à T4 (pour la base téléphonique) et I1 (intégration). Les étapes de pondération de l’ESCC sont décrites ci-après.

A0 – Poids initial

La pondération pour la base aréolaire débute avec un poids fourni par l’EPA. Le poids initial A0 est basé sur le plan de l’EPA, puisque l’échantillon de la base aréolaire de l’ESCC découle de celui de l’EPA. Le plan de l’EPA est un échantillonnage de logements dans les grappes sélectionnées parmi les strates de l’EPA.

A1 – Ajustement de la grappe

Dans une grappe où un accroissement significatif de la population est observé, une méthode de sous-échantillonnage est utilisée afin de ne pas augmenter indûment la tâche des intervieweurs. La méthode peut consister à sous-échantillonner les logements de cette grappe, à diviser la grappe en sous-grappes ou à redéfinir la grappe comme une strate et à y créer de nouvelles grappes. Dans tous ces cas, un ajustement de sous-échantillonnage est calculé et appliqué au poids de l’ESCC. Cet ajustement est multiplié par le poids A0 pour donner le poids A1.

A2 – Stabilisation

Dans certaines RS, l’accroissement de la taille de l’échantillon donne un échantillon beaucoup plus grand que nécessaire. Une stabilisation est donc employée afin de ramener la taille de l’échantillon au niveau désiré. La stabilisation consiste à sous-échantillonner des logements aléatoirement à l’intérieur de la RS, parmi les logements originellement sélectionnés dans chaque grappe. Un facteur d’ajustement représentant l’effet de la stabilisation est calculé afin de corriger la probabilité de sélection. Ce facteur multiplié par le poids A1 produit le poids A2.

A3 – Retrait des unités hors champ

Une certaine proportion de tous les logements de l’échantillon est identifiée au moment de la collecte comme hors du champ de l’enquête. Les logements détruits ou en construction, les logements vacants, saisonniers ou secondaires, de même que les établissements institutionnels, sont autant de cas hors champ pour l’ESCC. Ces logements et leur poids sont retirés de l’échantillon, ne laissant plus que les logements entrant dans le champ de l’enquête, lesquels conservent le même poids qu’à l’étape précédente, que l’on appelle maintenant poids A3.

A4 – Non-réponses de ménages

Lors de la collecte, une certaine proportion des ménages de l’échantillon n’auront inévitablement pas répondu à l’enquête. Le poids des ménages non-répondants est redistribué aux répondants au sein de groupes de réponses homogènes (GRH).

Dans le but de créer ces GRH, la méthode du score basée sur des modèles de régression logistique est utilisée afin de déterminer les probabilités de réponse. Ces probabilités sont utilisées pour diviser l’échantillon en groupes de réponses de propriétés similaires.

L’information disponible sur les non-répondants étant limitée, le modèle de régression comprend donc des variables comme :

  • la période de la collecte;
  • l’information géographique;
  • les paradonnées, ce qui inclut le nombre de tentatives de contact avec le ménage;
  • l’heure et le jour des tentatives;
  • le fait que les tentatives ont eu lieu en semaine ou en fin de semaine.

Un facteur d’ajustement est calculé à l’intérieur de chaque GRH de la façon suivante :

        Somme du poids A3 pour tous les ménages        
Somme du poids A3 pour tous les ménages répondants

Le poids A3 est multiplié par ce facteur d’ajustement pour produire le poids A4 pour les ménages répondants. Les ménages non répondants sont éliminés à partir de ce point.

T0 – Poids initial

Le poids initial T0 est défini comme l’inverse de la probabilité de sélection et il est calculé différemment selon que l’échantillon provient de la base d’échantillonnage téléphonique par composition aléatoire ou de la liste téléphonique de base, car les méthodes de sélection sont différentes pour ces deux bases.

T1 – Nombre de périodes de collecte

Contrairement à la base aréolaire, pour laquelle tout l’échantillon est sélectionné au début de l’année, des échantillons sont tirés à chaque deux mois pour la base téléphonique.

À chacun de ces échantillons correspond un poids initial qui rend l’échantillon représentatif au niveau de la RS. Toutefois, pour que l’échantillon total ne représente qu’une seule fois la population, un facteur d’ajustement doit être appliqué pour réduire le poids de chaque échantillon bimestriel.

Le facteur d’ajustement appliqué à chaque échantillon bimestriel est égal à l’inverse du nombre d’échantillons combinés (le nombre de périodes de collecte). À partir de ce moment, l’échantillon de la base téléphonique correspond à la moyenne des échantillons des périodes de collecte combinées. Les poids initiaux sont multipliés par ce facteur d’ajustement afin de produire le poids T1.

T2 – Retrait des numéros hors champ

Les numéros de téléphone associés à des entreprises, à des établissements institutionnels ou à des logements hors du champ de l’enquête, de même que les numéros hors service sont autant de cas hors champ pour la base téléphonique. Comme pour la base aréolaire, ces cas sont simplement retirés, ne laissant ainsi dans l’échantillon que les logements entrant dans le champ de l’enquête. Ces derniers conservent le même poids qu’à l’étape précédente, que l’on appelle maintenant poids T2.

T3 – Non-réponses de ménages

L’ajustement fait à la présente étape pour compenser l’effet des non-réponses de ménages est identique à l’ajustement appliqué à la base aréolaire (ajustement A4). Par contre, les paradonnées utilisées diffèrent, car les modes de collecte ne sont pas les mêmes pour les entrevues en personne et par téléphone.

Le facteur d’ajustement calculé à l’intérieur de chaque classe est obtenu de la façon suivante :

        Somme des poids T2 pour tous les ménages       
Somme des poids T2 pour tous les ménages répondants

Le poids T2 des ménages répondants est multiplié par ce facteur d’ajustement pour produire le poids T3. Les ménages non répondants sont retirés à partir de ce point.

T4 – Lignes téléphoniques multiples

Le fait que certains ménages possèdent plus de une ligne téléphonique résidentielle a une incidence sur la pondération car plus le ménage a de lignes, plus grande est la probabilité qu’il soit sélectionné. Par conséquent, le poids de ces ménages doit être ajusté en fonction du nombre de lignes que chacun possède. Le facteur d’ajustement représente l’inverse du nombre de lignes que possède le ménage. Le poids T4 est obtenu en multipliant ce facteur par le poids T3.

2.7.2 Procédure de pondération pour l’EME-UE

Les principes sous-jacents au calcul des poids pour l’EME-UE sont identiques aux principes employés pour l’ESCC. Toutefois, d’autres ajustements ont été faits aux sous-poids des ménages de l’ESCC afin d’en dériver un poids final pour les enregistrements du fichier de microdonnées commun de l’EME-UE.

Diagramme B: HES – Aperçu de la procédure de pondération de l’EME-UE

Étapes de pondération
H0 : Sous-poids de l’ESCC
H1 : Poids initial de l’EME
H2 : Ajustement des non-réponses à l’EME
H3 : Ajustement des non-réponses à l’EME-UE
H4 : Ajustement pour les refus de transmission des données de l’EME-UE
H5 : Calage

H0 – Sous-poids de l’ESCC

Le sous-poids de l’ESCC est obtenu à la fin de l’étape I1 du processus de pondération de l’ESCC. Cette étape consiste à intégrer les poids des ménages communs aux deux bases (aréolaire et téléphonique) pour ne former qu’un seul poids en appliquant une méthode d’intégration.

Le facteur d’intégration est calculé comme suit :

Le facteur d’intégration.

où nA et nT représentent la taille des échantillons des deux bases, aréolaire et téléphonique, respectivement.

Le poids des unités de la base aréolaire est multiplié par le facteur a.

Le poids des unités de la base téléphonique est multiplié par 1a.

Le produit du facteur a et du poids de ménage final calculé auparavant (A4 ou T4 selon la base d’où provient l’unité) procure le poids intégré I1, que l’on nomme également le sous-poids de l’ESCC.

H1 – Poids initial de l’EME

L’échantillon de l’EME est un sous-échantillon aléatoire des répondants à l’ESCC. La première étape consiste à calculer la probabilité de sélection. Pour chaque logement sélectionné pour l’échantillon de l’EME, un facteur d’ajustement est défini comme l’inverse de sa probabilité de sélection à la deuxième étape. Ce facteur, multiplié par le poids H0, produit le poids H1.

H2 – Ajustement des non-réponses à l’EME

Le poids des ménages non répondants de l’EME est redistribué aux logements répondants à l’intérieur de GRH. Pour créer ces GRH, la méthode du score basée sur des modèles de régression logistique est utilisée afin de déterminer la probabilité de réponse, puis ces probabilités sont utilisées pour diviser l’échantillon en groupes de réponses de propriétés similaires.

Un facteur d’ajustement est calculé à l’intérieur de chaque GRH de la façon suivante :

        Somme des poids H1 de tous les logements       
Somme des poids H1 de tous les logements répondants

Le poids H1 des logements répondants est multiplié par ce facteur en vue de produire le poids H2. Les logements non répondants sont éliminés du processus de pondération à partir de ce point.

H3 – Ajustement des non-réponses à l’EME-UE

Cette étape est identique à l’étape H2. Le poids des logements non répondants de l’EME-UE est redistribué aux logements répondants à l’intérieur des GRH.

Un facteur d’ajustement est calculé à l’intérieur de chaque GRH de la façon suivante :

        Somme des poids H2 de tous les logements       
Somme des poids H2 de tous les logements répondants

Le poids H2 des logements répondants est multiplié par ce facteur pour produire le poids H3. Les logements non répondants de l’EME-UE sont éliminés du processus de pondération à partir de ce point.

H4 – Ajustement pour les refus de transmission des données de l’EME-UE

Cette étape est identique aux étapes précédentes. Le poids des logements qui ont refusé que les données de l’EME-UE soient transmises à RNCan est redistribué aux logements répondants qui ont accepté.

Un facteur d’ajustement est calculé à l’intérieur de chaque classe de la façon suivante :

                              Somme des poids H3 de tous les logements                             
Somme des poids H3 de tous les logements qui ont accepté la transmission des données

Le poids H3 est multiplié par ce facteur pour produire le poids H4. Les logements qui ont refusé la transmission des données de l’EME-UE sont éliminés du processus de pondération à partir de ce point.

H5 – Calage

La dernière étape nécessaire pour obtenir le poids final H5 de l’EME est le calage. Il est effectué afin de s’assurer que la somme des poids finaux corresponde aux estimations de populations définies à l’échelle de la province ou du territoire et à la taille des ménages (un, deux ou trois occupants et plus). Le poids H5 correspond au poids final de l’EME-UE que l’on retrouve dans le fichier de microdonnées commun portant le nom de variable WTHM.

Précédent | Table des matières | Suivant