PsychométrieLa psychométrie est la science des mesures pratiquées en psychologie (incluant les modalités de validation et d'élaboration de ces mesures). Elle s'applique à tous les champs de la psychologie, et à des domaines connexes (comme la recherche en comportement du consommateur par exemple). Elle a émergé avec l'intérêt croissant porté à la mesure des performances intellectuelles, suscité notamment par le développement de l'échelle métrique de l'intelligence du psychologue Alfred Binet et Théodore Simon (âges mentaux ou quotient intellectuel, quotients de développement dans la petite enfance, etc.) ou bien pour l'analyse des composantes de la personnalité (affectivité, émotions, relations avec les autres, etc.). Comme science de la mesure de l'esprit, elle mobilise les compétences de psychologues, mais aussi de statisticiens, mathématiciens, informaticiens, cliniciens et linguistes, et se base sur des procédures rigoureuses, s'appuyant notamment sur des techniques statistiques variées[1]. HistoireRemarque : Il existe une acception antérieure et différente du mot psychométrie, forgée en 1842 par le Dr Joseph Rodes Buchanan. Celui-ci présente dans son livre Manual of psychometry[2] une étude sur les capacités de certains sujets de percevoir, de manière extrasensorielle, des informations relatives à des lieux dans lesquels ils se trouvent ou à des objets qu'ils touchent. Il s'agissait donc d'une approche psychurge. Le premier sujet étudié par le Dr Buchanan fut le général « bishop » Léonidas Polk, qui pouvait notamment « reconnaître » du laiton, dans l'obscurité par un simple contact, lequel provoquait chez lui la perception, en bouche, d'un goût particulier lui permettant d'identifier le laiton.
Au sens plus contemporain du mot, la psychométrie s'est notamment développée en France. Le Royaume-Uni a abrité dans l’ancien laboratoire Cavendish, le premier laboratoire psychométrique au monde (en 1886-89), devenu en 2010 un réseau de recherche stratégique dans l’Université de Cambridge, pour en mars 2016 déménager à la Cambridge Judge Business School. En 1989, John Rust (directeur du MSc in Psychological Assessment in Organisations de l’Université de Londres et professeur de psychométrie du Royaume-Uni, aujourd'hui retraité), a obtenu le contrat de la Psychological Corporation pour normaliser le WISC (test et échelle d’intelligence de Wechsler pour les enfants). Le Centre de Psychométrie Fondée en 1989 à Londres par Rust a déménagé à la City University de Londres en 2003, puis à Cambridge en 2005 (basé à la Cambridge Judge Business School)[4]. Les tests psychométriques ont de nombreuses applications, dont par exemple dans les secteurs de l’éducation, de l’industrie et de la santé au travail, mais aussi dans le capitalisme de surveillance et les manipulations électorales comme l'a montré en 2016 le Scandale Facebook-Cambridge Analytica-Aggregate IQ. Questionnaire d’autoévaluationParmi les moyens de mesurer une caractéristique psychologique, le questionnaire d’autoévaluation (parfois appelé échelle de mesure ou simplement questionnaire) est le plus couramment utilisé. La relative brièveté d’administration des questionnaires d’autoévaluations et la possibilité de les utiliser auprès d’un grand nombre de personnes simultanément en font un moyen de mesure très prisé dans l’étude de l’être humain. Ces questionnaires sont des outils se composent d’items relatifs aux caractéristiques que l’on cherche à mesurer. Par exemple, une question que l’on pourrait poser si l’on voulait mesurer l’estime de soi chez un individu est : « Ai-je une attitude positive vis-à-vis de moi-même » (Rosenberg, 1965). Cela étant dit, il subsiste un problème de taille dans la tendance qu’a l’être humain à évaluer ses sentiments et comportements de façon erronée ou encore en voulant se présenter sous un jour favorable (voir pour un exemple de désirabilité sociale : Congard, Antoine, Ivanchak et Gilles, 2012). Dans le domaine de la psychométrie, les caractéristiques psychologiques comme l’estime de soi sont appelées « variables latentes » par opposition aux items que l’on utilise pour mesurer ces concepts, qui eux, sont appelés variables observées, items ou simplement questions. On utilise donc des items faisant référence à une idée que l’on se fait d’une caractéristique psychologique donnée pour mesurer une variable latente. Enfin, pour être persuadé de l’exactitude de la variable latente, on doit s’assurer que les items utilisés mesurent bien le concept auquel ils réfèrent, principe que l’on appelle de façon générale « validité interne ». On doit aussi s’assurer que les items utilisés fournissent des résultats reproductibles, exempts d'erreurs accidentelles, principe que l'on appelle « fidélité ». Finalement, on doit s’assurer que les résultats dépendent des caractéristiques de l’individu examiné plutôt que de toute autre caractéristique externe au questionnaire, comme l’influence d’un examinateur ou d’un bruit de l’environnement, principe que l'on appelle « objectivité ». Pour s’assurer d’avoir un questionnaire d’évaluation valide, fidèle et objectif, qui mesure correctement la variable latente, plusieurs techniques statistiques qui s’expriment en référence à ces trois concepts ont été développées. Qualité psychométrique : fidélité et validitéUn questionnaire d’autoévaluation, psychométrique, linguistique ou mathématique, est toujours composé de plusieurs questions. Dans tous les cas, on aimerait savoir si ce questionnaire d’autoévaluation, et donc les questions qui le composent, mesure vraiment ce que l’on cherche à mesurer. C'est pourquoi l’analyse de chaque question et la relation qu’ils entretiennent avec les autres questions du questionnaire d’autoévaluation, ainsi qu'avec le score total, sont primordiales. Dans le modèle du score vrai, plusieurs concepts peuvent être employés pour rendre compte de ces éléments. FidélitéLa fidélité ou fiabilité (en anglais : reliability) d'un test concerne sa capacité à mesurer un construit de manière cohérente : en d'autres termes, que la répétition de la mesure, soit dans le temps si le construit est supposé stable, soit en variant la formulation des questions, donne une estimation dont la variabilité diminue lorsque le nombre de points de mesure augmente. Certains des items sont parfois mesurés sur des échelles inversées (exemple de « je suis triste » et « je suis heureux »), afin de détecter des réponses trop « mécaniques » : il convient alors d'harmoniser ces échelles avant la poursuite du traitement. Une des mesures traditionnelles de la fiabilité, ou fidélité, est le coefficient alpha de Cronbach : on y compare la somme des variances des mesures à la variance de la somme des mesures. La valeur maximale 1 est atteinte lorsque toutes les mesures sont parfaitement corrélées. L'American Psychological Association considère un construit comme acceptable quand le coefficient alpha est au moins égal à .70[5],[6]. Lorsqu'il se rapproche de 1, la qualité de la mesure devient discutable[6] : il est alors probable que les items de mesure ne soient que de simples synonymes ou paraphrases, ce qui fait perdre tout son intérêt à cette répétition. ValiditéLe concept de validité regroupe souvent trois catégories : la validité de construit, la validité de contenu et la validité critérielle. Validité de construit (en anglais : construct validity)Il s'agit de savoir dans quelle mesure le test proposé permet d'identifier de manière certaine le construit mesuré (par exemple, pour reprendre l'exemple ci-dessus, mon test est probablement capable de mesurer l'humeur, mais même si les deux questions sont inversement corrélées, il donne vraisemblablement une mesure faible (ou fausse) de la taille ou de l'intelligence des sujets, donc une faible validité externe en tant que tests de taille ou d'intelligence, mais une forte validité en tant que test de l'humeur). Plusieurs types de validation peuvent et doivent être entrepris avant de prétendre à la validation d'un construit. Ce type de validité sous-tend également la validité convergente et la validité discriminante.
La validité convergente veille à la ressemblance entre notre test et un autre test censé mesurer le même construit psychologique. S'il existe une corrélation élevée entre les deux tests, la validité convergente est désignée comme bonne. Composante indispensable d'une étude de validité, la validité convergente concerne la capacité d'un test à identifier correctement les sujets dans les catégories réalisées. Elles sont réalisées avec l'appui d'autres critères diagnostiques, notamment en psychopathologie. Par exemple, il suffit qu'un test de schizophrénie vérifie que tous les schizophrènes diagnostiqués au cours d'entretiens cliniques avec un professionnel aient un score similaire pour prouver la validité convergente dudit test. Cependant la validité convergente, parfois confondue avec la validité du construit, ne suffit pas, et rend un test particulièrement incertain en l'absence de validité discriminante.
La validité discriminante veille à s'assurer de la dissemblance entre notre test et un autre test censé être différent. À l'inverse ici, si la corrélation entre les deux tests est faible, on peut estimer que l'on a une bonne validité discriminante. Par exemple, un test mesurant la dimension schizophrène de la personnalité n'atteint la validité discriminante que si les schizophrènes sont les seuls à avoir un score supérieur ou inférieur a une certaine moyenne. Si un test obtient une même réponse de tous les schizophrènes mesurés, il atteint la validité convergente, toutefois, si des personnes non schizophrènes formulent la même réponse qu'une personne schizophrène, le test n'aura pas une bonne validité discriminante. Validité de contenuLa validité de contenu cherche à vérifier la représentativité des items d'un instrument donné, au regard du construit étudié. En somme, il s'agit de vérifier si l'instrument mesure réellement ce qu'il est censé mesurer. Pour ce faire, on peut choisir de recourir à un expert dans le domaine choisi pour construire un instrument représentatif de toutes les facettes du phénomène psychologique étudié. Validité critérielleLa validité critérielle vise à établir le lien entre les performances effectives et les performances prédites par ledit test. Ce type de validité en sous-tend deux : la validité concourante et la validité prédictive.
Validité nomologiqueLa validité nomologique est le dernier élément permettant de conclure à la validité externe d'un test. On atteint la validité nomologique en prouvant une corrélation entre le test à valider et un autre test, déjà valide, qui mesure un construit qui devrait théoriquement être corrélé avec le construit mesuré (sans être le même construit). Par exemple, un test mesurant l'alcoolisme peut atteindre la validité nomologique si on peut prouver une corrélation statistiquement significative avec un test mesurant l'impulsivité des sujets, une relation théorique existant entre les deux construits alcoolisme et impulsivité Test de validité et de fidélité des instrumentsLa validité d'une méthode est son aptitude à mesurer ce qu'elle est censée mesurer, c'est-à-dire les variables telles qu'elles ont été définies avant leur opérationnalisation. La fidélité d'une méthode est son aptitude à fournir une mesure constante d'un phénomène constant. Les tests de validité et de fidélité sont pratiqués sur les données recueillies et par conséquent à la dernière phase de l'enquête, ce qui peut sembler à juste titre intervenir trop tard. ThéoriesThéorie Classique ou Modèle du score vraiLe modèle du score vrai, parfois appelé théorie classique des scores ou modèle classique, prend naissance avec les travaux de Spearman (1907). Mais le modèle du score vrai tel que nous le connaissons aujourd’hui est principalement dû aux travaux de Gulliksen (1950), Magnusson (1967) et Lord et Novick (1968). Ce modèle se veut, comme mentionné par Lord et Novick (1968), un modèle de score vrai avec des postulats faibles, par opposition par exemple au modèle de poisson qui lui est considéré comme un modèle de score vrai avec des postulats forts. L’avantage d’un modèle avec des postulats faibles est qu’il peut être utilisé dans une multitude de situations et comme son nom l’indique, ses postulats sont relativement faciles à satisfaire et peu nombreux (Laveault et Grégoire, 2002). Le modèle du score vrai permet d’évaluer à quel point un score obtenu à un test reflète bien la compétence ou l’aptitude d’un individu en question. L’équation de base sur laquelle ce modèle repose est la suivante : X=V+E. Le modèle du score vrai postule que le score observé d’un individu (X) résulte de la somme entre le score vrai de l’individu (V) et l’erreur de mesure associée à ce score (E). On suppose donc qu’un individu possède un score « vrai » qui nous est inconnu et qui le demeurera. Cependant, il est possible de tenter de mesurer ce score vrai, l’on considèrera alors qu’il y a toujours une certaine erreur de mesure plus ou moins importante et qui ne pourra jamais être évitée complètement. De ce fait, le score observé (X) n’est que le reflet variable du score vrai (V). À ce propos, Bertrand et Blais (2004) notent que :
Théorie de réponse à l'itemLa théorie de réponse à l'item (en) a été développée durant les années 1950-1960. On distingue deux courants de pensée ayant évolué séparément, l'un provenant des États-Unis avec Frederic M. Lord, l'autre provenant du Danemark avec Georg Rasch. Le nom théorie de réponse à l'item vient du fait que cette théorie se focalise sur l'item et non sur le test comme dans la théorie classique des tests. références
Voir aussiBibliographieManuels et textes généraux
Articles universitaires
Articles connexes |