Validité et fiabilité des tests psychométriques

Classé dans Informatique

Écrit le en français avec une taille de 9,62 KB

La validité : définition et concepts clés

La validité fournit un test direct de la façon dont l'instrument remplit sa fonction. Elle permet de déterminer ce qui exige des critères externes, indépendants de ce que le test tente de mesurer.

Les différents types de validité

  • Validité de construction : théorique, structurelle ou factorielle. Elle cherche à déterminer si le test est compatible avec le cadre théorique sur lequel il est fondé ; c'est une bonne opérationnalisation du concept mesuré. Elle nécessite l'accumulation progressive de différentes sources d'information.

Pour vérifier les corrélations, on peut mentionner d'autres instruments similaires comme preuve que le test mesure la même zone de comportement que d'autres portant le même nom. Si la corrélation est très élevée, cela signifie, cependant, que le nouveau test est une répétition de l'existant.

Exemple : Si les trois dimensions de la théorie de l'angoisse d'un auteur sont empiriques, la technique doit mesurer ces trois niveaux.

  • Validité de contenu : elle intervient lorsque l'on fait appel à des juges experts. Il s'agit d'une revue systématique des éléments de contenu. La validité est évaluée dès le début, depuis le choix des réactifs à utiliser jusqu'à la spécification de la zone à mesurer. Elle permet de déterminer si le test porte sur un échantillon représentatif de la zone de conduite à mesurer.
  • Validité de critères (empiriques) : elle fait allusion à l'utilisation pratique de la technologie dans le domaine d'application, en indiquant l'efficacité du test pour prédire la performance individuelle dans des activités spécifiques.
Validité concurrente

Elle consiste à déterminer si la technique donne les mêmes informations que celles qui pourraient être obtenues par d'autres moyens de mesure du même attribut. Vous devez vous référer à un autre itinéraire pour diagnostiquer l'état actuel plutôt que de prédire les résultats futurs. L'instrument est valable car il fournit un remplaçant simple, plus rapide et moins coûteux.

Exemple : CT (tumeurs) + autopsie. Test de Bender + observation d'un bébé de 5 semaines ; c'est un test valide parce qu'il fait gagner du temps.

Validité prédictive

Cette capacité est une technique utilisée pour prédire ce qui va arriver à la variable dans l'avenir. C'est la moins utilisée car il est difficile de prévoir en psychologie et complexe de mener des études longitudinales à long terme. Il n'est pas toujours nécessaire de le faire, bien qu'elle soit largement utilisée pour les tests de sélection du personnel et de classification.

La validité de critère est interprétée par le « coefficient de corrélation ». La corrélation entre les variables signifie une covariation (le degré auquel elles varient ensemble), mais cela ne signifie pas une causalité.

  • Si les deux montent ou descendent : corrélation +
  • Si l'une monte et l'autre descend : corrélation -
  • Il n'y a aucune relation entre les variables lorsque r = 0
  • Il y a une relation totale lorsque r = 1. Plus le r est proche de 1, plus la relation entre les variables est forte.
  • Validité concomitante : résultats des tests en relation avec les scores de critères externes.
  • Validité prédictive : signes de ponctuation entre un état présent et futur.

La validité apparente

Elle se réfère à ce que le test semble mesurer. Elle est étudiée lorsqu'un test est appliqué à un petit groupe lors d'administrations pilotes. Elle concerne la validité aux yeux du sujet ; s'il ne la perçoit pas, il est possible qu'il ne réponde pas franchement. Elle cherche à obtenir une meilleure attitude de réponse de la part des sujets.

Pour une personne travaillant dans une usine, pour que le test soit perçu comme valide, il est probable qu'il faille, par exemple, poser le problème en termes d'opérations avec des machines. Attention : on ne peut supposer que l'amélioration de la validité apparente améliore également la validité objective de l'épreuve !

La fiabilité : cohérence et précision

  • On peut avoir confiance dans les résultats obtenus par la technique, et non seulement dans la construction visée (validité).
  • Elle se réfère à la cohérence des scores obtenus par les mêmes personnes lorsqu'on leur applique le même critère ou un équivalent.
  • Elle est étroitement liée aux erreurs de mesure, puisque la mesure de la fiabilité permet de savoir quelle proportion de la variance totale des scores est due à la variance d'erreur.
  • Elle renvoie à la qualité du test en tant qu'outil de mesure.

Méthodes d'évaluation de la fiabilité

Plus vous avez de preuves, mieux c'est. Elles sont décrites dans le manuel et, chaque fois que le test est utilisé dans un nouveau contexte, elles doivent être recalculées.

L'administration de deux essais
  • Test / Re-test : appliquer le même test deux fois au même groupe. Cela n'est valable que si le groupe reste identique et si rien n'est venu influer sur le comportement durant l'intervalle (qui doit être court). Si l'intervalle est trop long, les sujets peuvent changer de statut ou de performance. Les corrélations diminuent à mesure que l'intervalle augmente. Il peut également y avoir des effets d'apprentissage. On calcule le coefficient de corrélation entre les deux résultats.
  • Formes parallèles ou équivalentes : les concepteurs construisent un test parallèle pour le même groupe, mesurant la même chose, avec le même nombre d'éléments, un contenu similaire et le même niveau de difficulté. On calcule ensuite le coefficient de corrélation. Cette méthode est peu utilisée car il est difficile de créer un test parfaitement parallèle.
L'administration unique
  • Moitié-moitié (Split-half) : on prend l'ensemble du test, puis on divise les données en deux (par exemple, items pairs vs impairs). On calcule le coefficient de corrélation des deux tests en parallèle. Cela permet d'obtenir deux scores pour le même sujet en une seule application.

Plus un test est long, plus il est fiable et nuancé car il évalue mieux le concept. Lorsqu'un test est bref, le coefficient de corrélation sera plus faible.

  • Cohérence interne (ou covariance) : elle se réfère à la corrélation entre un item et les autres. On calcule une moyenne de tous les coefficients estimés. Ce type d'analyse remplace la division par moitiés lorsque les tests sont très courts ou que les moitiés ne sont pas équivalentes.
  • Fiabilité inter-juges (Marqueur de fiabilité) : c'est une façon de normaliser les procédures. Elle garantit que deux correcteurs différents parviennent au même résultat.

Analyse des erreurs

a. Biais systématique

  • Relatif à la validité.
  • C'est une erreur de conception du test, et non une erreur aléatoire.
  • Il empêche la mesure précise et influence l'application du test.
  • Il fait varier les résultats selon les groupes (la probabilité de succès dépend de la sous-population).

Exemple : Dans les tests d'intelligence classiques, des enfants issus de milieux défavorisés peuvent paraître retardés car ils ne sont pas familiers avec le contenu (ex: s'ils ne connaissent pas la télévision, ils ne peuvent pas organiser l'image).

Cela est lié aux différences culturelles. Les adaptations doivent être équivalentes à plusieurs niveaux :

  • Conceptuel : démontrer que le construit a la même signification dans les deux cultures.
  • Linguistique : s'assurer que les éléments (objets, formes de réponse) ont la même signification verbale ou non.
  • Métrique : les notes doivent être valides, fiables et équivalentes. Si un test est normatif, il faut refaire l'étalonnage (les populations de Buenos Aires et d'Uruguay ne sont pas forcément équivalentes).

La validité est limitée par son degré d'universalité. On distingue :

  • Éthique : caractéristiques universelles du construit.
  • Émique : caractéristiques spécifiques à un groupe culturel.

b. Erreur de mesure aléatoire

  • Liée à la fiabilité.
  • C'est une erreur aléatoire lors de la passation, toujours présente par hasard.
  • On ne peut jamais mesurer le score vrai de manière absolue ; le score est toujours déduit.

Sources possibles :

  • Sujet testé : fatigue, sautes d'humeur.
  • Examinateur : son attitude peut modifier les performances.
  • Environnement : le bruit ou l'inconfort influencent les résultats.

Plus les conditions de passation et le rapport (climat de confiance) sont soignés, plus les erreurs sont réduites. L'erreur peut être estimée :

Score Vrai = Score Observé +/- Erreur

Exemple : Dans un test de QI avec une erreur de +/- 5, si un sujet marque 100, son score vrai est estimé entre 95 et 105.

Entrées associées :