Analyse factorielleL'analyse factorielle est un terme qui désigne aujourd'hui plusieurs méthodes d'analyses de grands tableaux rectangulaires de données, visant à déterminer et à hiérarchiser des facteurs corrélés aux données placées en colonnes. Au sens anglo-saxon du terme, l'analyse factorielle (factor analysis) désigne une méthode de la famille de la statistique multivariée, utilisée pour décrire un ensemble de variables observées, au moyen de variables latentes (non observées). Pour réduire le nombre de variables, la méthode calcule ces variables latentes comme combinaisons linéaires des variables observées. Créée au début du XXe siècle par Charles Spearman, cette méthode est utilisée en psychologie et particulièrement en psychométrie. Dans la méthodologie Q, Stephenson, un élève de Spearman, distingue l'analyse factorielle R, orientée sur les différences interindividuelles, et l'analyse factorielle Q, orientée sur les différences intra individuelles [1],[2]. En France, la terminologie « analyse factorielle » représente une autre famille de méthodes plus récentes et d'applications bien plus larges touchant la plupart des disciplines qui manipulent des grands tableaux de données[3]. Cette famille est composée principalement de l'analyse en composantes principales (ACP) et de l'analyse factorielle des correspondances (AFC), développée par Jean-Paul Benzécri à Rennes puis à Paris à partir des années 1960. DéfinitionDans le langage des praticiens français, le terme analyse factorielle désigne une sous-famille de méthodes de l'analyse des données, aux côtés des méthodes de classification automatique. En analyse factorielle, au sens français, on associe aux lignes et aux colonnes d’un tableau de données un nuage de points évoluant dans un espace de grande dimension. Plus précisément, si le tableau présente lignes et colonnes et a pour terme général (à l’intersection de la ligne et de la colonne ), on construit :
L’analyse factorielle (au sens de l’école française) analyse les nuages et au moyen de représentations sur des axes et des plans de ces nuages qui respectent autant que possible les proximités et distances entre points. Ces représentations sont obtenues en projetant chacun de ces nuages sur ses directions principales d’inertie (appelées aussi « axes principaux »)[4]. Dans la plupart des cas, on se contente de la représentation sur les premières directions d’inertie, voire sur le premier plan (dit plan 1,2) où l'on observe la silhouette la plus étendue du nuage de points. Plus précisément, pour choisir le nombre d'axes ou de plans à observer, on s'appuie sur le pourcentage d'information qui est représenté sur chacune de ces projections. Les représentations obtenues montrent les éléments les plus importants de la diversité des données et permettent de rechercher les facteurs descriptifs principaux. Elles constituent une visualisation irremplaçable du tableau des données. Méthodes d'analyse factorielleLes méthodes factorielles bénéficient d’une propriété remarquable connue sous le nom de dualité. Les coordonnées des points du nuage (dans ) obtenues par projection sur ses axes principaux sont liées aux coordonnées de (dans ) sur ses axes principaux. Les deux représentations (de et de ) doivent être étudiées ensemble (voire être représentées ensemble comme c’est le cas en AFC et ACM) et décrivent la même structure du tableau des données, l’une à partir des lignes et l’autre à partir des colonnes. Les méthodes d'analyses factorielles sont complémentaires et ont été développées progressivement en parallèle avec la généralisation des moyens informatiques de calcul en fonction des différents besoins des disciplines et des équipes.
L’analyse factorielle des correspondances mérite une mention particulière. Conçue au début des années 1960 par Jean-Paul Benzécri, alors professeur à la Faculté des sciences de Rennes, elle a été le point de cristallisation de l’École française d’analyse des données[6]. Dès le premier exposé de l’analyse factorielle des correspondances[7], l’accent est mis sur la géométrie : construction de nuages de points des lignes et des colonnes, définition d’une métrique (=distance : la fameuse distance du chi²) adaptée dans les espaces utilisés ( et ), représentation simultanée des lignes et des colonnes permise par la dualité, etc. Les présentations françaises de l'analyse en composantes principales doivent beaucoup à l’analyse factorielle des correspondances[8]. L’analyse factorielle au sens français est donc une famille de méthodes exploratoires : on aborde les données sans hypothèses a priori ; on examine ce que les données ont à dire. En cela, elles s’opposent à l’analyse factorielle de Spearman, dite quelquefois confirmatoire. Certains considèrent que l'analyse factorielle confirmatoire est en quelque sorte l’étape qui succède à une analyse factorielle exploratoire. Elle sert, comme son nom le dit, à confirmer le modèle à l’étude. Il s’agit d’un cas particulier de la modélisation par équation structurelle. En pratique, les utilisateurs ne mettent jamais en œuvre les deux types de méthodes sur les mêmes données, chacun ayant ses propres options. Enfin, la pratique de l’analyse factorielle au sens français va largement au-delà de la mise en œuvre d’une famille de méthodes. Au fil des temps, il s’est créé toute une méthodologie dont les éléments les plus remarquables sont la prise en compte d’éléments supplémentaires et l’enchaînement : analyse factorielle puis classification. Voir aussi
Notes et références
BibliographieJean-Paul Benzécri et al., L'Analyse des Données : 1 La Taxinomie, Paris, Dunod, , 615 p. (ISBN 2-04-003316-5) Jean-Paul Benzécri et al., L'Analyse des Données : 2 L'Analyse des correspondances, Paris, Dunod, , 619 p. (ISBN 2-04-007335-3) Brigitte Escofier-Cordier, « L'Analyse Factorielle des Correspondances », Cahiers du BURO (Bureau Universitaire de Recherche Opérationnelle), vol. 13, , p. 25-59 (lire en ligne [PDF]) Brigitte Escofier et Jérôme Pagès, Analyses factorielles simples et multiples : objectifs, méthodes et interprétation, Paris, Dunod, Paris, , 318 p. (ISBN 978-2-10-051932-3) François Husson, Sébastien Lê et Jérôme Pagès, Analyse des données avec R, Presses Universitaires de Rennes, , 224 p. (ISBN 978-2-7535-0938-2) Jérôme Pagès, Analyse factorielle multiple avec R, Les Ulis, EDP sciences, Paris, , 253 p. (ISBN 978-2-7598-0963-9) Liens externes
|