Le théorème de Basu, ou lemme de Basu, est un résultat de statistique établi en 1955 par le statisticien Debabrata Basu. Il indique qu'une statistique exhaustive et complète est indépendante de toute statistique libre. Ce théorème a de nombreuses applications dans différentes branches des statistiques et est aujourd'hui considéré comme un résultat fondamental de la discipline.
Énoncé
Exhaustivité, complétude et liberté d'une statistique
Le théorème de Basu utilise les notions d'exhaustivité, de complétude et de liberté d'une statistique. Rappelons les définitions de ces notions.
Une statistique est exhaustive pour si la distribution de conditionnellement à ne dépend pas de .
Une statistique est complète si l'implication suivante est vraie pour toute fonction mesurable à valeurs réelles : si pour tout , , alors pour tout .
Une statistique est libre pour si sa distribution ne dépend pas de .
Énoncé et démonstration
Théorème — Soit une famille de distributions indicée par un paramètre , générant une variable aléatoire à valeurs dans un espace mesurable (par exemple dans le cas où est un échantillon de variables aléatoires réelles). Soit une statistique exhaustive et
complète(en)
pour .
Notons et les espaces (mesurables) dans lesquels et prennent leurs valeurs respectivement.
Rappelons que :
puisque est libre pour , sa distribution ne dépend pas de ,
puisque est exhaustive pour , pour la distribution de conditionnellement à ne dépend pas de . En particulier, la distribution de conditionnellement à ne dépend pas de ,
puisque est complète pour , si une fonction de dans satisfait pour tout , alors avec probabilité 1.
Donc ne dépend pas de , mais uniquement de . Appelons , nous avons donc
.
Comme cette égalité est valide pour tout , et comme est complète pour , on en déduit que avec probabilité 1, c'est-à-dire que
avec probabilité 1.
Comme cela est vrai pour tout mesurable, cela implique que et sont indépendants.
En effet, pour un ensemble mesurable B de ,
.
Remarques
La condition de complétude de peut être remplacée par la condition moins forte de complétude bornée : si pour une fonction mesurable et bornée à valeurs dans , pour tout , alors avec probabilité 1 pour tout .
Le théorème est parfois écrit en exigeant que soit une statistique minimale. Cette condition n'est pas nécessaire, mais elle peut paraître naturelle car le théorème de Bahadur(en) garantit que, s'il existe une statistique minimale, une statistique complète et exhaustive est nécessairement minimale.
Exemples
Loi normale
Considérons une loi normale d'espérance et de variance . Soit variables aléatoires indépendantes issues de cette loi normale.
Moyenne et variance empiriques
La moyenne empirique est une statistique exhaustive et complète pour . Cela se montre en utilisant le fait que la loi normale fait partie de la famille exponentielle.
La variance empirique est une statistique libre pour . En effet, la distribution de est une loi du à degrés de liberté. La distribution de ne dépend donc pas de .
Alors et sont indépendantes.
Statistique de Student
Supposons que l'espérance soit connue et égale à .
L'estimateur non biasée de la variance est une statistique exhaustive et complète pour .
La statistique du test de Student est une statistique libre pour car sa distribution est une loi de Student à degrés de liberté (qui ne dépend donc pas de ).
Les statistiques et sont donc indépendantes.
Loi gamma
Considérons une loi gamma de paramètre de forme et d'intensité . La densité associée est pour . Soit variables aléatoires indépendantes issues de cette loi gamma.
est une statistique complète et exhaustive pour . Cela se montre en utilisant le fait que la loi gamma fait partie de la famille exponentielle.
La statistique est libre pour car c'est une statistique invariante pour l'échelle.
Statistiques de rang pour un modèle non paramétrique
Considérons la famille de distributions générant des variables aléatoires indépendantes et identiquement distribuées selon un distribution admettant une fonction de densité continue sur : . Il s'agit d'un cas inhabituel de famille de distributions où le paramètre est la densité .
Il est possible de démontrer que l'échantillon ordonnés des valeurs les plus faibles aux plus grandes, est une statistique exhaustive et complète[2].
Notons les rangs de l'échantillon (par exemple si prend la plus grande valeur de l'échantillon). Alors la distribution de ne dépend pas de . Il s'agit donc d'une statistique libre.
Alors l'échantillon ordonné est indépendant des rangs de l'échantillon[3].
Réciproque
Il existe un résultat proche d'une réciproque du théorème de Basu indiquant que si une statistique est indépendante d'une statistique exhaustive pour toute valeur du paramètre , alors est libre pour . La complétude de la statistique exhaustive n'est plus nécessaire, mais ce résultat vient au prix d'une condition supplémentaire sur le modèle pour lequel il ne doit pas exister d'événement séparant, c'est-à-dire qu'il ne doit pas exister d'événement qui soit impossible pour certaines valeurs du paramètre mais certain pour d'autres valeurs du paramètre.
Énoncé
Théorème — Soit une famille de distributions indicée par un paramètre , générant une variable aléatoire à valeurs dans un espace mesurable (par exemple dans le cas où X est un échantillon de variables aléatoires réelles). Soit une statistique exhaustive pour à valeurs dans . Supposons que de plus qu'il n'existe pas d'événement séparant pour , c'est-à-dire qu'il n'existe pas d'événement tel que pour certaines valeurs de et pour d'autres valeurs de .
Si est une statistique indépendante de pour tout , alors est libre pour .
Démonstration
Pour démontrer ce résultat, précédons par l'absurde. Supposons que les hypothèses du théorème sont vérifiées et supposons aussi qu'il existe une statistique indépendante de pour tout et dont la distribution dépend de .
Pour plus de clarté, notons une probabilité calculée en supposant la valeur du paramètre.
Puisque la distribution de dépend de , il existe , et tels que .
Comme est exhaustive, ne dépend pas de . Pour insister sur ce fait, notons , qui ne dépend que de .
Par ailleurs, comme et sont indépendantes, pour tout , avec probabilité 1. Cela peut se réécrire avec probabilité 1, ou encore .
Notons et . On a car la fonction ne peut pas prendre plusieurs valeurs à la fois et .
Comme pour tout , on a et de même . Comme et sont disjoints .
On a là une contradiction de l'hypothèse qu'il n'existe pas d'événement séparant, car l'événement a une probabilité 1 sous et une probabilité nulle sous .
Démonstration intuitive mais inexacte
Donnons ici une démonstration simple et intuitive, bien qu'inexacte, de la réciproque du théorème de Basu.
Démonstration
Soit un ensemble mesurable de . Comme est exhaustive, ne dépend pas de . Par ailleurs, comme et sont indépendantes, . On en déduit donc que ne dépend pas de . Comme cela est vrai pour tout événement , nous avons bien montré que est libre pour .
Erreur
Cette démonstration n'utilise pas la condition de non-existence d'événement séparant pour le modèle et est donc fausse, comme le montre le contre-exemple donné plus loin.
L'erreur de cette preuve provient de l'implication « comme et sont indépendantes, » qui doit être corrigée en « comme et sont indépendantes, , avec probabilité 1». Comme la précision «avec probabilité 1» dépend de la loi de probabilité considérée, elle dépend en réalité du paramètre . Cela complique les choses et ne permet donc pas de conclure sans hypothèse supplémentaire sur le modèle .
Cette démonstration a été publiée par Basu en 1955[4] et corrigée 3 ans plus tard[5]. Bien qu’erronée à cause d'un point technique, elle permet de donner une intuition du théorème et de sa preuve qui, bien qu'un peu plus technique, reste guidée par le même argument.
Contre exemple
Donnons ici un exemple de modèle statistique pour lequel il existe des statistiques libres mais non indépendantes de statistiques exhaustives, ce modèle ne satisfaisant pas la condition de non-séparabilité.
Soit une variable aléatoire issue d'une distribution uniforme sur un intervalle où .
La densité de peut s'écrire , où désigne la partie entière de et où désigne la fonction indicatrice du singleton , qui vaut 1 si son argument est égal à et 0 sinon. Le théorème de factorisation de Fisher–Neyman indique alors que est une statistique exhaustive pour .
Cependant pour un donné, la statistique est constante, égale à , elle est donc indépendante de toute autre statistique, en particulier de . Cependant, n'est pas libre car sa distribution dépend bien de ( est même également exhaustive).
La réciproque du théorème de Basu n'est donc pas respectée dans ce cas particulier. Cela est rendu possible par le fait que le modèle statistique considéré est séparable: l'événement a une probabilité de 1 si , mais une probabilité de 0 si par exemple[6].
Autres réciproques
D'autres réciproques du théorème de Basu ont été établies, cherchant par exemple à établir la complétude d'une statistique exhaustive qui serait indépendante de toute statistique libre. Cependant ces résultats sont plus techniques, utilisent des notions modifiées de complétude et ont eu un impact moindre[7].
Histoire
Basu a donné la première version de ce théorème en 1955 dans un article intitulé On Statistics Independent of a Complete Sufficient Statistic, publié dans le journal de l'Institut indien de statistiques : Sankhyā: The Indian Journal of Statistics[4]. Cette première publication met surtout en avant la réciproque du théorème plutôt que ce qui sera retenu comme le théorème lui-même. Une erreur dans la démonstration de la réciproque est rapidement notée et une version corrigée est publiée en 1958 dans le même journal[5]. Le théorème de Basu, établissant un lien fort entre les notions de complétude, d'exhaustivité et de liberté, a rapidement trouvé de nombreuses applications. Il est aujourd'hui inclus dans des livres de référence de statistiques[8],[2].
Applications
Le théorème de Basu trouve de nombreuses applications dans différentes branches des statistiques. Donnons ici une liste non exhaustive d'applications de ce théorème.
Il peut simplifier le calcul de moments de variables aléatoires, lorsque celles-ci peuvent s'écrire comme un produit ou comme une somme d'une statistique exhaustive et complète et d'une statistique libre[3].
Pour certains tests d'hypothèses, il permet d'établir la distribution exacte d'une statistiques de test[9].
Le théorème de Basu est au cœur de l'astuce du Monte Carlo swindle, permettant d'améliorer la précision de certaines méthodes de Monte-Carlo[10].
↑ a et bE. L. Lehmann, Testing statistical hypotheses, Wiley, coll. « Wiley series in probability and mathematical statistics », (ISBN978-0-471-84083-1)
↑ a et bMalay Ghosh, « Basu's Theorem with Applications: A Personalistic Review », Sankhyā: The Indian Journal of Statistics, Series A (1961-2002), vol. 64, no 3, , p. 509–531 (ISSN0581-572X, lire en ligne, consulté le )
↑ a et bD. Basu, « On Statistics Independent of a Complete Sufficient Statistic », Sankhyā: The Indian Journal of Statistics (1933-1960), vol. 15, no 4, , p. 377–380 (ISSN0036-4452, lire en ligne, consulté le )
↑ a et bD. Basu, « On Statistics Independent of Sufficient Statistics », Sankhyā: The Indian Journal of Statistics (1933-1960), vol. 20, nos 3/4, , p. 223–226 (ISSN0036-4452, lire en ligne, consulté le )
↑Uwe Koehn et D. L. Thomas, « On Statistics Independent of a Sufficient Statistic: Basu's Lemma », The American Statistician, vol. 29, no 1, , p. 40 (ISSN0003-1305, DOI10.2307/2683680, lire en ligne, consulté le )
↑E. L. Lehmann, « An Interpretation of Completeness and Basu's Theorem », Journal of the American Statistical Association, vol. 76, no 374, , p. 335–340 (ISSN0162-1459, DOI10.2307/2287834, lire en ligne, consulté le )
↑George Casella et Roger W. Berger, Statistical inference, CRC Press, coll. « CRC texts in statistical science series », (ISBN978-1-032-59303-6 et 978-1-032-59794-2)
↑Robert V. Hogg et Allen T. Craig, « Sufficient Statistics in Elementary Distribution Theory », Sankhyā: The Indian Journal of Statistics (1933-1960), vol. 17, no 3, , p. 209–216 (ISSN0036-4452, lire en ligne, consulté le )
↑(en) Gauri Sankar Datta, Malay Ghosh, David Daniel Smith et Parthasarathi Lahiri, « On an Asymptotic Theory of Conditional and Unconditional Coverage Probabilities of Empirical Bayes Confidence Intervals », Scandinavian Journal of Statistics, vol. 29, no 1, , p. 139–152 (ISSN0303-6898 et 1467-9469, DOI10.1111/1467-9469.t01-1-00143, lire en ligne, consulté le )
↑Morris L. Eaton et Carl N. Morris, « The Application of Invariance to Unbiased Estimation », The Annals of Mathematical Statistics, vol. 41, no 5, , p. 1708–1716 (ISSN0003-4851 et 2168-8990, DOI10.1214/aoms/1177696815, lire en ligne, consulté le )