Distance de Wasserstein

Voici quelques notes autour de la distance de Wasserstein et du test d’ajustement de Wasserstein.

Définition de la distance de Wasserstein :

$\mathcal{P}_2(\mathbb{R})$: l’ensemble des mesures de probabilité sur $\mathbb{R}$ ayant un moment d’ordre 2 fini.
La distance $L_2$ de Wasserstein entre deux éléments $P_1$ et $P_2$ de $\mathcal{P}_2(\mathbb{R})$ est définie par :
$\mathcal{W}(P_1,P_2)=\inf \left\{[E(X_1-X_2)^2]^{1/2}:\mathcal{L}(X_1)=P_1, \mathcal{L}(X_2)=P_2\right\}$,
où $\mathcal{L}(X_1)$ signifie : la loi de $X_1$, et $E$ : l’espérance mathématique.
Expression en fonction des fonctions de répartition inverses de $P_1$ et $P_2$ :
$\mathcal{W}(P_1,P_2)=\left(\int_0^1(F_1^{-1}(t)-F_2^{-1}(t))^2dt\right)^{1/2}.$

Définition du test de Wasserstein : (cf. [2])
$P\in \mathcal{P}_2(\mathbb{R})$ une mesure de probabilité de fonction de distribution inverse $F^{-1}$.
Test de Wasserstein d’ajustement à la loi P : une version empirique de la distance de Wasserstein.
Statistique de test pour un échantillon $X_1, \dots, X_n$ :
$r_n=\mathcal{W}^2(\mathbb{P}_n,P)=\int_0^1(F_n^{-1}(t)-F^{-1}(t))^2dt$,
où respectivement
$\mathbb{P}_n=\frac{1}{n}\sum_{i=1}^n\delta_{X_i}$ et $F_n^{-1}(t)=X_{(i)}$ si $\frac{i-1}{n}<t\leq \frac{i}{n}$
sont la mesure empirique et la fonction quantile empirique associée à l’échantillon, définie pour $t\in(0,1)$.
$X_{(1)}, \dots, X_{(n)}$ désigne la statistique d’ordre. Pour des grandes valeurs de $r_n$, rejet de l’hypothèse d’ajustement à P (pour les valeurs critiques : cf. [2], [3]).

Ajustement à une famille de localisation et changement d’échelle :  
Distance de Wasserstein : bien adaptée au problème de l’ajustement à une famille de localisation et changement d’échelle.  Raison : manière simple dont se traduit un changement dans la localisation et l’échelle sur la fonction quantile.
Si $Y=\sigma X+\mu$ : $F_Y=F\left(\frac{\cdot-\mu}{\sigma }\right)$ et $F^{-1}_Y=\sigma F^{-1}_X+\mu$, pour $\sigma > 0$.
F la fonction de répartition d’une loi de moyenne 0 et de variance 1. Famille de localisation et changement d’échelle $\mathcal{H}_F$ associée :
$\mathcal{H}_F=\left\{P_{\mu,\sigma},\mu \in \mathbb{R}, \sigma >0\right\}$
où $P_{\mu,\sigma}$ a pour fonction de répartition inverse : $\sigma F^{-1}+\mu$.
Soit $Q\in\mathcal{P}_2(\mathbb{R})$ avec fonction de répartition inverse $H^{-1}$, moyenne $\mu_0$ et variance $\sigma_0$.
Distance de Wasserstein de $Q$ à $\mathcal{H}_F$ : la distance minimale entre $H$ et un élément de la famille:
$\mathcal{W}\left(Q,\mathcal{H}_F\right)=\textrm{inf}\left\{\mathcal{W}\left(Q,P_{\mu,\sigma}\right): \mu\in\mathbb{R}, \sigma>0\right\}$.
Infimum atteint en $(\mu, \sigma)=\left(\mu_0, \int_0^1H^{-1}(t)F^{-1}(t)dt\right)$ ; la valeur de l’infimum :
$\mathcal{W}\left(Q,\mathcal{H}_F\right)=\left( \sigma_0^2-\left(\int_0^1H^{-1}(t)F^{-1}(t)dt\right)^2\right)^{1/2}. $

Test de Wasserstein d’ajustement à la famille $\mathcal{H}_F$ :
une version empirique normalisée de cette distance (cf [2], [3]) :
$\mathcal{R}_n=\frac{\mathcal{W}^2(\mathbb{P}_n,\mathcal{H}_F)}{S_n^2}=1-\frac{\left(\int_0^1F^{-1}_n(t)F^{-1}(t)dt\right)^2}{S_n^2}$,
où $S_n^2$ est la variance empirique.

Propriétés connues du test de Wasserstein :

Distribution asymptotique sous hypothèse nulle pour le test de normalité : cf. [2].
Distribution asymptotique sous hypothèse nulle pour d’autres familles de localisation et changement d’échelle : cf. [3]. Les différents comportement sont liés au type d’extrêmes de la famille de distributions.

Mes travaux liés au test de Wasserstein :

Distribution asymptotique sous hypothèse alternative contiguë. Deux méthodes : approximation par une intégrale double par rapport au processus empirique (cf. [1]), et méthode directe pour des alternatives du type suivant : l’échantillon $X_1, \dots, X_n$ a pour fonction de répartition inverse $\Phi^{-1}_n$, telle que pour une certaine fonction $h$ de carré intégrable :
$h_n\stackrel{def}{=}\sqrt{n}(\Phi_n^{-1}-F^{-1})\stackrel{L^2(0,1)}{\longrightarrow} h.$
Etudes d’efficacité locale asymptotique : cf. [1]. La courbure (au sens de Janssen, cf. [4]) permet de mettre en relief les alternatives qui sont le mieux détectées par le test en exhibant les directions d’alternative selon lesquelles la puissance est la plus importante.

Bibliographie :
[1] Boistard (2007), Efficacité asymptotique de tests liés à la statistique de Wasserstein. Thèse.
[2] E. del Barrio, J.A. Cuesta Albertos, C. Matrán et J.M. Rodríguez Rodríguez (1999). Tests of goodness of fit based on the $L_2$-Wasserstein distance. Ann. Statist., 27(4):1230–1239.
[3] E. del Barrio, J.A. Cuesta Albertos et C. Matrán (2000). Contributions of empirical and quantile processes to the asymptotic theory of goodness-of-fit tests. Test,9(1): 1–96.
[4] A. Janssen (1995). Principal component decomposition of non-parametric tests. Probab. Theory Related Fields, 101(2): 193–209.

Travail en collaboration avec Eustasio del Barrio.

Article paru dans Statistics and Probability Letters, vol. 79(2), p. 188-195, 2009. Télécharger une version de l’article.

Dans cet article, nous donnons des résultats de convergence faible d’intégrales multiples par rapport au processus empirique. Nous considérons des objets du type
$$J_{n,m}(h)=\int’h(x_1, \dots, x_m)d\mathbb{G}_n(x_1)\dots \mathbb{G}_n(x_m),$$
où h est une fonction réelle symétrique de carré intégrable de m variables, l’échantillon $$X_1, \dots, X_n$$ est supposé i.i.d. de loi P, $$\mathbb{P}_n=\frac{1}{n}\sum_{i=1}^n\delta_{X_i}$$ et $$\mathbb{G}_n=\sqrt{n}(\mathbb{P}_n-P)$$ sont respectivement la mesure empirique et le processus empirique. $$\int’$$ est l’intégrale en dehors de la diagonale. Nous incluons le cas de noyaux non dégénérés par rapport à la distribution sous-jacente. Nos résultats sont reliés à des résultats antérieurs sur les U-statistiques. Nous introduisons une intégrale stochastique par rapport au pont brownien qui nous permet d’exprimer la limite de manière unifiée dans les cas dégénéré et non dégénéré. L’utilisation de l’intégrale multiple par rapport au processus empirique présente un avantage par rapport aux U-statistiques : le Théorème de la Limite Centrale que nous obtenons est plus simple. Il ne met pas en jeu la dégénération du noyau et la limite est exprimée de façon précise.

Distance de Wasserstein

Théorème de la limite centrale pour des intégrales multiples par rapport au processus empirique

Thèse : efficacité asymptotique de tests liés à la statistique de Wasserstein