Distance de Wasserstein

Voici quelques notes autour de la distance de Wasserstein et du test d'ajustement de Wasserstein.

Définition de la distance de Wasserstein :

\mathcal{P}_2(\mathbb{R}): l’ensemble des mesures de probabilité sur \mathbb{R} ayant un moment d’ordre 2 fini.
La distance L_2 de Wasserstein entre deux éléments P_1 et P_2 de \mathcal{P}_2(\mathbb{R}) est définie par :
\mathcal{W}(P_1,P_2)=\inf \left\{[E(X_1-X_2)^2]^{1/2}:\mathcal{L}(X_1)=P_1, \mathcal{L}(X_2)=P_2\right\},
\mathcal{L}(X_1) signifie : la loi de X_1, et E : l’espérance mathématique.
Expression en fonction des fonctions de répartition inverses de P_1 et P_2 :
\mathcal{W}(P_1,P_2)=\left(\int_0^1(F_1^{-1}(t)-F_2^{-1}(t))^2dt\right)^{1/2}.

Définition du test de Wasserstein : (cf. [2])
P\in \mathcal{P}_2(\mathbb{R}) une mesure de probabilité de fonction de distribution inverse F^{-1}.
Test de Wasserstein d’ajustement à la loi P : une version empirique de la distance de Wasserstein.
Statistique de test pour un échantillon X_1, \dots, X_n :
r_n=\mathcal{W}^2(\mathbb{P}_n,P)=\int_0^1(F_n^{-1}(t)-F^{-1}(t))^2dt,
où respectivement
\mathbb{P}_n=\frac{1}{n}\sum_{i=1}^n\delta_{X_i} et F_n^{-1}(t)=X_{(i)} si \frac{i-1}{n}<t\leq \frac{i}{n}
sont la mesure empirique et la fonction quantile empirique associée à l’échantillon, définie pour t\in(0,1).
X_{(1)}, \dots, X_{(n)} désigne la statistique d'ordre. Pour des grandes valeurs de r_n, rejet de l’hypothèse d’ajustement à P (pour les valeurs critiques : cf. [2], [3]).

Ajustement à une famille de localisation et changement d’échelle : 

Distance de Wasserstein : bien adaptée au problème de l’ajustement à une famille de localisation et changement d’échelle. 
Raison : manière simple dont se traduit un changement dans la localisation et l’échelle sur la fonction quantile.
Si Y=\sigma X+\mu : F_Y=F\left(\frac{\cdot-\mu}{\sigma }\right) et F^{-1}_Y=\sigma F^{-1}_X+\mu, pour \sigma > 0.
F la fonction de répartition d'une loi de moyenne 0 et de variance 1. Famille de localisation et changement d'échelle \mathcal{H}_F associée :
\mathcal{H}_F=\left\{P_{\mu,\sigma},\mu \in \mathbb{R}, \sigma >0\right\}
P_{\mu,\sigma} a pour fonction de répartition inverse : \sigma F^{-1}+\mu.
Soit Q\in\mathcal{P}_2(\mathbb{R}) avec fonction de répartition inverse H^{-1}, moyenne \mu_0 et variance \sigma_0.
Distance de Wasserstein de Q à \mathcal{H}_F : la distance minimale entre H et un élément de la famille:
\mathcal{W}\left(Q,\mathcal{H}_F\right)=\textrm{inf}\left\{\mathcal{W}\left(Q,P_{\mu,\sigma}\right): \mu\in\mathbb{R}, \sigma>0\right\}.
Infimum atteint en (\mu, \sigma)=\left(\mu_0, \int_0^1H^{-1}(t)F^{-1}(t)dt\right) ; la valeur de l'infimum :
\mathcal{W}\left(Q,\mathcal{H}_F\right)=\left( \sigma_0^2-\left(\int_0^1H^{-1}(t)F^{-1}(t)dt\right)^2\right)^{1/2}.

Test de Wasserstein d'ajustement à la famille \mathcal{H}_F  :
une version empirique normalisée de cette distance (cf [2], [3]) :
\mathcal{R}_n=\frac{\mathcal{W}^2(\mathbb{P}_n,\mathcal{H}_F)}{S_n^2}=1-\frac{\left(\int_0^1F^{-1}_n(t)F^{-1}(t)dt\right)^2}{S_n^2},
S_n^2 est la variance empirique.

Propriétés connues du test de Wasserstein :

  • Distribution asymptotique sous hypothèse nulle pour le test de normalité : cf. [2].
  • Distribution asymptotique sous hypothèse nulle pour d'autres familles de localisation et changement d'échelle : cf. [3]. Les différents comportement sont liés au type d'extrêmes de la famille de distributions.

Mes travaux liés au test de Wasserstein :

  • Distribution asymptotique sous hypothèse alternative contiguë. Deux méthodes : approximation par une intégrale double par rapport au processus empirique (cf. [1]), et méthode directe pour des alternatives du type suivant : l'échantillon X_1, \dots, X_n a pour fonction de répartition inverse \Phi^{-1}_n, telle que pour une certaine fonction h de carré intégrable :
    h_n\stackrel{def}{=}\sqrt{n}(\Phi_n^{-1}-F^{-1})\stackrel{L^2(0,1)}{\longrightarrow} h.
  • Etudes d'efficacité locale asymptotique : cf. [1]. La courbure (au sens de Janssen, cf. [4]) permet de mettre en relief les alternatives qui sont le mieux détectées par le test en exhibant les directions d'alternative selon lesquelles la puissance est la plus importante.

Bibliographie :
[1] Boistard (2007), Efficacité asymptotique de tests liés à la statistique de Wasserstein. Thèse.
[2] E. del Barrio, J.A. Cuesta Albertos, C. Matrán et J.M. Rodríguez Rodríguez (1999). Tests of goodness of fit based on the L_2-Wasserstein distance. Ann. Statist., 27(4):1230–1239.
[3] E. del Barrio, J.A. Cuesta Albertos et C. Matrán (2000). Contributions of empirical and quantile processes to the asymptotic theory of goodness-of-fit tests. Test,9(1): 1–96.
[4] A. Janssen (1995). Principal component decomposition of non-parametric tests. Probab. Theory Related Fields, 101(2): 193–209.