Distance de Wasserstein | Hélène Boistard

Voici quelques notes autour de la distance de Wasserstein et du test d’ajustement de Wasserstein.

Définition de la distance de Wasserstein :

$\mathcal{P}_2(\mathbb{R})$: l’ensemble des mesures de probabilité sur $\mathbb{R}$ ayant un moment d’ordre 2 fini.
La distance $L_2$ de Wasserstein entre deux éléments $P_1$ et $P_2$ de $\mathcal{P}_2(\mathbb{R})$ est définie par :
$\mathcal{W}(P_1,P_2)=\inf \left\{[E(X_1-X_2)^2]^{1/2}:\mathcal{L}(X_1)=P_1, \mathcal{L}(X_2)=P_2\right\}$,
où $\mathcal{L}(X_1)$ signifie : la loi de $X_1$, et $E$ : l’espérance mathématique.
Expression en fonction des fonctions de répartition inverses de $P_1$ et $P_2$ :
$\mathcal{W}(P_1,P_2)=\left(\int_0^1(F_1^{-1}(t)-F_2^{-1}(t))^2dt\right)^{1/2}.$

Définition du test de Wasserstein : (cf. [2])
$P\in \mathcal{P}_2(\mathbb{R})$ une mesure de probabilité de fonction de distribution inverse $F^{-1}$.
Test de Wasserstein d’ajustement à la loi P : une version empirique de la distance de Wasserstein.
Statistique de test pour un échantillon $X_1, \dots, X_n$ :
$r_n=\mathcal{W}^2(\mathbb{P}_n,P)=\int_0^1(F_n^{-1}(t)-F^{-1}(t))^2dt$,
où respectivement
$\mathbb{P}_n=\frac{1}{n}\sum_{i=1}^n\delta_{X_i}$ et $F_n^{-1}(t)=X_{(i)}$ si $\frac{i-1}{n}<t\leq \frac{i}{n}$
sont la mesure empirique et la fonction quantile empirique associée à l’échantillon, définie pour $t\in(0,1)$.
$X_{(1)}, \dots, X_{(n)}$ désigne la statistique d’ordre. Pour des grandes valeurs de $r_n$, rejet de l’hypothèse d’ajustement à P (pour les valeurs critiques : cf. [2], [3]).

Ajustement à une famille de localisation et changement d’échelle :  
Distance de Wasserstein : bien adaptée au problème de l’ajustement à une famille de localisation et changement d’échelle.  Raison : manière simple dont se traduit un changement dans la localisation et l’échelle sur la fonction quantile.
Si $Y=\sigma X+\mu$ : $F_Y=F\left(\frac{\cdot-\mu}{\sigma }\right)$ et $F^{-1}_Y=\sigma F^{-1}_X+\mu$, pour $\sigma > 0$.
F la fonction de répartition d’une loi de moyenne 0 et de variance 1. Famille de localisation et changement d’échelle $\mathcal{H}_F$ associée :
$\mathcal{H}_F=\left\{P_{\mu,\sigma},\mu \in \mathbb{R}, \sigma >0\right\}$
où $P_{\mu,\sigma}$ a pour fonction de répartition inverse : $\sigma F^{-1}+\mu$.
Soit $Q\in\mathcal{P}_2(\mathbb{R})$ avec fonction de répartition inverse $H^{-1}$, moyenne $\mu_0$ et variance $\sigma_0$.
Distance de Wasserstein de $Q$ à $\mathcal{H}_F$ : la distance minimale entre $H$ et un élément de la famille:
$\mathcal{W}\left(Q,\mathcal{H}_F\right)=\textrm{inf}\left\{\mathcal{W}\left(Q,P_{\mu,\sigma}\right): \mu\in\mathbb{R}, \sigma>0\right\}$.
Infimum atteint en $(\mu, \sigma)=\left(\mu_0, \int_0^1H^{-1}(t)F^{-1}(t)dt\right)$ ; la valeur de l’infimum :
$\mathcal{W}\left(Q,\mathcal{H}_F\right)=\left( \sigma_0^2-\left(\int_0^1H^{-1}(t)F^{-1}(t)dt\right)^2\right)^{1/2}. $

Test de Wasserstein d’ajustement à la famille $\mathcal{H}_F$ :
une version empirique normalisée de cette distance (cf [2], [3]) :
$\mathcal{R}_n=\frac{\mathcal{W}^2(\mathbb{P}_n,\mathcal{H}_F)}{S_n^2}=1-\frac{\left(\int_0^1F^{-1}_n(t)F^{-1}(t)dt\right)^2}{S_n^2}$,
où $S_n^2$ est la variance empirique.

Propriétés connues du test de Wasserstein :

Distribution asymptotique sous hypothèse nulle pour le test de normalité : cf. [2].
Distribution asymptotique sous hypothèse nulle pour d’autres familles de localisation et changement d’échelle : cf. [3]. Les différents comportement sont liés au type d’extrêmes de la famille de distributions.

Mes travaux liés au test de Wasserstein :

Distribution asymptotique sous hypothèse alternative contiguë. Deux méthodes : approximation par une intégrale double par rapport au processus empirique (cf. [1]), et méthode directe pour des alternatives du type suivant : l’échantillon $X_1, \dots, X_n$ a pour fonction de répartition inverse $\Phi^{-1}_n$, telle que pour une certaine fonction $h$ de carré intégrable :
$h_n\stackrel{def}{=}\sqrt{n}(\Phi_n^{-1}-F^{-1})\stackrel{L^2(0,1)}{\longrightarrow} h.$
Etudes d’efficacité locale asymptotique : cf. [1]. La courbure (au sens de Janssen, cf. [4]) permet de mettre en relief les alternatives qui sont le mieux détectées par le test en exhibant les directions d’alternative selon lesquelles la puissance est la plus importante.

Bibliographie :
[1] Boistard (2007), Efficacité asymptotique de tests liés à la statistique de Wasserstein. Thèse.
[2] E. del Barrio, J.A. Cuesta Albertos, C. Matrán et J.M. Rodríguez Rodríguez (1999). Tests of goodness of fit based on the $L_2$-Wasserstein distance. Ann. Statist., 27(4):1230–1239.
[3] E. del Barrio, J.A. Cuesta Albertos et C. Matrán (2000). Contributions of empirical and quantile processes to the asymptotic theory of goodness-of-fit tests. Test,9(1): 1–96.
[4] A. Janssen (1995). Principal component decomposition of non-parametric tests. Probab. Theory Related Fields, 101(2): 193–209.