Pinsker不等式建立了两个概率分布的total variation距离和KL散度间的关系。我们先看它的一般形式,然后再证明其离散形式,一般情形的证明方法是完全一致的。
证明方法将会摘录三种。第一种自然一些,从Hoeffding不等式出发,利用信息论中的结果,步步为营。第二种技巧性更强,利用微积分中的技巧,巧妙地得出一个关键性不等式估计后快速得证。第三种也是利用了信息论中的结果,我们需要的是KL散度的data processing不等式,在这个基础上,只需要证明Bernoulli变量的情形就可以了,简洁明快。
三种证法分别改编自以下资料:
BOBKOV, Sergej G.; GÖTZE, Friedrich. Exponential integrability and transportation cost related to logarithmic Sobolev inequalities. Journal of Functional Analysis, 1999, 163.1: 1-28.
Probability tools, tricks, and miracles ©David Pollard
CANONNE, Clément L. A short note on an inequality between KL and TV. arXiv preprint arXiv:2202.07198, 2022.
其中证明三存在一定gap,已经补充在最后一节。
一般形式
这两个量定义的一般定义为
∥ P − Q ∥ T V = sup A ∣ P ( A ) − Q ( A ) ∣ = 1 2 sup A ( ( P − Q ) ( A ) − ( P − Q ) ( A c ) ) , D K L ( P ∥ Q ) = E Q [ d P d Q log d P d Q ] = E P [ log d P d Q ] , P ≪ Q . ∥ P − Q ∥ T V = sup A ∣ P ( A ) − Q ( A ) ∣ = 1 2 sup A ( ( P − Q ) ( A ) − ( P − Q ) ( A c ) ) , D K L ( P ∥ Q ) = E Q [ d P d Q log d P d Q ] = E P [ log d P d Q ] , P ≪ Q . \begin{aligned}
\|P-Q\| _ {\mathrm{TV}}&=\sup _ A|P(A)-Q(A)|=\frac12\sup _ A((P-Q)(A)-(P-Q)(A^c)),\\
D _ {\mathrm{KL}}(P\|Q)&=\mathbb E _ {Q}\Big[\frac{\mathrm dP}{\mathrm dQ}\log\frac{\mathrm dP}{\mathrm dQ}\Big]=\mathbb E _ P\Big[\log\frac{\mathrm dP}{\mathrm dQ}\Big],\quad P\ll Q.
\end{aligned}\begin{aligned}
\|P-Q\| _ {\mathrm{TV}}&=\sup _ A|P(A)-Q(A)|=\frac12\sup _ A((P-Q)(A)-(P-Q)(A^c)),\\
D _ {\mathrm{KL}}(P\|Q)&=\mathbb E _ {Q}\Big[\frac{\mathrm dP}{\mathrm dQ}\log\frac{\mathrm dP}{\mathrm dQ}\Big]=\mathbb E _ P\Big[\log\frac{\mathrm dP}{\mathrm dQ}\Big],\quad P\ll Q.
\end{aligned} ∥ P − Q ∥ T V D K L ( P ∥ Q ) = A sup ∣ P ( A ) − Q ( A ) ∣ = 2 1 A sup ( ( P − Q ) ( A ) − ( P − Q ) ( A c ) ) , = E Q [ d Q d P log d Q d P ] = E P [ log d Q d P ] , P ≪ Q . ∥ P − Q ∥ T V D K L ( P ∥ Q ) = A sup ∣ P ( A ) − Q ( A ) ∣ = 2 1 A sup ( ( P − Q ) ( A ) − ( P − Q ) ( A c ) ) , = E Q [ d Q d P log d Q d P ] = E P [ log d Q d P ] , P ≪ Q . 当P ≪̸ Q P\not\ll Q P ≪ Q ,KL散度定义为+ ∞ +\infty + ∞ 。KL散度也可以等价定义为(可参见 信息论基本内核 ):
D KL ( P ∥ Q ) = { − E P [ log d Q d P ] , Q ≪ P ; + ∞ , Q ≪̸ P . { − E P [ log d Q d P ] , Q ≪ P ; + ∞ , Q ≪̸ P . D _ {\text{KL}}(P\|Q)=
\begin{cases}
-\mathbb E _ P\Big[\log\frac{\mathrm dQ}{\mathrm dP}\Big],& Q\ll P;\\
+\infty,&Q\not\ll P.
\end{cases}\begin{cases}
-\mathbb E _ P\Big[\log\frac{\mathrm dQ}{\mathrm dP}\Big],& Q\ll P;\\
+\infty,&Q\not\ll P.
\end{cases} D KL ( P ∥ Q ) = { − E P [ log d P d Q ] , + ∞ , Q ≪ P ; Q ≪ P . { − E P [ log d P d Q ] , + ∞ , Q ≪ P ; Q ≪ P .
Pinsker不等式 :考虑log \log log 的底数取e \mathrm e e ,那么
∥ P − Q ∥ T V 2 ⩽ 1 2 D K L ( P ∥ Q ) . \|P-Q\| _ {\mathrm{TV}}^2\leqslant \frac12D _ {\mathrm{KL}}(P\|Q). ∥ P − Q ∥ T V 2 ⩽ 2 1 D K L ( P ∥ Q ) .
离散形式证明一
现在来考虑Pinsker不等式的离散形式。不难看出,若令A ∗ = { x ∣ p ( x ) ⩾ q ( x ) } A^\ast=\{x\mid p(x)\geqslant q(x)\} A ∗ = { x ∣ p ( x ) ⩾ q ( x ) } ,TV距离可以写成
sup A ∣ P ( A ) − Q ( A ) ∣ = P ( A ∗ ) − Q ( A ∗ ) . \sup _ A|P(A)-Q(A)|=P(A^\ast)-Q(A^\ast). A sup ∣ P ( A ) − Q ( A ) ∣ = P ( A ∗ ) − Q ( A ∗ ) . 注意到P , Q P,Q P , Q 均为概率分布,∣ P ( A ) − Q ( A ) ∣ |P(A)-Q(A)| ∣ P ( A ) − Q ( A ) ∣ 和∣ P ( A c ) − Q ( A c ) ∣ |P(A^c)-Q(A^c)| ∣ P ( A c ) − Q ( A c ) ∣ 是相等的。因此TV距离和L1距离有如下关系
∥ P − Q ∥ T V = 1 2 ∥ P − Q ∥ 1 = 1 2 ∑ x ∣ p ( x ) − q ( x ) ∣ . \|P-Q\| _ {\mathrm{TV}}=\frac12\|P-Q\| _ 1=\frac12\sum _ x|p(x)-q(x)|. ∥ P − Q ∥ T V = 2 1 ∥ P − Q ∥ 1 = 2 1 x ∑ ∣ p ( x ) − q ( x ) ∣ . 而KL散度可以写成
D K L ( P ∥ Q ) = ∑ x p ( x ) ln p ( x ) q ( x ) = − ∑ x p ( x ) ln q ( x ) p ( x ) . D _ {\mathrm{KL}}(P\|Q)=\sum _ x p(x)\ln\frac{p(x)}{q(x)}=-\sum _ x p(x)\ln\frac{q(x)}{p(x)}. D K L ( P ∥ Q ) = x ∑ p ( x ) ln q ( x ) p ( x ) = − x ∑ p ( x ) ln p ( x ) q ( x ) . 先来看引理。
引理(Hoeffding引理) :设随机变量x \mathrm x x 满足a ⩽ x ⩽ b a\leqslant \mathrm x\leqslant b a ⩽ x ⩽ b ,那么对任意λ ∈ R \lambda\in\mathbb R λ ∈ R ,总有
E [ exp ( λ ( x − E x ) ) ] ⩽ exp ( ( b − a ) 2 λ 2 8 ) . \mathbb{E}[\exp(\lambda(\mathrm x-\mathbb E\mathrm x))]\leqslant\exp\Big(\frac{(b-a)^2\lambda^2}8\Big). E [ exp ( λ ( x − E x ) ) ] ⩽ exp ( 8 ( b − a ) 2 λ 2 ) .
引理的证明 :不失一般性,可设E ( x ) = 0 \mathbb E(\mathrm x)=0 E ( x ) = 0 。首先注意到∣ x − a + b 2 ∣ ⩽ b − a 2 |\mathrm x-\frac{a+b}2|\leqslant\frac{b-a}{2} ∣ x − 2 a + b ∣ ⩽ 2 b − a ,因此不难看出
Var ( x ) ⩽ E [ ( x − a + b 2 ) 2 ] ⩽ ( b − a 2 ) 2 . \operatorname{Var}(\mathrm x)\leqslant\mathbb E\Big[\Big(\mathrm x-\frac{a+b}2\Big)^2\Big]\leqslant\Big(\frac{b-a}2\Big)^2. V a r ( x ) ⩽ E [ ( x − 2 a + b ) 2 ] ⩽ ( 2 b − a ) 2 .
我们先来看 A short proof of Hoeffding's lemma 的证明方法(只证明右边分母为4 4 4 的情形)。
现在引入另一个随机变量x ′ \mathrm x' x ′ ,其与x \mathrm x x 独立且有相同的分布。那么E ( x − x ′ ) = 0 \mathbb E(\mathrm x-\mathrm x')=0 E ( x − x ′ ) = 0 ;由Jensen不等式,
E ( exp ( λ x ) ) = E ( exp ( λ x ) ) exp ( E ( − λ x ′ ) ) ⩽ E ( exp ( λ x ) ) E ( exp ( − λ x ′ ) ) = E [ exp ( λ ( x − x ′ ) ) ] . E ( exp ( λ x ) ) = E ( exp ( λ x ) ) exp ( E ( − λ x ′ ) ) ⩽ E ( exp ( λ x ) ) E ( exp ( − λ x ′ ) ) = E [ exp ( λ ( x − x ′ ) ) ] . \begin{aligned}
\sout{\mathbb E(\exp(\lambda \mathrm x))}&\sout{=\mathbb E(\exp(\lambda \mathrm x))\exp(\mathbb E(-\lambda\mathrm x'))}\\
&\sout{\leqslant \mathbb E(\exp(\lambda \mathrm x))\mathbb E(\exp(-\lambda\mathrm x'))=\mathbb E[\exp(\lambda(\mathrm x-\mathrm x'))].}
\end{aligned}\begin{aligned}
\sout{\mathbb E(\exp(\lambda \mathrm x))}&\sout{=\mathbb E(\exp(\lambda \mathrm x))\exp(\mathbb E(-\lambda\mathrm x'))}\\
&\sout{\leqslant \mathbb E(\exp(\lambda \mathrm x))\mathbb E(\exp(-\lambda\mathrm x'))=\mathbb E[\exp(\lambda(\mathrm x-\mathrm x'))].}
\end{aligned} E ( exp ( λ x ) ) = E ( exp ( λ x ) ) exp ( E ( − λ x ′ ) ) ⩽ E ( exp ( λ x ) ) E ( exp ( − λ x ′ ) ) = E [ exp ( λ ( x − x ′ ) ) ] . E ( exp ( λ x ) ) = E ( exp ( λ x ) ) exp ( E ( − λ x ′ ) ) ⩽ E ( exp ( λ x ) ) E ( exp ( − λ x ′ ) ) = E [ exp ( λ ( x − x ′ ) ) ] .
现在令y = x − x ′ \mathrm y=\mathrm x-\mathrm x' y = x − x ′ ,其均值方差都可计算,E ( y ) = 0 \mathbb E(\mathrm y)=0 E ( y ) = 0 ,Var ( y ) = 2 Var ( x ) ⩽ ( b − a ) 2 2 \operatorname{Var}(\mathrm y)=2\operatorname{Var}(\mathrm x)\leqslant\frac{(b-a)^2}{2} V a r ( y ) = 2 V a r ( x ) ⩽ 2 ( b − a ) 2 。
这个证明的关键之点在于注意到y \mathrm y y 的奇数阶矩都等于0 0 0 。由Taylor定理,存在0 0 0 和y \mathrm y y 之间的ϵ \epsilon ϵ 使得
e λ y = 1 + λ y + λ 2 2 y 2 + λ 3 6 y 3 e λ ϵ ⩽ 1 + λ y + λ 2 2 y 2 + λ 3 6 y 3 e λ y ⩽ 1 + λ y + λ 2 2 y 2 + λ 3 6 y 3 e ∣ λ ∣ ( b − a ) . e λ y = 1 + λ y + λ 2 2 y 2 + λ 3 6 y 3 e λ ϵ ⩽ 1 + λ y + λ 2 2 y 2 + λ 3 6 y 3 e λ y ⩽ 1 + λ y + λ 2 2 y 2 + λ 3 6 y 3 e ∣ λ ∣ ( b − a ) . \begin{aligned}
\sout{\mathrm e^{\lambda \mathrm y}} &\sout{= 1 + \lambda \mathrm y + \frac{\lambda^2}{2} \mathrm y^2 + \frac{\lambda^3}{6} \mathrm y^3 \mathrm e^{\lambda \epsilon}}\\
&\sout{\leqslant 1 + \lambda \mathrm y + \frac{\lambda^2}{2} \mathrm y^2 + \frac{\lambda^3}{6} \mathrm y^3 \mathrm e^{\lambda \mathrm y}}\\
&\sout{\leqslant 1 + \lambda \mathrm y + \frac{\lambda^2}{2} \mathrm y^2 + \frac{\lambda^3}{6} \mathrm y^3 \mathrm e^{|\lambda| (b-a)}.}
\end{aligned}\begin{aligned}
\sout{\mathrm e^{\lambda \mathrm y}} &\sout{= 1 + \lambda \mathrm y + \frac{\lambda^2}{2} \mathrm y^2 + \frac{\lambda^3}{6} \mathrm y^3 \mathrm e^{\lambda \epsilon}}\\
&\sout{\leqslant 1 + \lambda \mathrm y + \frac{\lambda^2}{2} \mathrm y^2 + \frac{\lambda^3}{6} \mathrm y^3 \mathrm e^{\lambda \mathrm y}}\\
&\sout{\leqslant 1 + \lambda \mathrm y + \frac{\lambda^2}{2} \mathrm y^2 + \frac{\lambda^3}{6} \mathrm y^3 \mathrm e^{|\lambda| (b-a)}.}
\end{aligned} e λ y = 1 + λ y + 2 λ 2 y 2 + 6 λ 3 y 3 e λ ϵ ⩽ 1 + λ y + 2 λ 2 y 2 + 6 λ 3 y 3 e λ y ⩽ 1 + λ y + 2 λ 2 y 2 + 6 λ 3 y 3 e ∣ λ ∣ ( b − a ) . e λ y = 1 + λ y + 2 λ 2 y 2 + 6 λ 3 y 3 e λ ϵ ⩽ 1 + λ y + 2 λ 2 y 2 + 6 λ 3 y 3 e λ y ⩽ 1 + λ y + 2 λ 2 y 2 + 6 λ 3 y 3 e ∣ λ ∣ ( b − a ) .
注意第一个不等号并非显然,y \mathrm y y 和λ \lambda λ 均有可能取正负。继续取期望得
E ( exp ( λ x ) ) ⩽ E ( exp ( λ y ) ) ⩽ 1 + λ 2 2 E ( y 2 ) = 1 + λ 2 2 Var ( y ) = 1 + λ 2 ( b − a ) 2 4 ⩽ exp ( λ 2 ( b − a ) 2 4 ) . E ( exp ( λ x ) ) ⩽ E ( exp ( λ y ) ) ⩽ 1 + λ 2 2 E ( y 2 ) = 1 + λ 2 2 Var ( y ) = 1 + λ 2 ( b − a ) 2 4 ⩽ exp ( λ 2 ( b − a ) 2 4 ) . \begin{aligned}
&\sout{\mathbb E(\exp(\lambda\mathrm x))\leqslant\mathbb E(\exp(\lambda\mathrm y))}\\
\leqslant{}& \sout{1+\frac{\lambda^2}2\mathbb E(\mathrm y^2)=1+\frac{\lambda^2}2\operatorname{Var}(\mathrm y)}\\
={}&\sout{1+\frac{\lambda^2(b-a)^2}{4}\leqslant\exp\Big(\frac{\lambda^2(b-a)^2}{4}\Big).}
\end{aligned}\begin{aligned}
&\sout{\mathbb E(\exp(\lambda\mathrm x))\leqslant\mathbb E(\exp(\lambda\mathrm y))}\\
\leqslant{}& \sout{1+\frac{\lambda^2}2\mathbb E(\mathrm y^2)=1+\frac{\lambda^2}2\operatorname{Var}(\mathrm y)}\\
={}&\sout{1+\frac{\lambda^2(b-a)^2}{4}\leqslant\exp\Big(\frac{\lambda^2(b-a)^2}{4}\Big).}
\end{aligned} ⩽ = E ( exp ( λ x ) ) ⩽ E ( exp ( λ y ) ) 1 + 2 λ 2 E ( y 2 ) = 1 + 2 λ 2 V a r ( y ) 1 + 4 λ 2 ( b − a ) 2 ⩽ exp ( 4 λ 2 ( b − a ) 2 ) . ⩽ = E ( exp ( λ x ) ) ⩽ E ( exp ( λ y ) ) 1 + 2 λ 2 E ( y 2 ) = 1 + 2 λ 2 V a r ( y ) 1 + 4 λ 2 ( b − a ) 2 ⩽ exp ( 4 λ 2 ( b − a ) 2 ) .
现在来看 Wikipedia 里对这个引理的证明。
首先,对任一x ∈ [ a , b ] x\in[a,b] x ∈ [ a , b ] ,利用指数函数的凸性,应用Jensen不等式,
λ x = b − x b − a λ a + x − a b − a λ b exp ( λ x ) ⩽ b − x b − a exp ( λ a ) + x − a b − a exp ( λ b ) E ( exp ( λ x ) ) ⩽ b b − a exp ( λ a ) − a b − a exp ( λ b ) = exp ( λ a ) [ 1 + a b − a − a b − a exp ( λ ( b − a ) ) ] λ x = b − x b − a λ a + x − a b − a λ b exp ( λ x ) ⩽ b − x b − a exp ( λ a ) + x − a b − a exp ( λ b ) E ( exp ( λ x ) ) ⩽ b b − a exp ( λ a ) − a b − a exp ( λ b ) = exp ( λ a ) [ 1 + a b − a − a b − a exp ( λ ( b − a ) ) ] \begin{aligned}
\lambda x&=\frac{b-x}{b-a}\lambda a+\frac{x-a}{b-a}\lambda b\\
\exp(\lambda x)&\leqslant\frac{b-x}{b-a}\exp(\lambda a)+\frac{x-a}{b-a}\exp(\lambda b)\\
\mathbb E(\exp(\lambda \mathrm x))&\leqslant\frac{b}{b-a}\exp(\lambda a)-\frac{a}{b-a}\exp(\lambda b)\\
&=\exp(\lambda a)\Big[1+\frac{a}{b-a}-\frac a{b-a}\exp(\lambda(b-a))\Big]
\end{aligned}\begin{aligned}
\lambda x&=\frac{b-x}{b-a}\lambda a+\frac{x-a}{b-a}\lambda b\\
\exp(\lambda x)&\leqslant\frac{b-x}{b-a}\exp(\lambda a)+\frac{x-a}{b-a}\exp(\lambda b)\\
\mathbb E(\exp(\lambda \mathrm x))&\leqslant\frac{b}{b-a}\exp(\lambda a)-\frac{a}{b-a}\exp(\lambda b)\\
&=\exp(\lambda a)\Big[1+\frac{a}{b-a}-\frac a{b-a}\exp(\lambda(b-a))\Big]
\end{aligned} λ x exp ( λ x ) E ( exp ( λ x ) ) = b − a b − x λ a + b − a x − a λ b ⩽ b − a b − x exp ( λ a ) + b − a x − a exp ( λ b ) ⩽ b − a b exp ( λ a ) − b − a a exp ( λ b ) = exp ( λ a ) [ 1 + b − a a − b − a a exp ( λ ( b − a ) ) ] λ x exp ( λ x ) E ( exp ( λ x ) ) = b − a b − x λ a + b − a x − a λ b ⩽ b − a b − x exp ( λ a ) + b − a x − a exp ( λ b ) ⩽ b − a b exp ( λ a ) − b − a a exp ( λ b ) = exp ( λ a ) [ 1 + b − a a − b − a a exp ( λ ( b − a ) ) ] 于是我们要证明上式右边对所有λ \lambda λ 都小于等于exp ( λ 2 ( b − a ) 2 / 8 ) \exp(\lambda^2(b-a)^2/8) exp ( λ 2 ( b − a ) 2 / 8 ) ,作换元λ ← λ ( b − a ) \lambda\leftarrow\lambda(b-a) λ ← λ ( b − a ) ,再令c = − a b − a c=\frac {-a}{b-a} c = b − a − a ,即要证
exp ( − λ c ) [ 1 − c + c exp ( λ ) ] ⩽ exp ( λ 2 8 ) . \exp(-\lambda c)[1-c+c\exp(\lambda)]\leqslant\exp\Big(\frac{\lambda^2}8\Big). exp ( − λ c ) [ 1 − c + c exp ( λ ) ] ⩽ exp ( 8 λ 2 ) . 考虑取对数。
f ( λ ) : = − λ c + ln [ 1 − c + c exp ( λ ) ] , f ′ ( λ ) = − c + c exp ( λ ) 1 − c + c exp ( λ ) , f ′ ′ ( λ ) = c exp ( λ ) 1 − c + c exp ( λ ) − c 2 exp 2 ( λ ) ( 1 − c + c exp ( λ ) ) 2 . f(\lambda):=-\lambda c+\ln[1-c+c\exp(\lambda)],\\
f'(\lambda)=-c+\frac{c\exp(\lambda)}{1-c+c\exp(\lambda)},\\
f''(\lambda)=\frac{c\exp(\lambda)}{1-c+c\exp(\lambda)}-\frac{c^2\exp^2(\lambda)}{(1-c+c\exp(\lambda))^2}. f ( λ ) : = − λ c + ln [ 1 − c + c exp ( λ ) ] , f ′ ( λ ) = − c + 1 − c + c exp ( λ ) c exp ( λ ) , f ′ ′ ( λ ) = 1 − c + c exp ( λ ) c exp ( λ ) − ( 1 − c + c exp ( λ ) ) 2 c 2 exp 2 ( λ ) . 可以发现f ′ ′ ( λ ) f''(\lambda) f ′ ′ ( λ ) 恰好可以写成t ( 1 − t ) t(1-t) t ( 1 − t ) 的形式,于是f ′ ′ ⩽ 1 4 f''\leqslant\frac14 f ′ ′ ⩽ 4 1 。现在由Taylor定理,
f ( λ ) = f ( 0 ) + f ′ ( 0 ) λ + f ′ ′ ( θ λ ) λ 2 2 ⩽ λ 2 8 . f(\lambda)=f(0)+f'(0)\lambda+f''(\theta\lambda)\frac{\lambda^2}2\leqslant\frac{\lambda^2}{8}. f ( λ ) = f ( 0 ) + f ′ ( 0 ) λ + f ′ ′ ( θ λ ) 2 λ 2 ⩽ 8 λ 2 . 这就证明了Hoeffding引理。
Pinsker不等式的证明 :令A = { x ∣ p ( x ) ⩾ q ( x ) } A=\{x\mid p(x)\geqslant q(x)\} A = { x ∣ p ( x ) ⩾ q ( x ) } ,再令y = 1 A y=\mathbf 1 _ {A} y = 1 A (即x ∈ A x\in A x ∈ A 时y ( x ) = 1 y(x)=1 y ( x ) = 1 ,否则y ( x ) = 0 y(x)=0 y ( x ) = 0 ),则
∥ P − Q ∥ T V = ∑ x ∈ A ( p ( x ) − q ( x ) ) = E x ∼ P [ y ( x ) ] − E x ∼ Q [ y ( x ) ] . \|P-Q\| _ {\mathrm{TV}}=\sum _ {x\in A}(p(x)-q(x))=E _ {\mathrm x\sim P}[y(\mathrm x)]-E _ {\mathrm x\sim Q}[y(\mathrm x)]. ∥ P − Q ∥ T V = x ∈ A ∑ ( p ( x ) − q ( x ) ) = E x ∼ P [ y ( x ) ] − E x ∼ Q [ y ( x ) ] . 现在y ( x ) ∈ [ 0 , 1 ] y(x)\in[0,1] y ( x ) ∈ [ 0 , 1 ] ,由Hoeffding引理,
E x ∼ Q [ exp ( λ ( y − E x ∼ Q y ) ) ] ⩽ exp ( λ 2 / 8 ) , λ ∈ R ⟹ E x ∼ Q [ exp ( λ ( y − E x ∼ Q y ) − λ 2 / 8 ) ] ⩽ 1 ⟹ E x ∼ Q [ exp ( λ z − λ 2 / 8 ) ] ⩽ 1 , ( z = y − E x ∼ Q y ) . E x ∼ Q [ exp ( λ ( y − E x ∼ Q y ) ) ] ⩽ exp ( λ 2 / 8 ) , λ ∈ R ⟹ E x ∼ Q [ exp ( λ ( y − E x ∼ Q y ) − λ 2 / 8 ) ] ⩽ 1 ⟹ E x ∼ Q [ exp ( λ z − λ 2 / 8 ) ] ⩽ 1 , ( z = y − E x ∼ Q y ) . \begin{aligned}
&E_{\mathrm x\sim Q}[\exp(\lambda(\mathrm y-E_{\mathrm x\sim Q}\mathrm y))]\leqslant \exp({\lambda^2}/{8}),\quad \lambda\in\mathbb{R}\\
\implies{}& E_{\mathrm x\sim Q}[\exp(\lambda(\mathrm y-E_{\mathrm x\sim Q}\mathrm y)-\lambda^2/8)]\leqslant 1\\
\implies{}& E_{\mathrm x\sim Q}[\exp(\lambda\mathrm z-\lambda^2/8)]\leqslant1,\quad (\mathrm z=\mathrm y-E_{\mathrm x\sim Q}\mathrm y).
\end{aligned}\begin{aligned}
&E_{\mathrm x\sim Q}[\exp(\lambda(\mathrm y-E_{\mathrm x\sim Q}\mathrm y))]\leqslant \exp({\lambda^2}/{8}),\quad \lambda\in\mathbb{R}\\
\implies{}& E_{\mathrm x\sim Q}[\exp(\lambda(\mathrm y-E_{\mathrm x\sim Q}\mathrm y)-\lambda^2/8)]\leqslant 1\\
\implies{}& E_{\mathrm x\sim Q}[\exp(\lambda\mathrm z-\lambda^2/8)]\leqslant1,\quad (\mathrm z=\mathrm y-E_{\mathrm x\sim Q}\mathrm y).
\end{aligned} ⟹ ⟹ E x ∼ Q [ exp ( λ ( y − E x ∼ Q y ) ) ] ⩽ exp ( λ 2 / 8 ) , λ ∈ R E x ∼ Q [ exp ( λ ( y − E x ∼ Q y ) − λ 2 / 8 ) ] ⩽ 1 E x ∼ Q [ exp ( λ z − λ 2 / 8 ) ] ⩽ 1 , ( z = y − E x ∼ Q y ) . ⟹ ⟹ E x ∼ Q [ exp ( λ ( y − E x ∼ Q y ) ) ] ⩽ exp ( λ 2 / 8 ) , λ ∈ R E x ∼ Q [ exp ( λ ( y − E x ∼ Q y ) − λ 2 / 8 ) ] ⩽ 1 E x ∼ Q [ exp ( λ z − λ 2 / 8 ) ] ⩽ 1 , ( z = y − E x ∼ Q y ) .
令r ( x ) = p ( x ) / q ( x ) r(x)=p(x)/q(x) r ( x ) = p ( x ) / q ( x ) ,KL散度可以写成∑ x q ( x ) ⋅ r ( x ) ln r ( x ) = E Q [ r ( x ) ln r ( x ) ] \sum _ xq(x)\cdot r(x)\ln r(x)=E _ Q[r(\mathrm x)\ln r(\mathrm x)] ∑ x q ( x ) ⋅ r ( x ) ln r ( x ) = E Q [ r ( x ) ln r ( x ) ] 。下面证明
E Q [ r ( x ) ⋅ ( λ z − λ 2 / 8 ) ] ⩽ E Q [ r ( x ) ln r ( x ) ] ⟸ E P [ λ z − λ 2 / 8 ] ⩽ E P [ ln p ( x ) q ( x ) ] ⟸ 0 ⩽ ∑ x p ( x ) ln p ( x ) q ( x ) exp ( λ z − λ 2 / 8 ) . E Q [ r ( x ) ⋅ ( λ z − λ 2 / 8 ) ] ⩽ E Q [ r ( x ) ln r ( x ) ] ⟸ E P [ λ z − λ 2 / 8 ] ⩽ E P [ ln p ( x ) q ( x ) ] ⟸ 0 ⩽ ∑ x p ( x ) ln p ( x ) q ( x ) exp ( λ z − λ 2 / 8 ) . \begin{aligned}
&E_{Q}[r(\mathrm x)\cdot(\lambda\mathrm z-\lambda^2/8)]\leqslant E_Q[r(\mathrm x)\ln r(\mathrm x)]\\
\Longleftarrow{}& E_P[\lambda\mathrm z-\lambda^2/8]\leqslant E_P\Big[\ln\frac{p(\mathrm x)}{q(\mathrm x)}\Big]\\
\Longleftarrow{}& 0\leqslant\sum_x p(x)\ln \frac{p(x)}{q(x)\exp(\lambda z-\lambda^2/8)}.
\end{aligned}\begin{aligned}
&E_{Q}[r(\mathrm x)\cdot(\lambda\mathrm z-\lambda^2/8)]\leqslant E_Q[r(\mathrm x)\ln r(\mathrm x)]\\
\Longleftarrow{}& E_P[\lambda\mathrm z-\lambda^2/8]\leqslant E_P\Big[\ln\frac{p(\mathrm x)}{q(\mathrm x)}\Big]\\
\Longleftarrow{}& 0\leqslant\sum_x p(x)\ln \frac{p(x)}{q(x)\exp(\lambda z-\lambda^2/8)}.
\end{aligned} ⟸ ⟸ E Q [ r ( x ) ⋅ ( λ z − λ 2 / 8 ) ] ⩽ E Q [ r ( x ) ln r ( x ) ] E P [ λ z − λ 2 / 8 ] ⩽ E P [ ln q ( x ) p ( x ) ] 0 ⩽ x ∑ p ( x ) ln q ( x ) exp ( λ z − λ 2 / 8 ) p ( x ) . ⟸ ⟸ E Q [ r ( x ) ⋅ ( λ z − λ 2 / 8 ) ] ⩽ E Q [ r ( x ) ln r ( x ) ] E P [ λ z − λ 2 / 8 ] ⩽ E P [ ln q ( x ) p ( x ) ] 0 ⩽ x ∑ p ( x ) ln q ( x ) exp ( λ z − λ 2 / 8 ) p ( x ) .
前面已经推导出∑ x q ( x ) exp ( λ z − λ 2 / 8 ) = E x ∼ Q [ exp ( λ z − λ 2 / 8 ) ] ⩽ 1 \sum _ x q(x)\exp(\lambda z-\lambda^2/8)=E _ {\mathrm x\sim Q}[\exp(\lambda\mathrm z-\lambda^2/8)]\leqslant1 ∑ x q ( x ) exp ( λ z − λ 2 / 8 ) = E x ∼ Q [ exp ( λ z − λ 2 / 8 ) ] ⩽ 1 ,不妨设等号成立(小于的情形可由取等的情形推出),那么原式右边变为一个KL散度,自然是非负的。这就证明了E Q [ r ( x ) ⋅ ( λ z − λ 2 / 8 ) ] ⩽ E Q [ r ( x ) ln r ( x ) ] E _ {Q}[r(\mathrm x)\cdot(\lambda\mathrm z-\lambda^2/8)]\leqslant E _ Q[r(\mathrm x)\ln r(\mathrm x)] E Q [ r ( x ) ⋅ ( λ z − λ 2 / 8 ) ] ⩽ E Q [ r ( x ) ln r ( x ) ] 。
于是由E Q [ r ( x ) ] = 1 \mathbb E _ Q[r(\mathrm x)]=1 E Q [ r ( x ) ] = 1 ,
E Q [ z r ] ⩽ λ 8 + 1 λ E Q [ r ( x ) ln r ( x ) ] , ∀ λ > 0 , ⟹ E Q [ z r ] ⩽ 2 1 8 E Q [ r ( x ) ln r ( x ) ] , ⟹ E P [ y ] − E Q [ y ] ⩽ 1 2 D K L ( P ∥ Q ) . E Q [ z r ] ⩽ λ 8 + 1 λ E Q [ r ( x ) ln r ( x ) ] , ∀ λ > 0 , ⟹ E Q [ z r ] ⩽ 2 1 8 E Q [ r ( x ) ln r ( x ) ] , ⟹ E P [ y ] − E Q [ y ] ⩽ 1 2 D K L ( P ∥ Q ) . \begin{aligned}
&E _ Q[\mathrm z\mathrm r]\leqslant\frac{\lambda}{8}+\frac{1}{\lambda}E _ Q[r(\mathrm x)\ln r(\mathrm x)],\quad \forall \lambda>0,\\
\implies{}&E _ Q[\mathrm z\mathrm r]\leqslant2\sqrt{\frac18E _ Q[r(\mathrm x)\ln r(\mathrm x)]},\\
\implies{}&E _ P[\mathrm {y}]-E _ Q[\mathrm y]\leqslant\sqrt{\frac12D _ {\mathrm{KL}}(P\|Q)}.
\end{aligned}\begin{aligned}
&E _ Q[\mathrm z\mathrm r]\leqslant\frac{\lambda}{8}+\frac{1}{\lambda}E _ Q[r(\mathrm x)\ln r(\mathrm x)],\quad \forall \lambda>0,\\
\implies{}&E _ Q[\mathrm z\mathrm r]\leqslant2\sqrt{\frac18E _ Q[r(\mathrm x)\ln r(\mathrm x)]},\\
\implies{}&E _ P[\mathrm {y}]-E _ Q[\mathrm y]\leqslant\sqrt{\frac12D _ {\mathrm{KL}}(P\|Q)}.
\end{aligned} ⟹ ⟹ E Q [ z r ] ⩽ 8 λ + λ 1 E Q [ r ( x ) ln r ( x ) ] , ∀ λ > 0 , E Q [ z r ] ⩽ 2 8 1 E Q [ r ( x ) ln r ( x ) ] , E P [ y ] − E Q [ y ] ⩽ 2 1 D K L ( P ∥ Q ) . ⟹ ⟹ E Q [ z r ] ⩽ 8 λ + λ 1 E Q [ r ( x ) ln r ( x ) ] , ∀ λ > 0 , E Q [ z r ] ⩽ 2 8 1 E Q [ r ( x ) ln r ( x ) ] , E P [ y ] − E Q [ y ] ⩽ 2 1 D K L ( P ∥ Q ) . 这就证明了
∥ P − Q ∥ T V 2 ⩽ 1 2 D K L ( P ∥ Q ) . \|P-Q\| _ {\mathrm{TV}}^2\leqslant\frac12D _ {\mathrm{KL}}(P\|Q). ∥ P − Q ∥ T V 2 ⩽ 2 1 D K L ( P ∥ Q ) .
离散形式证明二
证明要用到一个关键不等式,下面作为引理给出。
引理 :当x > − 1 x>-1 x > − 1 ,
( 1 + x ) ln ( 1 + x ) − x ⩾ x 2 / 2 1 + x / 3 . (1+x)\ln(1+x)-x\geqslant\frac{x^2/2}{1+x/3}. ( 1 + x ) ln ( 1 + x ) − x ⩾ 1 + x / 3 x 2 / 2 .
为了证明这个不等式,令f ( x ) = ( 1 + x ) ln ( 1 + x ) − x f(x)=(1+x)\ln(1+x)-x f ( x ) = ( 1 + x ) ln ( 1 + x ) − x ,有f ′ ( x ) = ln ( 1 + x ) f'(x)=\ln(1+x) f ′ ( x ) = ln ( 1 + x ) ,f ′ ′ ( x ) = 1 / ( 1 + x ) f''(x)=1\mathbin{/}(1+x) f ′ ′ ( x ) = 1 / ( 1 + x ) ;再令
F ( x ) = f ( x ) − f ( 0 ) − f ′ ( 0 ) x x 2 / 2 = f ( x ) x 2 / 2 , F(x)=\frac{f(x)-f(0)-f'(0)x}{x^2/2}=\frac{f(x)}{x^2/2}, F ( x ) = x 2 / 2 f ( x ) − f ( 0 ) − f ′ ( 0 ) x = x 2 / 2 f ( x ) , 而F ( 0 ) : = lim x → 0 F ( x ) = 1 F(0):=\lim _ {x\to0}F(x)=1 F ( 0 ) : = lim x → 0 F ( x ) = 1 ,从而使其连续。分子部分有
f ( x ) − f ( 0 ) − f ′ ( 0 ) x = ∫ 0 x f ′ ′ ( t ) ( x − t ) d t = x 2 ∫ 0 1 f ′ ′ ( x t ) ( 1 − t ) d t . f(x)-f(0)-f'(0)x=\int _ {0}^x{f''(t)}(x-t)\, \mathrm dt=x^2\int _ 0^1f''(xt)(1-t)\, \mathrm dt. f ( x ) − f ( 0 ) − f ′ ( 0 ) x = ∫ 0 x f ′ ′ ( t ) ( x − t ) d t = x 2 ∫ 0 1 f ′ ′ ( x t ) ( 1 − t ) d t . 易见t ↦ f ′ ′ ( x t ) t\mapsto f''(xt) t ↦ f ′ ′ ( x t ) 是凸函数,由Jensen不等式
x 2 2 ∫ 0 1 f ′ ′ ( x t ) ⋅ 2 ( 1 − t ) d t ⩾ x 2 2 f ′ ′ ( x ∫ 0 1 t ⋅ 2 ( 1 − t ) d t ) = x 2 2 f ′ ′ ( x 3 ) . \frac{x^2}2\int _ 0^1f''(xt)\cdot2(1-t)\, \mathrm dt\geqslant\frac{x^2}2f''\Big(x\int _ 0^1t\cdot2(1-t)\, \mathrm dt\Big)=\frac{x^2}2f''\Big(\frac x3\Big). 2 x 2 ∫ 0 1 f ′ ′ ( x t ) ⋅ 2 ( 1 − t ) d t ⩾ 2 x 2 f ′ ′ ( x ∫ 0 1 t ⋅ 2 ( 1 − t ) d t ) = 2 x 2 f ′ ′ ( 3 x ) . 从而
F ( x ) = f ( x ) x 2 / 2 ⩾ f ′ ′ ( x 3 ) = 1 1 + x / 3 . F(x)=\frac{f(x)}{x^2/2}\geqslant f''\Big(\frac x3\Big)=\frac{1}{1+x/3}. F ( x ) = x 2 / 2 f ( x ) ⩾ f ′ ′ ( 3 x ) = 1 + x / 3 1 . 这就证明了引理。
现在重定义r ( x ) = p ( x ) / q ( x ) − 1 r(x)=p(x)/q(x)-1 r ( x ) = p ( x ) / q ( x ) − 1 ,那么易见E Q [ r ( x ) ] = 0 \mathbb E _ {Q}[r(\mathrm x)]=0 E Q [ r ( x ) ] = 0 ,由Cauchy-Schwartz不等式,
D K L ( P ∥ Q ) = E Q [ ( 1 + r ( x ) ) ln ( 1 + r ( x ) ) ] = E Q [ ( 1 + r ( x ) ) ln ( 1 + r ( x ) ) − r ( x ) ] ⩾ 1 2 E Q [ r ( x ) 2 1 + r ( x ) / 3 ] = 1 2 E Q [ r ( x ) 2 1 + r ( x ) / 3 ] E Q [ 1 + r ( x ) / 3 ] ⩾ 1 2 E Q 2 ∣ r ( x ) ∣ = 1 2 ( ∑ x ∣ p ( x ) − q ( x ) ∣ ) 2 . D K L ( P ∥ Q ) = E Q [ ( 1 + r ( x ) ) ln ( 1 + r ( x ) ) ] = E Q [ ( 1 + r ( x ) ) ln ( 1 + r ( x ) ) − r ( x ) ] ⩾ 1 2 E Q [ r ( x ) 2 1 + r ( x ) / 3 ] = 1 2 E Q [ r ( x ) 2 1 + r ( x ) / 3 ] E Q [ 1 + r ( x ) / 3 ] ⩾ 1 2 E Q 2 ∣ r ( x ) ∣ = 1 2 ( ∑ x ∣ p ( x ) − q ( x ) ∣ ) 2 . \begin{aligned}
D _ {\mathrm{KL}}(P\|Q)&=\mathbb E _ {Q}[(1+r(\mathrm x))\ln(1+r(\mathrm x))]\\
&=\mathbb E _ {Q}[(1+r(\mathrm x))\ln(1+r(\mathrm x))-r(\mathrm x)]\\
&\geqslant\frac12\mathbb E _ Q\Big[\frac{r(\mathrm x)^2}{1+r(\mathrm x)/3}\Big]\\
&=\frac12\mathbb E _ Q\Big[\frac{r(\mathrm x)^2}{1+r(\mathrm x)/3}\Big]\mathbb E _ Q[1+r(\mathrm x)/3]\\
&\geqslant\frac12\mathbb E _ Q^2|r(\mathrm x)|=\frac12\Big(\sum _ x |p(x)-q(x)|\Big)^2.
\end{aligned}\begin{aligned}
D _ {\mathrm{KL}}(P\|Q)&=\mathbb E _ {Q}[(1+r(\mathrm x))\ln(1+r(\mathrm x))]\\
&=\mathbb E _ {Q}[(1+r(\mathrm x))\ln(1+r(\mathrm x))-r(\mathrm x)]\\
&\geqslant\frac12\mathbb E _ Q\Big[\frac{r(\mathrm x)^2}{1+r(\mathrm x)/3}\Big]\\
&=\frac12\mathbb E _ Q\Big[\frac{r(\mathrm x)^2}{1+r(\mathrm x)/3}\Big]\mathbb E _ Q[1+r(\mathrm x)/3]\\
&\geqslant\frac12\mathbb E _ Q^2|r(\mathrm x)|=\frac12\Big(\sum _ x |p(x)-q(x)|\Big)^2.
\end{aligned} D K L ( P ∥ Q ) = E Q [ ( 1 + r ( x ) ) ln ( 1 + r ( x ) ) ] = E Q [ ( 1 + r ( x ) ) ln ( 1 + r ( x ) ) − r ( x ) ] ⩾ 2 1 E Q [ 1 + r ( x ) / 3 r ( x ) 2 ] = 2 1 E Q [ 1 + r ( x ) / 3 r ( x ) 2 ] E Q [ 1 + r ( x ) / 3 ] ⩾ 2 1 E Q 2 ∣ r ( x ) ∣ = 2 1 ( x ∑ ∣ p ( x ) − q ( x ) ∣ ) 2 . D K L ( P ∥ Q ) = E Q [ ( 1 + r ( x ) ) ln ( 1 + r ( x ) ) ] = E Q [ ( 1 + r ( x ) ) ln ( 1 + r ( x ) ) − r ( x ) ] ⩾ 2 1 E Q [ 1 + r ( x ) / 3 r ( x ) 2 ] = 2 1 E Q [ 1 + r ( x ) / 3 r ( x ) 2 ] E Q [ 1 + r ( x ) / 3 ] ⩾ 2 1 E Q 2 ∣ r ( x ) ∣ = 2 1 ( x ∑ ∣ p ( x ) − q ( x ) ∣ ) 2 . 前面已提及1 2 ∥ P − Q ∥ 1 = ∥ P − Q ∥ T V \frac12\|P-Q\| _ 1=\|P-Q\| _ {\mathrm {TV}} 2 1 ∥ P − Q ∥ 1 = ∥ P − Q ∥ T V ,Pinsker不等式即证。
离散形式证明三
我们沿用证明一里的记号。
当x ∼ P \mathrm x\sim P x ∼ P 时,y ( x ) ∼ B e r n o u l l i ( P ( A ) ) = : P ′ y(\mathrm x)\sim \mathrm{Bernoulli}(P(A))=:P' y ( x ) ∼ B e r n o u l l i ( P ( A ) ) = : P ′ ;当x ∼ Q \mathrm x\sim Q x ∼ Q 时,y ( x ) ∼ B e r n o u l l i ( Q ( A ) ) = : Q ′ y(\mathrm x)\sim \mathrm{Bernoulli}(Q(A))=:Q' y ( x ) ∼ B e r n o u l l i ( Q ( A ) ) = : Q ′ 。那么
∥ P ′ − Q ′ ∥ T V 2 = ( P ( A ) − Q ( A ) ) 2 = ∥ P − Q ∥ T V 2 . \|P'-Q'\| _ {\mathrm{TV}}^2=(P(A)-Q(A))^2=\|P-Q\|^2 _ {\mathrm{TV}}. ∥ P ′ − Q ′ ∥ T V 2 = ( P ( A ) − Q ( A ) ) 2 = ∥ P − Q ∥ T V 2 . 而由data processing不等式,
D K L ( P ′ ∥ Q ′ ) ⩽ D K L ( P ∥ Q ) . D _ {\mathrm{KL}}(P'\|Q')\leqslant D _ {\mathrm {KL}}(P\|Q). D K L ( P ′ ∥ Q ′ ) ⩽ D K L ( P ∥ Q ) .
Gap:通常data processing不等式是用互信息表示的,所以这种KL散度的不等式需要额外考虑。我们将上面的不等式表述为如下的命题:
命题 :对一个随机变量x \mathrm x x ,定义随机变量y = 1 A ( x ) \mathrm y=\mathbf 1 _ A(\mathrm x) y = 1 A ( x ) ,设x ∼ P x \mathrm x\sim P _ {\mathrm x} x ∼ P x 时y ∼ P y \mathrm y\sim P _ {\mathrm y} y ∼ P y 、x ∼ Q x \mathrm x\sim Q _ {\mathrm x} x ∼ Q x 时y ∼ Q y \mathrm y\sim Q _ {\mathrm y} y ∼ Q y ,那么
D K L ( P y ∥ Q y ) ⩽ D K L ( P x ∥ Q x ) . D _ {\mathrm{KL}}(P _ {\mathrm{y}}\| Q _ {\mathrm{y}})\leqslant D _ {\mathrm{KL}}(P _ {\mathrm{x}}\| Q _ {\mathrm x}). D K L ( P y ∥ Q y ) ⩽ D K L ( P x ∥ Q x ) . 在下一节证明这个命题。
这表明我们只需要证明Bernoulli分布的情形即可,这样有了2 ∥ P ′ − Q ′ ∥ T V 2 ⩽ D K L ( P ′ ∥ Q ′ ) 2\|P'-Q'\| _ {\mathrm{TV}}^2\leqslant D _ {\mathrm{KL}}(P'\|Q') 2 ∥ P ′ − Q ′ ∥ T V 2 ⩽ D K L ( P ′ ∥ Q ′ ) ,Pinsker不等式也就得证。我们只需要证明
2 ( p − q ) 2 ⩽ p ln p q + ( 1 − p ) ln 1 − p 1 − q , p , q ∈ ( 0 , 1 ) . 2(p-q)^2\leqslant p\ln\frac{p}{q}+(1-p)\ln\frac{1-p}{1-q},\quad p,q\in(0,1). 2 ( p − q ) 2 ⩽ p ln q p + ( 1 − p ) ln 1 − q 1 − p , p , q ∈ ( 0 , 1 ) . 而当p , q p,q p , q 取0 0 0 或1 1 1 的情形是容易的。
令f ( x ) = p ln x + ( 1 − p ) ln ( 1 − x ) f(x)=p\ln x+(1-p)\ln(1-x) f ( x ) = p ln x + ( 1 − p ) ln ( 1 − x ) ,那么上式右边恰为f ( p ) − f ( q ) f(p)-f(q) f ( p ) − f ( q ) ,于是由微积分基本定理
f ( p ) − f ( q ) = ∫ q p f ′ ( x ) d x = ∫ q p ( p x − 1 − p 1 − x ) d x = ∫ q p p − x x ( 1 − x ) d x ⩽ 4 ∫ q p ( p − x ) d x = 2 ( p − q ) 2 . f ( p ) − f ( q ) = ∫ q p f ′ ( x ) d x = ∫ q p ( p x − 1 − p 1 − x ) d x = ∫ q p p − x x ( 1 − x ) d x ⩽ 4 ∫ q p ( p − x ) d x = 2 ( p − q ) 2 . \begin{aligned}
&f(p)-f(q)=\int _ q^pf'(x)\, \mathrm dx=\int _ q^p\Big(\frac px-\frac{1-p}{1-x}\Big)\, \mathrm dx\\={}&\int _ q^p\frac{p-x}{x(1-x)}\, \mathrm dx\leqslant4\int _ q^p(p-x)\, \mathrm dx=2(p-q)^2.
\end{aligned}\begin{aligned}
&f(p)-f(q)=\int _ q^pf'(x)\, \mathrm dx=\int _ q^p\Big(\frac px-\frac{1-p}{1-x}\Big)\, \mathrm dx\\={}&\int _ q^p\frac{p-x}{x(1-x)}\, \mathrm dx\leqslant4\int _ q^p(p-x)\, \mathrm dx=2(p-q)^2.
\end{aligned} = f ( p ) − f ( q ) = ∫ q p f ′ ( x ) d x = ∫ q p ( x p − 1 − x 1 − p ) d x ∫ q p x ( 1 − x ) p − x d x ⩽ 4 ∫ q p ( p − x ) d x = 2 ( p − q ) 2 . = f ( p ) − f ( q ) = ∫ q p f ′ ( x ) d x = ∫ q p ( x p − 1 − x 1 − p ) d x ∫ q p x ( 1 − x ) p − x d x ⩽ 4 ∫ q p ( p − x ) d x = 2 ( p − q ) 2 . 这就完成了证明。
KL散度的data processing不等式
为了证明上一节的命题,我们考虑一般情况 下,KL散度的链式法则:
定理(KL散度的链式法则) :设有两个联合分布P x , y , Q x , y P _ {\mathrm{x,y}},Q _ {\mathrm{x,y}} P x , y , Q x , y 及对应的边缘分布P x , Q x P _ {\mathrm x},Q _ {\mathrm x} P x , Q x ,且都有对应的正则条件分布P y ∣ x , Q y ∣ x P _ {\mathrm{y}|\mathrm x},Q _ {\mathrm{y}|\mathrm x} P y ∣ x , Q y ∣ x ,那么
D K L ( P x , y ∥ Q x , y ) = D K L ( P y ∣ x ∥ Q y ∣ x ∣ P x ) + D K L ( P x ∥ Q x ) . D _ {\mathrm{KL}}(P _ {\mathrm {x,y}}\| Q _ {\mathrm{x,y}})=D _ {\mathrm{KL}}(P _ {\mathrm{y}|\mathrm x}\|Q _ {\mathrm{y}|\mathrm x}\operatorname{|}P _ {\mathrm x})+D _ {\mathrm{KL}}(P _ {\mathrm x}\|Q _ {\mathrm {x}}). D K L ( P x , y ∥ Q x , y ) = D K L ( P y ∣ x ∥ Q y ∣ x ∣ P x ) + D K L ( P x ∥ Q x ) . 其中的D K L ( P y ∣ x ∥ Q y ∣ x ∣ P x ) D _ {\mathrm{KL}}(P _ {\mathrm{y}|\mathrm x}\|Q _ {\mathrm{y}|\mathrm x}\operatorname{|}P _ {\mathrm x}) D K L ( P y ∣ x ∥ Q y ∣ x ∣ P x ) 表示条件KL散度,具体定义为
D K L ( P y ∣ x ∥ Q y ∣ x ∣ P x ) = E x ∼ P x [ D K L ( P y ∣ x ∥ Q y ∣ x ) ] . D _ {\mathrm{KL}}(P _ {\mathrm{y}|\mathrm x}\|Q _ {\mathrm{y}|\mathrm x}\operatorname{|}P _ {\mathrm x})=\mathbb E _ {\mathrm x\sim P _ {\mathrm x}}[D _ {\mathrm{KL}}(P _ {\mathrm{y}|\mathrm x}\|Q _ {\mathrm{y}|\mathrm x})]. D K L ( P y ∣ x ∥ Q y ∣ x ∣ P x ) = E x ∼ P x [ D K L ( P y ∣ x ∥ Q y ∣ x ) ] . 这里不讨论可测性(默认可测),因而默认这个定义well-defined,可参看其它资料。
证明思路 :不妨设P x ≪ Q x P _ {\mathrm x}\ll Q _ {\mathrm x} P x ≪ Q x 且Q x ≪ P x Q _ {\mathrm x}\ll P _ {\mathrm x} Q x ≪ P x ,否则上式两边都为+ ∞ +\infty + ∞ ,等式成立。从而d P x d Q x \frac{\mathrm d P _ {\mathrm x}}{\mathrm dQ _ {\mathrm x}} d Q x d P x 几乎处处[ P x ] [P _ {\mathrm x}] [ P x ] 有限。记R y ∣ x = 1 2 ( P y ∣ x + Q y ∣ x ) R _ {\mathrm y|\mathrm x}=\frac12(P _ {\mathrm y|\mathrm x}+Q _ {\mathrm y|\mathrm x}) R y ∣ x = 2 1 ( P y ∣ x + Q y ∣ x ) 、R x , y = Q x R y ∣ x R _ {\mathrm x,\mathrm y}=Q _ {\mathrm x}R _ {\mathrm y|\mathrm x} R x , y = Q x R y ∣ x ,不难发现:R y ∣ x R _ {\mathrm y|\mathrm x} R y ∣ x 是P y ∣ x , Q y ∣ x P _ {\mathrm y|\mathrm x},Q _ {\mathrm y|\mathrm x} P y ∣ x , Q y ∣ x 的dominating测度、R x , y R _ {\mathrm x,\mathrm y} R x , y 是P x , y , Q x , y P _ {\mathrm x,\mathrm y},Q _ {\mathrm x,\mathrm y} P x , y , Q x , y 的dominating测度,即P y ∣ x , Q y ∣ x ≪ R y ∣ x P _ {\mathrm y|\mathrm x},Q _ {\mathrm y|\mathrm x}\ll R _ {\mathrm y|\mathrm x} P y ∣ x , Q y ∣ x ≪ R y ∣ x 以及P x , y , Q x , y ≪ R x , y P _ {\mathrm x,\mathrm y},Q _ {\mathrm x,\mathrm y}\ll R _ {\mathrm x,\mathrm y} P x , y , Q x , y ≪ R x , y 。对可测的E E E ,有
Q x , y ( E ) = ∫ d Q x ∫ ⋯ Q y ∣ x ( d y ∣ x ) = ∫ E d Q y ∣ x d R y ∣ x ( y ∣ x ) R x , y ( d x , d y ) . Q _ {\mathrm x,\mathrm y}(E)=\int\mathrm dQ _ {\mathrm x}\int _ {\cdots} Q _ {\mathrm y|\mathrm x}(\mathrm dy| x)=\int _ E\frac{\mathrm dQ _ {\mathrm y|\mathrm x}}{\mathrm dR _ {\mathrm y|\mathrm x}}(y|x)\, R _ {\mathrm x,\mathrm y}(\mathrm dx,\mathrm dy). Q x , y ( E ) = ∫ d Q x ∫ ⋯ Q y ∣ x ( d y ∣ x ) = ∫ E d R y ∣ x d Q y ∣ x ( y ∣ x ) R x , y ( d x , d y ) . 同样地,
P x , y ( E ) = ∫ d Q x ∫ ⋯ d P x d Q x ( x ) P y ∣ x ( d y ∣ x ) = ∫ E d P x d Q x ( x ) d P y ∣ x d R y ∣ x ( y ∣ x ) R x , y ( d x , d y ) . P _ {\mathrm x,\mathrm y}(E)=\int\, \mathrm dQ _ {\mathrm x}\int _ {\cdots}\frac{\mathrm dP _ {\mathrm x}}{\mathrm dQ _ {\mathrm x}}(x)P _ {\mathrm y|\mathrm x}(\mathrm dy| x)=\int _ E\frac{\mathrm dP _ {\mathrm x}}{\mathrm dQ _ {\mathrm x}}(x)\frac{\mathrm dP _ {\mathrm y|\mathrm x}}{\mathrm dR _ {\mathrm y|\mathrm x}}(y|x)\, R _ {\mathrm x,\mathrm y}(\mathrm dx,\mathrm dy). P x , y ( E ) = ∫ d Q x ∫ ⋯ d Q x d P x ( x ) P y ∣ x ( d y ∣ x ) = ∫ E d Q x d P x ( x ) d R y ∣ x d P y ∣ x ( y ∣ x ) R x , y ( d x , d y ) . 从而
D K L ( P x , y ∥ Q x , y ) = E P x , y [ log d P x d Q x ( x ) d P y ∣ x d R y ∣ x ( y ∣ x ) d Q y ∣ x d R y ∣ x ( y ∣ x ) ] = E P x , y [ log d P y ∣ x d R y ∣ x ( y ∣ x ) d Q y ∣ x d R y ∣ x ( y ∣ x ) ] + E P x , y [ log d P x d Q x ( x ) ] = D K L ( P y ∣ x ∥ Q y ∣ x ∣ P x ) + D K L ( P x ∥ Q x ) . D K L ( P x , y ∥ Q x , y ) = E P x , y [ log d P x d Q x ( x ) d P y ∣ x d R y ∣ x ( y ∣ x ) d Q y ∣ x d R y ∣ x ( y ∣ x ) ] = E P x , y [ log d P y ∣ x d R y ∣ x ( y ∣ x ) d Q y ∣ x d R y ∣ x ( y ∣ x ) ] + E P x , y [ log d P x d Q x ( x ) ] = D K L ( P y ∣ x ∥ Q y ∣ x ∣ P x ) + D K L ( P x ∥ Q x ) . \begin{aligned}
D _ {\mathrm {KL}}(P _ {\mathrm {x,y}}\|Q _ {\mathrm {x,y}})&=\mathbb E _ {P _ {\mathrm {x,y}}}\bigg[\log\frac{\frac{\mathrm dP _ {\mathrm x}}{\mathrm dQ _ {\mathrm x}}(\mathrm x)\frac{\mathrm dP _ {\mathrm y|\mathrm x}}{\mathrm dR _ {\mathrm y|\mathrm x}}(\mathrm y|\mathrm x)}{\frac{\mathrm dQ _ {\mathrm y|\mathrm x}}{\mathrm dR _ {\mathrm y|\mathrm x}}(\mathrm y|\mathrm x)}\bigg]\\
&=\mathbb E _ {P _ {\mathrm {x,y}}}\bigg[\log\frac{\frac{\mathrm dP _ {\mathrm y|\mathrm x}}{\mathrm dR _ {\mathrm y|\mathrm x}}(\mathrm y|\mathrm x)}{\frac{\mathrm dQ _ {\mathrm y|\mathrm x}}{\mathrm dR _ {\mathrm y|\mathrm x}}(\mathrm y|\mathrm x)}\bigg]+\mathbb E _ {P _ {\mathrm {x,y}}}\Big[\log\frac{\mathrm dP _ {\mathrm x}}{\mathrm dQ _ {\mathrm x}}(\mathrm x)\Big]\\
&=D _ {\mathrm{KL}}(P _ {\mathrm{y}|\mathrm x}\|Q _ {\mathrm{y}|\mathrm x}\operatorname{|}P _ {\mathrm x})+D _ {\mathrm{KL}}(P _ {\mathrm x}\|Q _ {\mathrm {x}}).
\end{aligned}\begin{aligned}
D _ {\mathrm {KL}}(P _ {\mathrm {x,y}}\|Q _ {\mathrm {x,y}})&=\mathbb E _ {P _ {\mathrm {x,y}}}\bigg[\log\frac{\frac{\mathrm dP _ {\mathrm x}}{\mathrm dQ _ {\mathrm x}}(\mathrm x)\frac{\mathrm dP _ {\mathrm y|\mathrm x}}{\mathrm dR _ {\mathrm y|\mathrm x}}(\mathrm y|\mathrm x)}{\frac{\mathrm dQ _ {\mathrm y|\mathrm x}}{\mathrm dR _ {\mathrm y|\mathrm x}}(\mathrm y|\mathrm x)}\bigg]\\
&=\mathbb E _ {P _ {\mathrm {x,y}}}\bigg[\log\frac{\frac{\mathrm dP _ {\mathrm y|\mathrm x}}{\mathrm dR _ {\mathrm y|\mathrm x}}(\mathrm y|\mathrm x)}{\frac{\mathrm dQ _ {\mathrm y|\mathrm x}}{\mathrm dR _ {\mathrm y|\mathrm x}}(\mathrm y|\mathrm x)}\bigg]+\mathbb E _ {P _ {\mathrm {x,y}}}\Big[\log\frac{\mathrm dP _ {\mathrm x}}{\mathrm dQ _ {\mathrm x}}(\mathrm x)\Big]\\
&=D _ {\mathrm{KL}}(P _ {\mathrm{y}|\mathrm x}\|Q _ {\mathrm{y}|\mathrm x}\operatorname{|}P _ {\mathrm x})+D _ {\mathrm{KL}}(P _ {\mathrm x}\|Q _ {\mathrm {x}}).
\end{aligned} D K L ( P x , y ∥ Q x , y ) = E P x , y [ log d R y ∣ x d Q y ∣ x ( y ∣ x ) d Q x d P x ( x ) d R y ∣ x d P y ∣ x ( y ∣ x ) ] = E P x , y [ log d R y ∣ x d Q y ∣ x ( y ∣ x ) d R y ∣ x d P y ∣ x ( y ∣ x ) ] + E P x , y [ log d Q x d P x ( x ) ] = D K L ( P y ∣ x ∥ Q y ∣ x ∣ P x ) + D K L ( P x ∥ Q x ) . D K L ( P x , y ∥ Q x , y ) = E P x , y [ log d R y ∣ x d Q y ∣ x ( y ∣ x ) d Q x d P x ( x ) d R y ∣ x d P y ∣ x ( y ∣ x ) ] = E P x , y [ log d R y ∣ x d Q y ∣ x ( y ∣ x ) d R y ∣ x d P y ∣ x ( y ∣ x ) ] + E P x , y [ log d Q x d P x ( x ) ] = D K L ( P y ∣ x ∥ Q y ∣ x ∣ P x ) + D K L ( P x ∥ Q x ) . 这就证明了KL散度的链式法则。
定理(KL散度的data processing不等式) :设给定随机变量x = x \mathrm x=x x = x 时,y ∼ P y ∣ x ( y ∣ x ) \mathrm y\sim P _ {\mathrm y|\mathrm x}(y|x) y ∼ P y ∣ x ( y ∣ x ) 。P y = ∫ P y ∣ x ( ⋅ ∣ x ) P x ( d x ) P _ {\mathrm y}=\int P _ {\mathrm y|\mathrm x}(\cdot|x)\, P _ {\mathrm x}(\mathrm dx) P y = ∫ P y ∣ x ( ⋅ ∣ x ) P x ( d x ) ,Q y = ∫ P y ∣ x ( ⋅ ∣ x ) Q x ( d x ) Q _ {\mathrm y}=\int P _ {\mathrm y|\mathrm x}(\cdot|x)\, Q _ {\mathrm x}(\mathrm dx) Q y = ∫ P y ∣ x ( ⋅ ∣ x ) Q x ( d x ) ,那么
D K L ( P y ∥ Q y ) ⩽ D K L ( P x ∥ Q x ) . D _ {\mathrm {KL}}(P _ {\mathrm y}\|Q _ {\mathrm y})\leqslant D _ {\mathrm {KL}}(P _ {\mathrm x}\|Q _ {\mathrm x}). D K L ( P y ∥ Q y ) ⩽ D K L ( P x ∥ Q x ) .
证明 :由KL散度的链式法则,
D K L ( P x ∥ Q x ) = D K L ( P x ∥ Q x ) + D K L ( P y ∣ x ∥ Q y ∣ x ∣ P x ) = D K L ( P x , y ∥ Q x , y ) = D K L ( P y ∥ Q y ) + D K L ( P x ∣ y ∥ Q x ∣ y ∣ P y ) ⩾ D K L ( P y ∥ Q y ) . D K L ( P x ∥ Q x ) = D K L ( P x ∥ Q x ) + D K L ( P y ∣ x ∥ Q y ∣ x ∣ P x ) = D K L ( P x , y ∥ Q x , y ) = D K L ( P y ∥ Q y ) + D K L ( P x ∣ y ∥ Q x ∣ y ∣ P y ) ⩾ D K L ( P y ∥ Q y ) . \begin{aligned}D _ {\mathrm {KL}}(P _ {\mathrm x}\|Q _ {\mathrm x})&=D _ {\mathrm {KL}}(P _ {\mathrm x}\|Q _ {\mathrm x})+D _ {\mathrm {KL}}(P _ {\mathrm y|\mathrm x}\|Q _ {\mathrm y|\mathrm x}\operatorname{|}P _ {\mathrm x})\\&=D _ {\mathrm {KL}}(P _ {\mathrm x,\mathrm y}\| Q _ {\mathrm x,\mathrm y})\\&=D _ {\mathrm {KL}}(P _ {\mathrm y}\|Q _ {\mathrm y})+D _ {\mathrm {KL}}(P _ {\mathrm x|\mathrm y}\|Q _ {\mathrm x|\mathrm y}\operatorname{|}P _ {\mathrm y})\\&\geqslant D _ {\mathrm {KL}}(P _ {\mathrm y}\|Q _ {\mathrm y}).\end{aligned}\begin{aligned}D _ {\mathrm {KL}}(P _ {\mathrm x}\|Q _ {\mathrm x})&=D _ {\mathrm {KL}}(P _ {\mathrm x}\|Q _ {\mathrm x})+D _ {\mathrm {KL}}(P _ {\mathrm y|\mathrm x}\|Q _ {\mathrm y|\mathrm x}\operatorname{|}P _ {\mathrm x})\\&=D _ {\mathrm {KL}}(P _ {\mathrm x,\mathrm y}\| Q _ {\mathrm x,\mathrm y})\\&=D _ {\mathrm {KL}}(P _ {\mathrm y}\|Q _ {\mathrm y})+D _ {\mathrm {KL}}(P _ {\mathrm x|\mathrm y}\|Q _ {\mathrm x|\mathrm y}\operatorname{|}P _ {\mathrm y})\\&\geqslant D _ {\mathrm {KL}}(P _ {\mathrm y}\|Q _ {\mathrm y}).\end{aligned} D K L ( P x ∥ Q x ) = D K L ( P x ∥ Q x ) + D K L ( P y ∣ x ∥ Q y ∣ x ∣ P x ) = D K L ( P x , y ∥ Q x , y ) = D K L ( P y ∥ Q y ) + D K L ( P x ∣ y ∥ Q x ∣ y ∣ P y ) ⩾ D K L ( P y ∥ Q y ) . D K L ( P x ∥ Q x ) = D K L ( P x ∥ Q x ) + D K L ( P y ∣ x ∥ Q y ∣ x ∣ P x ) = D K L ( P x , y ∥ Q x , y ) = D K L ( P y ∥ Q y ) + D K L ( P x ∣ y ∥ Q x ∣ y ∣ P y ) ⩾ D K L ( P y ∥ Q y ) .
上面的命题是这个定理的特殊情况。
当只考虑离散情况,讨论会有所简化,但已不必赘述了。
发表回复