第十讲:单调收敛定理,Fatou引理与控制收敛定理
我们今天来学习关于期望,或者更一般的勒贝格积分的几个关于求极限与求积分进行交换的结论。这几个结论在我们未来的学习中会扮演非常重要的角色。
逐点收敛与几乎处处收敛
我们在数学分析中会遇到函数列收敛的概念,也就是一列函数 \(\set{f_n}_{n\ge 1}\) 收敛到一个函数 \(f\)。我们最常见的收敛形式是逐点收敛,也就是说对于定义域里面的每一个点 \(x\),数列 \(f_1(x),f_2(x),\dots\) 收敛到 \(f(x)\)。同样,我们在概率论中会讨论一列随机变量 \(\set{X_n}_{n\ge 1}\) 收敛到 \(X\)。如果所有的这些随机变量均生活在同一个概率空间 \((\Omega,\@F,\bb P)\) 中,那么,逐点收敛可以自然的定义为: \[ \forall \omega\in\Omega, \lim_{n\to\infty} X_n(\omega) = X(\omega). \] 事实上,由于概率测度的存在,我们对于收敛会有很多种不同的定义。在未来,我们会专门讨论各种收敛的概念之间的联系。
今天,我们先引入所谓的“几乎必然(almost surely)”收敛,也叫做“以概率 \(1\) 收敛”或者“几乎处处收敛(almost everywhere,简称 a.e.)”。它的定义是 \[ \Pr{\lim_{n\to\infty} X_n =X} = 1. \] 换句话说,那一些使得 \(\lim_{n\to\infty} X_n\ne X\) 的样本集的测度是 \(0\)。在概率论里,这是一个很强的收敛准则,但它比逐点收敛( \(\forall \omega, \lim_{n\to\infty} X_n(\omega)=X(\omega)\) )要弱。在概率论的很多结论中,一个测度为零的集合往往不能掀起什么风浪,所以我们经常可以把逐点收敛的条件弱化成几乎处处收敛。
期望与极限的交换
假设 \(X_n\) 逐点收敛到 \(X\)。我们想问,\(\E{X_n}\) 会不会收敛到 \(\E{X}\) 呢?换句话说,就是期望和极限是否能够交换? \[ \lim_{n\to\infty}\E{X_n}\overset{?}{=}\E{\lim_{n\to\infty} X_n}. \] 首先,我们必须明白,期望和极限不一定总是能够交换。我们假设概率空间是 \((0,1]\) 上的均匀分布。设 \(X_n = n\cdot \bb I_{(0,\frac{1}{n})}\)。那么,容易验证 \(X_n\) 逐点收敛到 \(0\)。另一方面,对于每一个 \(n\ge 1\),我们有 \(\E{X_n}=1\)。所以,\(\lim_{n\to\infty} \E{X_n} = 1\ne 0=\E{\lim_{n\to\infty} X_n}\)。
另一个更实际的例子是我在
https://shuiyuan.sjtu.edu.cn/t/topic/313692/9

里提到的赌博游戏。
我们接下来会介绍期望与极限交换的三个重要结论,即单调收敛定理(简称MCT)、Fatou 引理(简称Fatou)和控制收敛定理(简称DCT)。这三个结论是可以互推的,我们采取 MCT \(\implies\) Fatou \(\implies\) DCT 的顺序介绍。因此,大家可以看到,在我们的处理中,真正打开定义的黑盒进行实质性说明的是第一个对于 MCT 的证明。
单调收敛定理(Monotone Convergence Theorem)
单调收敛定理的陈述如下。
Theorem 1 (单调收敛定理)) 设 \(\set{X_n}_{n\ge 1}\) 是一组非负随机变量,满足 \(0\le X_1\le X_2\dots\),并且 \(\lim_{n\to\infty} X_n=X\;a.s.\),那么 \(\lim_{n\to\infty}\E{X_n} = \E{X}\)。
值得注意的是,这个定理里我们没有要求随机变量可积,因此,即使在 \(\E{X} = \infty\) 的时候也是成立的。
为了证明这个定理,我们可以直观上来考察一下这个结论为什么对。\(X_n\) 是单调递增的,它越来越接近 \(X\),我们想说明 \(\E{X_n}\) 也会越来越接近 \(\E{X}\)。直观上来说,对于每一个 \(X_n\),我们考察 \(X_n\) 和 \(X\) 差距比较大(比如大于 \(\eps\))的那些样本点的集合。随着 \(n\) 越来越大,这些样本点的集合的测度会越来越小。我们希望这些样本点对于期望的差距的贡献也是越来越小的。如果我们知道函数的取值本身是有界的,那么这个问题就会很显然。这促使我们先来证明下面这个引理,它实际上是MCT的一个特殊情况(\(X_n=X\land n\)),来把一般 MCT 的证明转变为有界函数的场合。
Lemma 1 设 \(X\ge 0\)。那么 \(\lim_{n\to\infty}\E{X \land n}=\E{X}\)。
引理的证明
如果 \(\Pr{X=\infty}>0\),那么对于每一个 \(\omega\in [X=\infty]\),我们都有 \((X\land n)(\omega)=n\)。因此,我们有 \(\E{X\land n}\ge n\cdot\Pr{X=\infty}\)。这说明 \(\lim_{n\to\infty}\E{X\land n}=\infty\)。
因此,我们可以假设 \(\Pr{X<\infty}=1\)。实际上,我们可以进一步的假设 \(X\) 是逐点有限的,因为测度为零的部分不会改变期望。由于对于任意 \(n\),我们均有 \(X\land n\le X\),所以 \(\lim_{n\to\infty} \E{X\land n}\le \E{X}\)。所以我们只需证明 \(\E{X}\le \lim_{n\to\infty} \E{X\land n}\)。事实上,我们有对于任何 \(n\) 和 \(k\), \[ \E{X\land n}\ge \E{\ul{X}_k \land n}\ge \E{\ul X_k\cdot\bb I_{\ul X_k\le n]}} = \sum_{j=0}^{n\cdot 2^k} j\cdot 2^{-k}\cdot\Pr{\ul X_k=j\cdot 2^{-k}}. \] 我们让上式最左边和最右边的 \(n\) 同时趋向无穷大,便能得到 \[ \lim_{n\to\infty} \E{X\land n} \ge \sum_{j=0}^\infty j\cdot 2^{-k}\cdot \Pr{\ul X_k = j\cdot 2^{-k}}=\E{\ul X_k}. \] 我们再令 \(k\to\infty\),便得证。
有了这个引理,我们来证明 MCT。
MCT 的证明
首先我们简单说明一下我们可以不管题设里的 a.e.,而假设所有性质都是逐点成立的。我们把那些让某个性质不成立的样本点拿出来,记作 \(\Lambda\)。由于 \(\bb P(\Lambda) = 0\),我们可以把一个随机变量 \(Y\) 都换成 \(Y\cdot \bb I_{\ol \Lambda}\)。这样所有的性质都是逐点成立了,并且,\(\E{Y} = \E{Y\cdot\bb I_{\ol \Lambda}}\)。
同样,因为我们知道 \(X_n\le X\),所以 \(\lim_{n\to\infty} \E{X_n}\le \E{X}\)。我们只需要证明 \(\E{X}\le \lim_{n\to\infty} \E{X_n}\)。根据刚才的引理,我们只需要证明 \(\lim_{N\to\infty} \E{X\land N} \le \lim_{n\to\infty} \E{X_n}\)。我们将证明,对于任意 \(N\ge 0\),\(\E{X\land N}\le \lim_{n\to\infty}\E{X_n}\)。由于显然 \(\E{X_n}\ge \E{X_n\land N}\),我们只需要证明对于任意 \(N\in \bb N\)。 \[ \E{X\land N}\le \lim_{n\to\infty}\E{X_n\land N}. \] 上面的讨论说明,我们可以不失一般性的假设我们关心的随机变量是有界,即只需证明有上界 \(N\) 的随机变量 \(0\le X_1\le X_2\le \dots \le N\),满足 \(\lim_{n\to\infty}\E{X_n}=\E{X}\),就可以证明原问题。
对于有界的随机变量,这个问题变得容易很多。我们将说明,对于任意 \(\eps>0\),在 \(X_n\) 足够大的时候,\(X_n\) 和 \(X\) 差距大于 \(\eps\) 的那些样本集的测度将任意小,而随机变量在这些样本集上的取值又有上界,因此,他们对于期望的贡献也任意小。
所以我们将说明,对于任意 \(\eps>0\),\(\lim_{n\to\infty}\E{X_n}\ge \E{X}-\eps\),这等价于 \(\lim_{n\to\infty}\E{X_n}\ge \E{X}\)。这个技巧叫做 “an epsilon of room”。
对于每一个 \(n\in \bb N\) 和 \(\eps>0\),我们定义 \(A_{n,\eps}=\set{\omega\cmid X_n(\omega)<X(\omega)-\eps}\),也就是 \(X_n\) 和 \(X\) 差距大于 \(\eps\) 的那些集合。由于 \(X_n\) 关于 \(n\) 是非降的,我们有 \(A_{n,\eps}\) 是非增的,并且 \(\bigcap_{n\ge 1} A_{n,\eps}=\emptyset\)。所以 \[ \lim_{n\to\infty} \E{X-X_n} \le \lim_{n\to\infty}\tp{\eps\cdot 1+ N\Pr{\bigcap_{i=1}^n A_{i,\eps}}} =\eps. \] 这足够说明我们想证明的结论了(why?)。
MCT 的一些推论
我们可以考虑非增的随机变量:假设 \(X_1\ge X_2\ge\cdots\ge 0\),并且 \(\lim_{n\to\infty} X_n=X\;a.e.\)。如果 \(X_1\) 是可积的,那么 \[ \lim_{n\to\infty} \E{X_n} = \E{X}. \] 这个结论的证明也很简单,我们只要令 \(Y_n = X_1-X_n\),由于涉及的每一个随机变量的都是可积的,再使用 MCT 即可。条件里的可积性是必要的,不然的话,考虑定义在 \((0,1]\) 均匀测度上的随机变量 \(X_n(x) = \frac{1}{nx}\)。
另外一个推论是期望的线性性在涉及无穷项的时候,如果每一项都是非负的,那依然成立。也就是说,如果 \(Y_1,Y_2,\dots \ge 0\),那么 \[ \E{\sum_{i=1}^\infty Y_i} = \sum_{i=1}^\infty \E{Y_i}. \] 为了说明这个,我们令 \(X_n = \sum_{i=1}^n Y_i\),并使用 MCT,可以得到 \[ \E{\sum_{i=1}^\infty Y_i} = \E{\lim_{n\to\infty} X_n} \overset{\mbox{(MCT)}}= \lim_{n\to\infty}\E{X_n} \overset{(\heartsuit)}= \lim_{n\to\infty}\sum_{i=1}^n \E{Y_i} = \sum_{i=1}^\infty\E{Y_i}. \] 注意到,我们在 \((\heartsuit)\) 用到了有限和时候的期望线性性。这个在每一个 \(Y_i\) 是可积的时候我们已经证明过了。由于我们这里 \(Y_i\) 都是非负的,即使其中某一个不可积,期望的线性性也成立,因为两边都等于无穷大。
Fatou 引理(Fatou’s Lemma)
我们一开始说的期望和极限交换的反例说明,对于非负的随机变量,取其极限可能让期望变小。下面这个结论确认这个事实。对于非负随机变量,如果直观的把期望想象成围成的面积的话(我们将在下次课 justify 这件事!),极限过程只可能破坏这些面积,而不可能增加面积。
Theorem 2 (Fatou 引理) 对于一列非负随机变量 \(X_n\),我们有 \[ \E{\liminf_{n\to\infty} X_n} \le \liminf_{n\to\infty} \E{X_n}. \]
我们注意到,在这儿,我们没有任何收敛性的要求。因此,我们只能谈论 \(\liminf\),而不是 \(\lim\)。
根据定义,对于一列数 \(x_n\), \[ \liminf_{n\to\infty} x_n\defeq \lim_{n\to\infty}\inf_{j\ge n} x_j. \] 因此,如果我们定义 \(y_n\defeq \inf_{j\ge n} x_j\),则 \(y_n\uparrow \liminf_{n\to\infty} x_n\)。于是乎,对于随机变量列 \(X_n\),我们也有 \[ \inf_{j\ge n} X_j \uparrow \liminf_{n\to\infty} X_n. \] 由于我们关心的随机变量都是非负的,我们便可以使用 MCT 得到 \[ \lim_{n\to\infty}\E{\inf_{j\ge n}X_j} = \E{\liminf_{n\to\infty} X_n}. \] 另一方面,我们有 \(X_n\ge \inf_{j\ge n} X_j\);也就是说 \[ \E{X_n} \ge \E{\inf_{j\ge n}X_j}. \] 两边取 \(\liminf\),可以得到 \[ \liminf_{n\to\infty} \E{X_n}\ge \liminf_{n\to\infty}\E{\inf_{j\ge n}X_j} \overset{(\spadesuit)}{=} \lim_{n\to\infty}\E{\inf_{j\ge n} X_j} = \E{\liminf_{n\to\infty} X_n}, \] 其中 \((\spadesuit)\) 是由于 \(\E{\inf_{j\ge n} X_n}\) 是关于 \(n\) 单调的。
注意到,如果把 Fatou 引理里面的 inf 换成 sup 是不对的。考虑一个从 \((0,1)\) 中均匀选出来的实数的二进制表示。我们用 \(X_n\) 表示它的第 \(n\) 位数字。那么容易验证 \(\E{X_n} = 0.5\),但是 \(\limsup X_n = 1\), \(\liminf X_n=0\)。
控制收敛定理(Dominated Convergence Theorem)
我们接下来证明控制收敛定理(DCT),这也是实际上我们最常用的一个结论。
Theorem 3 (控制收敛定理) 设 \(X_n\) 为一列随机变量,满足 \(\lim_{n\to\infty} X_n = X\;a.e.\)。如果存在一个随机变量 \(Y\),满足
- 对所有 \(n\in\bb N\),\(\abs{X_n}\le Y\);
- \(\E{Y}<\infty\) 是可积的。
那么 \(\lim_{n\to\infty}\E{X_n}=\E{X}\)。
需要注意的是,我们这儿没有要求 \(X_n\) 是非负的。
可以回忆我们一开始提到的反例 \(X_n = n\cdot \bb I_{(0,1/n)}\),我们可以直观的解释它是反例的原因:在取极限的过程中,\(X_n\) 所围成的面积从上方溜掉了。DCT便说明,如果能够给所有的 \(X_n\) 找一个统一的上界 \(Y\),把它们都给罩住不让跑出去,这种情况便不会发生。
我们来证明 DCT。考虑非负的随机变量 \(Y-X_n\),根据 Fatou 引理,我们有 \[ \liminf_{n\to\infty}\E{Y-X_n}\ge \E{\liminf_{n\to\infty}(Y-X_n)} = \E{Y-\limsup_{n\to\infty}X_n} = \E{Y-X} = \E{Y}-\E{X}. \] 因此, \[ \E{Y}-\E{X} \le \liminf_{n\to\infty} \E{Y-X_n} = \E{Y}-\limsup_{n\to\infty}\E{X_n}. \] 由于 \(\E{Y}<\infty\),这等价于 \[ \limsup_{n\to\infty}\E{X_n}\le \E{X}. \] 同样的,我们考察随机变量 \(Y+X_n\). 根据 Fatou 引理,我们有 \[ \liminf_{n\to\infty}\E{Y+X_n} \ge \E{\liminf_{n\to\infty}(Y+X_n)} = \E{Y+X} = \E{Y}+\E{X}. \] 因此, \[ \E{Y}+\E{X}\le \liminf_{n\to\infty}\E{Y+X_n} =\E{Y}+\liminf_{n\to\infty}\E{X_n}. \] 和上面得到的式子放在一起,我们便知道了 \[ \limsup_{n\to\infty}\E{X_n}\le \E{X}\le \liminf_{n\to\infty}\E{X}. \] 所以 \(\lim_{n\to\infty} \E{X_n} = \E{X}\) 得证。
控制收敛定理的一个显然的推论,有时后又叫有界收敛定理,便是当所有的 \(X_n\) 都有一个一致的上界 \(\abs{X_n}\le M\) 时,\(\lim_{n\to\infty}\E{X_n} = \E{\lim_{n\to\infty} X_n}\) 成立。这只需要在我们的 DCT 里取 \(Y=M\) 就可以了。注意到,有界收敛定理对于无穷测度不成立,原因是有界函数在无穷测度下并一定是可积的。