第九讲:一般随机变量的期望,勒贝格积分
我们之前定义了在离散概率空间上随机变量的期望,现在我们终于有了足够的工具来定义一般的随机变量的期望了。
一般测度空间上离散随机变量的期望
首先,我们来说明一下,我们之前对于离散概率空间上随机变量的期望的定义,可以直接的推广成一般的概率空间上的离散随机变量的期望,即使现在的概率空间不一定离散了。我们假设概率空间是 \((\Omega,\@F,\bb P)\),随机变量 \(X\colon\Omega\to \bb R\) 的取值 \(\!{Im}(X)\) 是可数集。对于每一个 \(\Omega\) 的分划 \(\Omega=\bigsqcup_{i=1}^\infty \Lambda_i\),如果 \(X\) 在 \(\Lambda_i\) 上的取值是常数 \(z_i\),并且级数 \(\sum_{i=1}^\infty \abs{z_i}\Pr{\Lambda_i}<\infty\),则称 \(X\) 是可积的,并定义其期望为 \[ \E{X} = \sum_{i=1}^\infty z_i\cdot\Pr{\Lambda_i}. \] 我们可以同样的证明,只要 \(X\) 在每个 \(\Lambda_i\) 上是常数,定义出来的 \(\E{X}\) 与实际选取的 \(\Lambda_i\) 无关。所以,我们可以对于每一个 \(x_i\in \!{Im}(X)\),选取 \(\Lambda_i = [X=x_i]\),那么 \[ \E{X} = \sum_{x\in \!{Im}(X)} x\cdot \Pr{X=x}. \] 对于离散随机变量,我们之前证明过的大部分性质,比如对于可积随机变量的期望线性性,独立随机变量的乘积的期望等于期望的乘积等,其证明均可以同样照搬至现在的场合。
从离散到一般可测函数
现在我们考虑一个一般的随机变量 \(X\),也就是说,\(X\) 是从 \(\Omega\) 到 \(\bb R\) 的一个可测函数。现在我们没有办法再像离散的场合那样找到一个可数的分划,使得 \(X\) 限制在每个分划里是常数了。那我们定义期望的做法便是,正如同数学分析中常见的那样,使用离散的随机变量去逼近它。
对于每一个整数 \(n\ge 0\),我们用 \(2^{-n}\) 的尺度来离散化实数轴。我们定义一系列随机变量,\(\set{\ol X_n}_{n\ge 0}\), \(\set{\ul X_n}_{n\ge 0}\),分别来表示在 \(2^{-n}\) 这个尺度下对于 \(X\) 的上逼近和下逼近。具体来说,对于每一个 \(n\ge 0\),以及每一个 \(\omega\in \Omega\),我们总可以找到一个整数 \(k\),使得 \(X(\omega)\in (k\cdot 2^{-n},(k+1)\cdot 2^{-n}]\)。于是,我们定义 \(\ol X_n (\omega)\defeq (k+1)\cdot 2^{-n}\),\(\ul X_n(\omega)\defeq k\cdot 2^{-n}\)。换句话说,\(\ol X_n(\omega)\) 和 \(\ul X_n(\omega)\) 都是 \(X(\omega)\) 精确到(二进制)小数点后 \(n\) 位的近似,所不同的是对于 \(n\) 位后面的部分,一个是向上取整,一个是向下取整。根据这个定义,我们可以马上得到一些性质:
- 所有的 \(\ol X_n\), \(\ul X_n\) 均为离散随机变量;
- \(\forall \omega\in \Omega\), \(\ul X_n(\omega)\le X(\omega)\le \ol X_n(\omega)\);
- \(\ol X_n - \ul X_n = 2^{-n}\);
- \(\forall n\ge 0\),\(\ul X_n \le \ul X_{n+1}\le \ol X_{n+1}\le \ol X_n\);
- \(\forall \omega\in\Omega\),\(\lim_{n\to\infty}\ul X_n(\omega)=\lim_{n\to\infty} \ol X_n(\omega)=X(\omega)\);
这些性质大部分是不言自明的,请大家自行验证。上面第3条性质告诉我们,在任意样本点 \(\ul X_n(\omega)\) 和 \(\ol X_n(\omega)\) 相差最多 \(2^{-n}\le 1\)。因此,所有这些随机变量,是同时可积或者同时不可积的。并且,在它们可积的时候,我们有性质 \[ -\infty < \E{\ul X_0}\le \E{\ul X_1}\dots\le \E{\ol X_1}\le \E{\ol X_0}<\infty. \] 所以,我们可以引入如下 \(\E{X}\) 的定义。
Definition 1 我们说随机变量 \(X\) 是可积的,当且仅当 \(\ol X_0\) 是可积的。如果 \(X\) 是可积的,定义其期望为 \[ \E{X} \defeq \lim_{n\to\infty} \E{\ul X_n} = \lim_{n\to\infty}\E{\ol X_n}. \]
我们上面的性质说明了,\(\lim_{n\to\infty} \E{\ul X_n}\) 和 \(\lim_{n\to\infty} \E{\ol X_n}\) 这两个极限一定是存在并且相等的。因此,这个定义是良定义。
我们有时候也把 \(\E{X}\) 记成 \(\int_\Omega X \d \bb P\),或者 \(\int_\Omega X(\omega) \bb P(\d\omega)\),它被称为在 \(\Omega\) 上可测函数 \(X\) 关于测度 \(\bb P\) 的勒贝格积分(Lebesgue Integral)。
所以,期望就是积分,正如同随机变量就是可测函数一样,这也是为什么我们把存在有限期望称为“可积”的原因。于是,我们便能用分析的工具来研究概率论了,这也是 Kolmogorov 概率公理体系的高明之处。
事实上,我们对于积分(期望)的定义不限于概率测度,可以完全的推广到任何“有限”测度。对于无穷的测度,比如 \(\bb R\) 上的勒贝格测度,也可以用类似的方法定义积分(一个值得注意的点是我们只能使用 \(\ul{X_n}\) 从下方来逼近一个可积函数)。感兴趣的同学可以参考 wiki,或者任何一本讲测度或者实分析的教材。我们未来证明的关于期望的大部分性质,都可以无缝推广到无穷测度(事实上,我们需要测度是\(\sigma\)-有限的)的勒贝格积分上去。对于只在有限测度上成立的性质,我(如果记得的话)会特别指出。
我们说一个无穷测度空间 \((\Omega,\+F,\mu)\) 是\(\sigma\)-有限的,如果存在一列可测集 \(\Lambda_1,\Lambda_2,\dots \in \@F\),使得 \(\Omega = \bigcup_{i\ge 1} \Lambda_i\) 并且对于每一个 \(i\ge 1\),\(\mu(\Lambda_i)<\infty\)。
值得注意的是,在未来,如果 \(\bb P\) 是勒贝格测度(定义在某个 \(\@B(\Omega)\) 上),我们常常用 \(\d x\) 来表示 \(\bb P(\d x)\)。
关于无穷的处理
有的时候,我们允许随机变量取无穷值,也就是说,是把 \(X\) 当成从 \(\Omega\) 到 \(\bb R\cup \set{\pm \infty}\) 的映射。这个时候,我们也允许期望取无穷值。在这个场合,我们按照如下方式扩展期望的定义,也把这个定义当成最一般的期望定义。
我们首先考虑非负的随机变量 \(X\),即 \(\forall \omega\in\Omega, X(\omega)\ge 0\) (包括 \(X(\omega)=\infty\) )。如果 \(\Pr{X=\infty}>0\),我们就定义 \(\E{X} \defeq \infty\),否则,我们定义一个新的随机变量 \(\wh X\),用来把 \(X\) 取值为 \(\infty\) 的那些位置的值置为零: \[ \forall \omega\in\Omega, \wh X(\omega)\defeq \begin{cases} 0, & \mbox{ if }X(\omega)=\infty;\\ X(\omega), & \mbox{ otherwise.} \end{cases} \] 由于 \(\wh X\) 也是非负随机变量,如果其可积,我们定义 \(\E{X}\defeq\E{\wh X}\),如果其不可积(那么定义其期望的级数一定发散),我们定义 \(\E{X} \defeq \infty\)。
我们现在引入一个方便的记号:我们用二元算符 \(\land,\lor\) 分别来表示 \(\min\) 和 \(\max\)。即 \(a\land b\defeq \min\set{a,b}\),\(a\lor b\defeq\max\set{a,b}\)。注意到,这个在组合数学里在 Lattice 上定义的类似算符的意义是一致的。
对于一般的不一定非负的随机变量 \(X\),我们用 \(X^+\) 和 \(X^-\) 分别表示其非负的部分和非正的部分,即对于任何 \(\omega\in\Omega\), \[ X^+(\omega) = X(\omega) \lor 0,\quad X^-(\omega) = -X(\omega)\lor 0. \] 那么 \(X^+,X^-\ge 0\) 并且 \(X = X^+-X^-\)。如果 \(\E{X^+} = \E{X^-} = \infty\),此时我们称 \(\E{X}\) 无定义,否则,我们定义 \(\E{X} \defeq \E{X^+}-\E{X^-}\)。
这样,我们便完成了最一般的期望的定义。注意到,到现在为止,随机变量“可积”表示它的期望是有限的,而“不可积”有可能期望不存在,也有可能期望是无穷。对于一个非负的随机变量,它的期望一定存在,在它不可积的时候,期望是无穷。
期望(积分)的基本性质
我们说某一个概率空间上的事件“几乎必然(almost surely)”发生,记作 a.s.,如果该事件发生的概率为 \(1\)。
这一节,我们列举期望的一些基本性质,同样,它们大部分的正确性是不言自明的,也可以使用定义直接验证。我们给出一些证明,并把剩下的留作练习。
- 如果 \(X=Y\;a.s.\), 那么 \(X\) 可积当且仅当 \(Y\) 可积。如果它们都可积的话,那么 \(\E{X}=\E{Y}\)。
显然,\(X=Y\;a.s.\) 可以推出对于任何 \(n\ge 0\),\(\ol X_n = \ol Y_n\;a.s.\)。而我们有 \[ X 可积 \iff \ol X_0 可积 \iff \ol Y_0 可积 \iff Y 可积. \] 因此,在它们都可积的时候,有 \(\E{X}=\lim \E{\ol X_n} =\lim\E{\ol Y_n}=\E{Y}\)。
- 如果 \(|X|\le |Y|\;a.s.\) 并且 \(Y\) 可积,那么 \(X\) 可积。特别的,\(X\) 可积当且仅当 \(\abs{X}\) 可积。
- 如果 \(X\) 可积,那么对于任何 \(a\in\bb R\),\(aX\) 可积,并且 \(\E{aX} = a\E{X}\)。
- 如果 \(X\) 和 \(Y\) 均可积,那么 \(X+Y\) 也可积,并且 \(\E{X+Y} = \E{X}+\E{Y}\)。
这一条就是所谓的期望的线性性,我们在之前的离散场合已经证明了,现在对于一般的随机变量我们马上对其再进行验证。注意,这个条件里面的 \(X\) 和 \(Y\) 均可积是非常重要的,否则该性质不一定成立。比如我们可以构造 \(\E{X}=\infty\),\(\E{Y}=-\infty\),但 \(\E{X+Y}\) 是任何数。
首先验证 \(X+Y\) 的可积性。我们令 \(Z=X+Y\)。只需要验证 \(\ol Z_0\) 是可积的即可。显然有 \[ \abs{\ol Z_0} \le \abs{Z}+1\le \abs{X}+\abs{Y}+1\le \abs{\ol X_0}+\abs{\ol Y_0}+3. \] 由于 \(X,Y\) 均是可积的,所以 \(\abs{\ol X_0},\abs{\ol Y_0}\) 均是可积的。因此 \(\abs{\ol Z_0}\) 也是可积的。
接着我们验证关于期望的等式。由于 \(\E{Z} = \lim_{n\to\infty} \ol Z_n\),\(\E{X}+\E{Y} = \lim_{n\to\infty}(\ol X_n+\ol Y_n)\),对于每一个 \(n\ge 0\),我们考察 \(\ol Z_n - (\ol X_n + \ol Y_n)\)。根据三角不等式,我们有 \[ \abs{\ol Z_n - (\ol X_n+\ol Y_n)}\le \abs{\ol Z_n-Z} + \abs{Z-(X+Y)} +\abs{X-\ol X_n}+\abs{Y-\ol Y_n} \le 3\cdot 2^{-n}. \] 这也意味着,\(\ol Z_n\) 和 \(\ol X_n+\ol Y_n\) 有着相同的极限。
- 如果 \(X\) 可积,那么 \(\abs{\E{X}}\le \E{\abs{X}}\)。
- 如果 \(X\) 和 \(Y\) 都可积,并且 \(X\le Y\;a.s.\),那么 \(\E{X}\le \E{Y}\)。
- 如果 \(X\) 和 \(Y\) 独立,并且都可积,那么 \(XY\) 也可积,并且 \(\E{XY} = \E{X}\E{Y}\)。
这个性质我们也证明过其离散的版本。对于一般的情况的证明,我们要用到离散时候的结论。我们首先验证 \(XY\) 可积。对于任意 \(n\ge 0\),根据三角不等式,我们有 \(\abs{XY} \le \abs{\ol X_n\ol Y_n}+\abs{XY-\ol X_n\ol Y_n}\)。由于 \(\ol X_n, \ol Y_n\) 均是离散随机变量,并且是可积的,我们在离散的时候已经证明过了 \(\ol X_n\ol Y_n\) 是可积的。所以我们只需要验证 \(\abs{XY-\ol X_n\ol Y_n}\) 是可积的即可。To this end,我们有 \[ \begin{align*} \abs{XY-\ol X_n\ol Y_n} &=\abs{XY-\ol X_n Y +\ol X_n Y -\ol X_n\ol Y_n}\\ &\le \abs{Y}\abs{X-\ol X_n}+\abs{\ol X_n}\abs{Y-\ol Y_n}\\ &\le 2^{-n}\tp{\abs{Y}+\abs{\ol X_n}}. \end{align*} \] 由于 \(\abs{Y}\) 和 \(\ol X_n\) 均是可积的随机变量,使用上面的性质 \(2\) 和 \(4\),我们知道 \(\abs{XY-\ol X_n\ol Y_n}\) 也是可积的。因此 \(XY\) 是可积的。
接下来验证 \(\E{XY} = \E{X}\E{Y}\)。我们使用刚才验证的对应变量的可积性,期望的线性性以及离散时候独立随机变量乘法和期望的可交换性,可以得到 \[
\begin{align*}
\E{XY}
&= \E{\ol X_n\ol Y_n + (XY-\ol X_n\ol Y_n)} \\
&= \E{\ol X_n\ol Y_n} + \E{XY-\ol X_n\ol Y_n}\\
&= \E{\ol X_n}\E{\ol Y_n} + \E{XY-\ol X_n\ol Y_n}.
\end{align*}
\]
所以,由性质 \(5\) 以及我们刚才得到的估计, \[
\begin{align*}
\abs{\E{XY}-\E{X}\E{Y}}
&= \abs{\lim_{n\to\infty}\tp{\E{XY} - \E{\ol X_n}\E{\ol Y_n}}} \\
&= \lim_{n\to\infty}\abs{\E{XY-\ol X_n\ol Y_n}}\\
&\le \lim_{n\to\infty}\E{\abs{XY-\ol X_n\ol Y_n}}\\
&\le \lim_{n\to\infty} 2^{-n}\tp{\E{\abs{Y}}+\E{\abs{\ol X_n}}}\\
&=0.
\end{align*}
\] 以上最后一个等号是由于 \(\abs{Y}\) 和 \(\ol X_n\) 均是可积的。