第十一讲:积分的换元,期望与分布,概率密度函数
如果概率空间 \((\Omega,\@F,\bb P)\) 是离散的,我们知道,在上面定义的随机变量 \(X\) 之期望可以写成下面两种形式,分别对应了对于 \(\Omega\) 的不同分划方式:
- \(\E{X} = \sum_{\omega\in\Omega} X(\omega)\cdot \Pr{\set{\omega}}\);
- \(\E{X} = \sum_{x\in\!{Im}(X)}x\cdot \Pr{X=x}\)。
直观上,这两种期望的表示方法可以分别看成对 \(X\) 的定义域和值域进行加权求和。其中第二种方式通过枚举随机变量取值的方法在有些问题中会特别方便我们计算。我们今天想说明,对于一般的随机变量,我们也能这么做,唯一需要做的是把求和换成合适测度的(勒贝格)积分。
积分的换元,期望与分布
我们首先引入一个记号。对于测度空间 \((\Omega,\@F,\bb P)\),随机变量 \(X\),以及 \(A\in \@F\),我们定义在 \(A\) 上 \(X\) 的积分 \[ \int_A X\d \bb P \defeq \int_\Omega X\cdot \bb I_{X\in A} \d \bb P. \]
我们假设 \(X\) 是 \((\Omega,\@F,\bb P)\) 上定义的一个一般的随机变量。根据我们对于期望的定义,我们可以记作 \[ \E{X} = \int_\Omega X(\omega)\bb P(\dd\omega). \] 这便是离散空间上随机变量上面第一种写法的推广。我们将要证明,这个期望等于 \[ \int_{\bb R} x\mu(\dd x), \] 其中 \(\mu\) 是我们介绍过的 \(X\) 诱导出来的分布,满足对于任何 \(A\in\@B(\bb R)\),\(\mu(A) = \Pr{X\in A}\)。注意到这是一个在测度空间 \((\bb R,\@B,\mu)\) 上定义的勒贝格积分。因此,如果我们直观的把 \(\d x\) 想象成 \(\bb R\) 中的一小段区间的话,\(\mu(\dd x) = \Pr{X\in \dd x}\),这在形式上便是离散随机变量的期望第二种写法的推广。
事实上,我们将证明一个更强的定理。我们称定义在 \((\bb R,\@B)\) 上的可测函数 \(f\colon \bb R\to\bb R\) 为 Borel 函数。那么,对于一个 Borel 函数 \(f\) 和随机变量 \(X\),容易验证复合函数 \(f(X)\colon \omega\in\Omega\mapsto f(X(\omega))\in \bb R\) 是可测的,因此也是一个随机变量。我们有下面这个一般版本的 LOTUS(Law of the unconscious statistician):
Theorem 1 设 \(X\) 是 \((\Omega,\@F,\bb P)\) 上的随机变量,\(g\) 是一个非负 Borel 函数。那么 \[ \E{g(X)} = \int_{\bb R} g(x) \mu(\dd x). \]
注意到,因为按照我们上一节课提及之处理无穷随机变量期望的方法,我们只需要考虑非负的 \(g\) 就够了。
Proof. 对于每一个 \(n\ge 0\),我们考虑 \(g\) 的上近似 \(\ol g_n(x)\)。对每一个 \(k\in \bb N\),定义 \(\Lambda_k = \set{x\in \bb R\cmid \ol g_n(x)=k\cdot 2^{-n}}\)。设 \(A_k=[X\in\Lambda_k]\)。那么,根据 \(\mu\) 的定义,我们有 \(\bb P(A_k) = \mu(\Lambda_k)\)。
于是, \[ \E{\ol g_n(X)} = \sum_{k=0}^\infty k\cdot 2^{-n}\Pr{A_k} = \sum_{k=0}^{\infty}k\cdot 2^{-n}\mu(\Lambda_k) = \E[\mu]{\ol g_n}. \] 令 \(n\to\infty\) 即得证。
随机变量的分类
我们知道每一个随机变量 \(X\) 均有一个分布函数 \(F_X\colon \bb R\to [0,1]\),满足 \[ \forall t,\; F(t) = \Pr{X\le t}. \] 我们前面说过,如果一个随机变量的所有可能取值是一个可数集,则它被称为离散随机变量。我们将称一个随机变量为连续随机变量,如果其分布函数是一个连续函数。当然了,一个随机变量可以既不连续也不离散。
我们说一个随机变量的分布函数 \(F\) 是绝对连续(absolutely continuous)的,如果存在一个定义在 \(\bb R\) 上的函数 \(f\),满足 \[ \forall t,\;F(t) = \int_{(-\infty, t]} f(x)\d x. \] 这里的积分是勒贝格积分,\(\dd x\) 是勒贝格测度。我们称 \(f\) 为 \(X\) 的概率密度函数(probability density function, pdf),有时候又简称为密度函数。显然,我们要求 \(f(x)\) 非负并且 \(\int_{\bb R} f(x)\d x = 1\)。比如说,在 \((0,1]\) 上的均匀分布,它的密度函数为 \[ f(x)= \begin{cases} 0, & x<0;\\ 1, & 0\le x\le 1;\\ 0, & x>1. \end{cases} \] 一个绝对连续的 \(F\) 一定是连续的,但不一定是可导的(比如说 \((0,1]\) 上的均匀分布,它有 \(0\) 和 \(1\) 两个不可导的点)。可以证明,它一定是几乎处处可导的。这个帖子给出了一些单调的,连续的,但是不绝对连续的例子。如果 \(F(x)\) 在 \(x=t\) 可导,那么 \(f(t) = F'(t)\)。
绝对连续的概念在概率论里面很重要的一个原因是,我们关心的很多连续分布,是直接通过其概率密度函数定义的。比如说,我们未来会仔细研究的标准正态分布,正是满足 \(f(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}\) 的分布。我们也可以通过概率密度函数计算随机变量的很多数字特征,如期望、方差等。
当然,别忘了,并不是每一个连续分布均有概率密度函数的。
概率密度的积分
我们接下来要介绍一个对于计算期望非常重要的结论。再次回忆对于离散随机变量我们有 \[ \E{X}=\sum_{x\in\!{Im}(X)} x\cdot \Pr{X=x}. \] 我们之前讲离散随机变量的时候定义过所谓概率质量函数 pmf,即 \(p_X(x) = \Pr{X=x}\)。所以上式也可以写成 \[ \E{X} = \sum_{x\in\!{Im}(X)} x\cdot p_X(x). \] 这个式子的 LOTUS 版本是对于任何 Borel 函数 \(g\): \[ \E{g(X)} = \sum_{x\in\!{Im}(X)} g(x)\cdot p_X(x). \]
这个式子是我们计算离散随机变量以及关于其函数的期望最常用的公式。根据我们上面的定义可以看出,概率密度函数其实就是“连续版本”的概率质量函数,因此,我们也期望有类似的式子来进行计算。我们现在就给出这个公式。
Theorem 2 对于有概率密度 \(f(x)\) 的随机变量 \(X\) 以及非负 Borel 函数 \(g\),我们有 \[ \E{g(X)} = \int_{\bb R} g(x)f(x)\d x. \]
同样,这里的积分是勒贝格积分,\(\dd x\) 是勒贝格测度。
积分公式的证明
由于我们知道 \(\E{g(X)} = \int_{\bb R} g(x)\mu(\dd x)\),我们只需要证明 \[ \int_{\bb R} g(x)\mu(\dd x) = \int_{\bb R} g(x)f(x)\d x \] 即可。
我们分两步来证明上述使用概率密度函数的积分公式。
第一步 我们首先定义一个 \(\@B\) 上的集合函数 \(\nu\): \[ \forall A\in\@B,\; \nu(A)\defeq \int_A f(x)\d x. \] 我们来验证,对于每一个 \(A\in\@B\),\(\mu(A)=\nu(A)\)。To this end, 定义 \[ \@G \defeq \set{A \subseteq \Omega\cmid \nu(A) = \mu(A)}. \] 我们将用单调类定理证明 \(\@G\) 包含了 \(\@B\)。首先容易验证 \(\@G\) 包含了所有的形如 \((a,b]\) 的区间。这是由于 \[ \nu((a,b]) = \int_{(a,b]} f(x) \d x = F(b)-F(a) = \mu((a,b]). \] 根据勒贝格积分的定义,容易验证,所有有限个左开右闭的区间的并也是属于 \(\@G\)。因此,代数 \(\@B_0\subseteq \@G\)。我们现在验证对于单调上升的 \(A_1\subseteq A_2\subseteq \cdots \in \@G\),\(\bigcup_{n\ge 1} A_n\in \@G\)。由于 \(\mu\) 是一个测度,所以我们有 \[ \mu\tp{\bigcup_{i\ge 1} A_i} = \mu\tp{\lim_{n\to\infty}\bigcup_{i=1}^n A_i} = \lim_{n\to\infty}\mu\tp{\bigcup_{i=1}^n A_i}. \] 由于对于每一个 \(n\), \(\bigcup_{i=1}^n A_i = A_n\in\@G\),我们有 \[ \mu\tp{\bigcup_{i\ge 1} A_n} = \lim_{n\to\infty} \nu\tp{\bigcup_{i=1}^n A_i} \overset{(\clubsuit)}{=} \nu\tp{\bigcup_{i\ge 1} A_i}. \] 其中 \((\clubsuit)\) 是使用了 MCT(\(\nu\tp{\bigcup_{i=1}^n A_i} = \int_{\bb R}\bb I_{\bigcup_{i=1}^n A_i} f(x) \d x\),而 \(X_n\defeq I_{\bigcup_{i=1}^n A_i} f(X)\) 是单调递增的随机变量)。
对于单调递减的事件列,其封闭性亦可类似证明。于是,由单调类定理,\(\@B\subseteq \@G\)。
第二步 接着,我们使用上一步的结论证明对于任何 \(A\in \@B\),有 \[ \int_A g(x)\mu(\dd x) = \int_A g(x)f(x)\d x. \]
对于每一个 \(n\),我们来考察 \(g\) 的下近似 \(\ul g_n\) 的期望。对于每一个 \(k\in \bb N\),我们定义 \(A_k\defeq \set{x\in \bb R\cmid \ul g_n(x)=k\cdot 2^{-n}}\)。于是,\(\ul g_n\) 可以写成 \(\ul g_n(x) = \sum_{k\in\bb N}k\cdot 2^{-n}\bb I_{x\in A_k}\) 那么 \[ \int_A \ul g_n(x)\mu(\dd x) = \int_A \sum_{k\in\bb N}k\cdot 2^{-n}\bb I_{x\in A_k}\mu(\dd x)\overset{(\diamondsuit)}=\sum_{k\in \bb N}k\cdot 2^{-n}\int_{\bb R} \bb I_{x\in A\cap A_k} \mu(\dd x). \] 这里 \((\diamondsuit)\) 这一步积分和求和可以交换的原因是每一项都是非负的,因此可以应用MCT。于是,上式可以继续写成 \[ \begin{align*} \sum_{k\in\bb N}k\cdot 2^{-n}\mu(A\cap A_k) &= \sum_{k\in\bb N}k\cdot 2^{-n}\nu(A\cap A_k) \\ &= \sum_{k\in\bb N}k\cdot 2^{-n}\int_{A\cap A_k}f(x)\d x \\ &= \int_A \ul g_n(x) f(x)\d x. \end{align*} \] 所以我们就证明了 \[ \int_A \ul g_n(x)\mu(\dd x) = \int_A \ul g_n(x)f(x) \d x. \] 对两边取极限,并使用 MCT 把极限和积分进行交换,我们便证明了 \[ \int_A g(x)\mu(\dd x) = \int_A g(x)f(x) \d x. \]最后再提一句,设 \(F\) 是 \(X\) 的分布函数。我们有的时候会使用记号 \[ \int_A g(x) \d F(x) \defeq \int_A g(x) \mu(\dd x). \] 因此,我们有在勒贝格积分的意义下,如果 \(F(x)\) 绝对连续,那么 \[ \int_A g(x) \d F(x) = \int_A g(x)f(x)\d x. \]
勒贝格积分与黎曼积分
在一个区间 \([a,b]\) 上的一个 Borel 函数 \(f\),如果他是有界的,那么它是勒贝格可积的函数。如果它正好也是黎曼可积的,那么两个积分一定相等。在这儿,我简述一下证明。由于 \(f\) 是黎曼可积,设其积分是 \(S\),那么对于任何 \(\eps>0\),都存在一个 \(\delta>0\),满足对于 \([a,b]\) 的一个分划 \(\set{I_i}_{i\in [n]}\),如果 \(\lambda(I_i)\le \delta\),则用它定义的函数的黎曼和满足 \[ \abs{S-\sum_{i=1}^n f(x_i) \lambda(I_i)}\le \eps, \] 其中 \(x_i\in I_i\) 并且 \(\lambda\) 是勒贝格测度(即区间的长度)。我们定义一个函数 \(g\),满足 \(g(x) = \sum_{i=1}^n \sup_{x\in I_i}f(x)\cdot \bb I_{x\in I_i}\)。那么显然 \(f\le g\),并且由我们关于黎曼和的假设 \[ \abs{S-\sum_{i=1}^n \sup_{x_i\in I_i}f(x_i) \lambda(I_i)}\le \eps, \] 而 \(\sum_{i=1}^n \sup_{x_i\in I_i}f(x_i)\cdot\lambda(I_i)\) 正好是 \(g\) 的勒贝格积分 \(\int_{[a,b]} g \d x\)。因此,我们由勒贝格积分的单调性,\(\int_{[a,b]} f \d x\le \int_{[a,b]} g \d x\le S+\eps\)。我们同样可以类似证明 \(\int_{[a,b]} f\d x \ge S-\eps\)。 由于这个不等式对于任何 \(\eps\) 都成立,所以勒贝格积分 \(\int_{[a,b]} f\d x = S\).
因此,我们在概率密度存在的情况下,可以通过数学分析课熟悉的对于黎曼积分的计算技巧,来处理随机变量的期望问题。我们将在未来看到更多实际计算的例子。