第八讲:一般概率空间上的随机变量
在有了上节课的基础之后,我们终于可以来定义一般概率空间上的随机变量,以及研究它的一些性质。我们会发现,在一般的概率空间上,许多概念与离散的概率空间会有一些不一样,主要的原因在于一般的概率空间的结构内容更丰富了,以致于不少我们直观上认为会正确的东西不再一定正确。但在看到这些性质的时候,请务必回忆一下在离散场合对应的是什么,如果有所不同,想想为什么。
随机变量与可测函数
给定一个样本集 \(\Omega\) 以及定义在上面的 \(\sigma\)-代数 \(\@F\subseteq 2^\Omega\)。我们称 \((\Omega,\@F)\) 为一个可测空间。我们假设上面有一个概率测度 \(\bb P\),因此,\((\Omega,\@F,\bb P)\) 是一个概率空间。给定一个(实值)函数 \(f\colon \Omega\to \bb R\),我们说 \(f\) 是一个可测函数,当且仅当对于任何 Borel 集 \(A\in \@B\),\(f^{-1}(A)\defeq \set{\omega\in\Omega\cmid f(\omega)\in A}\in\@F\)。所谓随机变量,实际上就是定义在 \(\Omega\) 上的可测函数。不过惯例上,我们会用大写的字母 \(X,Y,\dots\) 来表示随机变量。
回忆在离散概率空间的时候,我们把任何 \(\Omega\to\bb R\) 上的函数都称为随机变量,这是因为在那个时候,我们总是把 \(\@F\) 取成全集 \(2^\Omega\),因此任何函数都是可测的。可测的要求是非常自然的。因为我们在研究概率的时候,我们需要对于 Borel 集 \(A\),讨论 \(\Pr{X\in A}\) 的概率。由于 \(\bb P\) 是定义在 \(\@F\) 上的函数,我们必须要求 \([X\in A]\in \@F\) (我们有时候用 \([X\in A]\) 来表示 \(X^{-1}(A)\) )。
验证随机变量
我们对于可测性的要求使得任意给一个函数 \(X\colon \Omega\to\bb R\),其是否是随机变量是需要验证的。实际上,我们并不需要对于所有的 Borel 集 \(A\in\@B\),来验证 \([X\in A]\in \@F\)。我们只需考虑那些形如 \((-\infty,r]\),其中 \(r\in \bb Q\) 是有理数的集合即可。
Proposition 1 \(X\) 是随机变量当且仅当对于每一个有理数 \(r\in \bb Q\),\([X\le r]\in\@F\)。
“仅当”是显然的。我们来验证“当”,也就是说,如果对于每一个 \(r\in \bb Q\),\([X\le r]\in \@F\),那么对于任何 \(A\in \@B\),\([X\in A]\in\@F\)。我们定义 \(\@G=\set{A\subseteq \bb R\cmid [X\in A]\in \@F}\)。
设 \(\@G_0=\set{(-\infty,r]\cmid r\in \bb Q}\)。我们知道 \(\@G_0\subseteq \@G\)。我们先验证 \(\@G\) 是 \(\sigma\)-代数,于是就有 \(\sigma(\@G_0)\subseteq \@G\)。然后我们验证 \(\sigma(\@G_0) = \@B\) 就可以了。
我们直接根据定义来验证 \(\@G\) 是 \(\sigma\)-代数。首先 \(\emptyset\in \@G\)。如果 \(A\in \@G\),那么意味着 \([X\in A]\in\@F\)。因此 \([X\in A^c]=[X\in A]^c \in \@F\)。所以 \(A^c\in \@G\)。类似的,如果 \(A_1,A_2,\dots \in \@G\),那么 \(\bigcup_{n\ge 1}[X\in A_n] = [X\in \bigcup_{n\ge 1}A_n]\in \@F\)。这说明 \(\bigcup_{n\ge 1}A_n\in \@G\)。因此 \(\@G\) 是 \(\sigma\)-代数。
我们要证明 \(\sigma(\@G_0)=\@B\),稍微思索一下即可发现,我们只需要证明使用求补、求可数交的操作,能够从 \(\@G_0\) 得到 \(\@B_0\) 即可。那么,现在给定 \((a,b]\in \@B_0\),其中 \(a\le b \in \bb R\),我们显然有 \[ (a,b] = (\infty,b] \setminus (-\infty,a]. \] 而对于任何一个实数 \(a\in \bb R\)。我们总可以找到一列递减的有理数 \(r_1,r_2,\dots\),满足 \(\lim_{n\to\infty} r_n=a\)。于是, \[ (-\infty,a] = \bigcap_{n\ge 1} (-\infty,r_n]. \]
Proposition 2 设 \(X,Y\colon \Omega\to\bb R\) 是随机变量。
- 对于任意实数 \(a\),\(aX\) 是随机变量;
- \(X+Y\) 与 \(XY\) 是随机变量;
- 定义 \(Z:\omega\in\Omega\mapsto \begin{cases} Y(\omega) / X(\omega) & \mbox{ if }X(\omega)\ne 0,\\ 0 & \mbox{ if }X(\omega)=0, \end{cases}\),那么 \(Z\) 是随机变量;
- 设 \(f:\bb R\to \bb R\) 为 \((\bb R,\@B)\) 上的一个可测函数(又称 Borel 函数),那么 \(f(X)\) 是随机变量。
我们接下来验证一下 \(X+Y\) 是随机变量。剩余的一些,我们留成练习。
我们只需要对于任意 \(a\in \bb R\),说明 \([X+Y> a]\in \@F\) 即可(why?)。实际上 \[ [X+Y>a] = \bigcup_{r\in \bb Q} \tp{[X> r]\cap [Y> a-r]}. \]
随机变量的分布函数(Distribution Function)
一个随机变量 \(X\) 唯一决定了一个 \(\bb R\to [0,1]\) 的函数 \(F_X\): \[ F_X(a) \defeq \Pr{X\le a}. \] 我们把 \(F_X\) 称为 \(X\) 的分布函数(Distribution Function),或者累积分布函数(Cumulative Distribution Function, CDF)。
设 \(X\) 是投掷一个六面骰子得到的的点数,那么它对应的分布函数的图像如 Figure 1 所示。
设 \(X\) 是从 \([0,1]\) 上均匀取的一个数,那么它对应的分布函数的图像如 Figure 2 所示。
分布函数的基本性质
分布函数有一些基本性质,我们罗列一些。
Proposition 3 (分布函数的基本性质) 设 \(X\) 是一个随机变量并且 \(F\) 是它的分布函数,那么对于任何的 \(x,y\in\bb R\),以下结论成立。
- \(0\le F(x)\le 1\);
- \(x\le y\implies F(x) \le F(y)\);
- \(\lim_{x\to-\infty} F(x)=0\) 并且 \(\lim_{x\to\infty} F(x)=1\);
- \(\lim_{y\downarrow x} F(y) = F(x)\);
- \(F(x-)\defeq \lim_{y\uparrow x} F(y)\) 存在;
- \(F\) 具有至多可数个间断点。
这些性质大部分使用定义可以直接验证。其中 6 是我们数学分析课中证明过的单调函数的间断点至多可数个的性质。而 5 成立的原因是有上界的单调非降序列极限一定存在。我们来验证一下 4,它告诉我们每一个分布函数都是右连续的。同时满足 4 和 5 的函数被称作 càdlàg 的
我们定义一列递减的数 \(\set{x+\frac{1}{n}}_{n\ge 1}\)。那么 \[ \lim_{y\downarrow x} F(y) = \lim_{n\to\infty} F(x+\frac{1}{n})=\lim_{n\to\infty}\Pr{X\le x+\frac{1}{n}}=\Pr{X\le x} = F(x). \]
接下来这些随机变量和分布函数的关系也是比较容易验证的,我列出来,证明留作练习。
Proposition 4 设 \(X\) 是一个随机变量并且 \(F\) 是它的分布函数。那么如下结论成立。 1. \(\Pr{X<x} = F(x-)\); 1. \(\Pr{X=x} = F(x) - F(x-)\); 1. 如果 \(a<b\),那么 \(\Pr{a<X\le b} = F(b)-F(a)\); 1. \(\Pr{X>x} = 1-F(x)\)。
我们之前定义过随机变量 \(X\) 的分布 \(\mu_X\)。它是 \((\bb R,\@B)\) 上的一个概率测度,满足对于任何 \(A\in \@B\),\(\mu_X(A) = \Pr{X=A}\)。可以看到,它可以由分布函数 \(F_X\) 直接给出:对于任何 \((a,b]\in \@B_0\),我们有 \(\mu_X((a,b]) = F(b)-F(a)\)。然后使用扩张定理把这个测度唯一的扩张到 \(\@B\) 上即可。
分布函数和随机变量的等价性
我们上面说了每一个随机变量都可以定义出一个分布函数,并且这个分布函数满足若干性质。我们现在想说,如果有一个 \(\bb R\to \bb R\) 的函数 \(F\),它满足我们上一节第一个命题中前四条性质,那么也能够构造出一个随机变量,使得它的分布函数正好是 \(F\)。我们现在给出这个构造。
基本的想法是先找到函数 \(F\) 的逆 \(F^{-1}\)。但由于 \(F\) 可能有间断点,我们没有办法找到完美的逆,因此定义函数 \(G\colon (0,1)\to \bb R\) 满足 \[ G(u)\defeq \inf\set{x\in \bb R\cmid F(x)\ge u}. \] 注意到,在 \(F\) 是连续函数的情况下,\(G=F^{-1}\)。对于我们这儿的 càdlàg 的 \(F\),容易验证,如下命题依然成立
Proposition 5 对于任意 \(u\in (0,1)\) 和 \(x\in \bb R\),\(G(u)\le x \iff u\le F(x)\)。
我们现在构造一个以 \(F\) 为分布的随机变量。设概率空间为 \(\tp{(0,1),\@B((0,1)),\bb P}\),其中 \(\bb P\) 为 \((0,1)\) 上的均匀分布。设 \(U:x\in (0,1)\mapsto x\) 为恒等函数,我们构造的随机变量为 \[ G(U)\colon x\in (0,1)\mapsto G(U(x)). \] 根据我们说明的 \(G\) 的性质, \[ \Pr{G(U)\le x} = \Pr{U\le F(x)}. \] 但由于 \(U\) 是 \((0,1)\) 上的均匀分布,所以 \(\Pr{U\le F(x)} = F(x)\)。
这个构造还告诉我们一件事情。假设在知道分布函数 \(F\) 的情况下,如果从 \(F\) 定义的分布中进行采样呢?我们可以先均匀的从 \((0,1)\) 中选一个 \(u\),再输出 \(G(u)\)。
随机变量的独立性
我们之前对于离散的随机变量定义了独立的概念,即 \(X, Y\) 独立,当且仅当对于任何 \(x,y\),\(\Pr{X=x\land Y=y} = \Pr{X=x}\cdot\Pr{Y=y}\)。这个定义对于一般的随机变量是不正确的。我们修正如下。
Definition 1 对于定义在概率空间 \((\Omega,\@F,\bb P)\) 上的两个随机变量 \(X,Y\),我们说它们是独立的,记作 \(X\perp Y\),当且仅当对于任何 \(A,B\in \@B\), \[ \Pr{X\in A\land Y\in B} = \Pr{X\in A}\cdot \Pr{Y\in B}. \]
同样,我们接下来说明,如果要验证两个随机变量是不是独立,我们只需要取 \(A,B\) 是形如 \((-\infty,r], r\in\bb Q\) 这样的集合就够了。我们固定一个 \(r\in \bb Q\),然后设 \(\@G=\set{A\subseteq \bb R\cmid \Pr{X\le r \land Y\in A} = \Pr{X\le r}\cdot \Pr{Y\in A}}\)。我们现在来证明 \(\@G\) 包含 \(\@B\)。设 \(\@B'\) 为所有可以写成形如 \((a,b], a\le b\in \bb Q\) 的区间的有限并的集合的集合。显然 \(\@B'\) 是一个代数(和 \(\@B_0\) 的区别是这里我们要求区间的端点是有理数)。我们前面也验证过 \(\sigma(\@B')=\@B\)。
我们使用定义,可以比较容易的验证 \(\@B'\subseteq \@G\),这里不再细说。为了使用单调类定理,我们只需要验证 \(\@G\) 是单调类即可。考虑 \(A_1\subseteq A_2\subseteq \dots \in \@G\),那么 \[ \begin{align*} \Pr{X\le r\land Y\in \bigcup_{n\ge 1} A_n} &= \Pr{\lim_{n\to\infty}\tp{X\le r\land Y\in \bigcup_{i=1}^n A_i}} \\ &= \lim_{n\to\infty}\Pr{X\le r\land Y\in \bigcup_{i=1}^n A_i}\\ &= \lim_{n\to\infty}\Pr{X\le r}\cdot \Pr{Y\in\bigcup_{i=1}^n A_i}\\ &= \Pr{X\le r}\cdot \Pr{Y\in\bigcup_{n\ge 1}A_n}. \end{align*} \]
我们再使用类似的方法,对每一个 \(B\in\@B\),证明集合 \(\@G'=\set{A\subseteq \Omega\cmid \Pr{X\in A\land Y\in B} = \Pr{X\in A}\cdot \Pr{Y\in B}}\) 是个 \(\sigma\)-代数,便完成了整个证明。