第六讲:离散期望的一些应用
我们上节课介绍了期望和方差的定义。我们今天使用它们来解决一些实际的问题。使用离散概率工具解决算法、组合数学问题是一个很深刻的主题,感兴趣的同学可以参考 Mitzenmacher and Upfal, Probability and Computing 以及 Alon and Spencer, The Probabilistic Method 两本名著。
几何分布(Geometric Distribution)
我们今天要介绍一类重要的分布,叫做几何分布。它有一个参数 \(p\in [0,1]\),被记作 \(\!{Geom}(p)\)。我们上一节课说过,描述一个(离散)分布,给出它的概率质量函数 \(p_k=\Pr{X=k}\) 就好了。当然,更加“合适”的做法是描述出这个满足分布的随机变量背后的随机试验。几何分布对应了如下随机试验:
考虑不停的扔一枚 \(p\)-偏差的硬币(即每次 \(p\) 的概率出正面,\(1-p\) 的概率出背面),\(X\) 表示第一次出现正面的时候扔的次数。根据这个定义,我们“显然”有 \[ p_k=\Pr{X=k} = (1-p)^{k-1}\cdot p. \] 这便定义了几何分布 \(\!{Geom}(p)\)。
我们这儿要十分小心。我们现在通过直接给出概率质量函数 \(\forall k\ge 1,\; p_k=(1-p)^{k-1}p\) 的形式“定义”了几何分布 \(\!{Geom}(p)\)。我们上节课也说过,一旦给出基于概率质量函数的定义,我们可以构造一个平凡的概率空间与随机变量,使得它的分布是这个给定分布。在我们这个例子里,我们让 \(\Omega'=\bb Z_{\ge 1}\) 为所有正整数,\(\@F'=2^{\Omega'}\),\(\bb P'(\set{k}) = (1-p)^{k-1}p\),\(X'(k)=k\)。那么 \(X'\sim \!{Geom}(p)\)。但这个概率空间并不是我们直观上引入几何分布的那个概率空间。
我们现在来看看直观上引入概率几何分布的那个随机试验,所对应的概率空间是什么。一番思索之后,大家应该能发现样本空间是 \(\Omega=\set{\!H,\!T}^{\bb N}\),即所有“无限长”的 \(\!H\!T\) 串的集合(注意,这不是 \(\set{\!H,\!T}^*\),\(\set{\!H,\!T}^*\) 是所有“有限长” \(\!H\!T\) 串的集合)。因此 \(\Omega\) 并不是一个可数集,我们目前还没有办法在上面定义概率测度。事实上,\(\Omega\) 中的元素可以看成无限(二进制)小数,因此可以把 \(\Omega\) 和 \([0,1]\) 对应起来。我们在未来会让大家在作业里证明,这儿的 \(\sigma\)-代数可以取 \([0,1]\) 上的所有 Borel 集,对于 \(p=\frac{1}{2}\) 而言,我们可以使用在 \([0,1]\) 上定义均匀分布同样的方法定义 \(\Omega\) 上的均匀分布。
但是无论如何,我们有了概率质量函数我们可以做计算了。使用高中曾经擅长的数列求和技巧,对于 \(X\sim\!{Geom}(p)\),我们有 \[ \E{X} = \sum_{k=1}^\infty k\cdot (1-p)^{k-1}\cdot p = \frac{1}{p}. \] 我们同样可以计算出 \[ \Var{X} = \E{X^2} - \E{X}^2 = \frac{1-p}{p^2}. \] 因此我们可以说,扔一枚均匀硬币,平均两次,会出现一次正面。虽然我们目前还没有完全严格的把这样一个分布和扔硬币的随机试验对应起来。
奖券收集问题(Coupon Collector’s Problem)
奖券收集问题是概率分析里面的一个重要的概率模型。我们使用今天介绍的技巧和不等式来研究这个模型。
考虑玩一个抽卡手游。现在总共有 \(n\) 种不同类型的卡,每一抽可以均匀的得到其中一种。现在想问平均要抽多少次,可以集齐一套,即 \(n\) 种卡每种至少一张。
我们考虑这个问题的概率空间建模。这儿的一个方便的样本空间和几何分布很类似,是 \(\Omega=[n]^{\bb N}\),因此是不可数的。我们不妨假设上面可以合理的定义均匀测度 \((\Omega,\@F,\bb P)\)。定义随机变量 \(X\) 为第一次集齐一套的抽卡次数。我们关心的是 \(\E{X}\) 即 \(X\) 的期望。由于 \(X\) 的取值还是离散的,我们可以把之前对于期望的定义稍微扩展一下,即定义 \(\E{X}=\sum_{k=1}^{\infty} k\cdot \Pr{X=k}\)。
再次警告 我们接下来的计算是基于随机变量、随机试验、期望、独立性的直观进行的,它们是对的,但正确性的严格证明需要我们未来学习了更多的语言之后才能进行。现在我们暂时贷款一下。
直接通过 \(\E{X}\) 的定义进行计算显然是困难的。我们又再次使用期望的线性性技巧。下面这种构造,第一次见是非常巧妙的,但它也是一种非常常用的构造,请大家务必理解。对于 \(i=1,2,\dots,n\),我们定义随机变量 \(X_i\) 表示,“在当且已经有了 \(i-1\) 种不同类型的卡之后,要获得另外一种新的类型的卡,还有抽几次”这个随机变量。那么,我们有如下几个不言自明的观察 * \(X=\sum_{i=1}^n X_i\); * \(X_1,X_2,\dots,X_n\) 是相互独立的; * \(X_i\sim\!{Geom}\tp{\frac{n-i+1}{n}}\)。
于是,我们便可以使用期望的线性性和几何分布的性质得到 \[ \E{X} = \sum_{i=1}^n \E{X_i} = \sum_{i=1}^n\frac{n}{n-i+1} = n\sum_{i=1}^n \frac{1}{i} = n H_n, \] 其中 \(H_n=\sum_{i=1}^n\frac{1}{i}\) 是调和级数。我们知道 \(\lim_{n\to\infty} H_n = \log n + \gamma\),其中 \(\gamma\approx 0.5772\) 是欧拉常数。
以上的计算告诉我们,如果 \(n=1000\),那么要收集一套卡,平均需要 \(nH_n=7485.47\) 次。 但实际上,因为存在欧皇和非酋的缘故,我们往往并不关心平均数,我们关心,抽多少卡,可以“保证”凑齐一套。当然了,由于是随机问题,不可能100%保证,因此,我们想计算,假设希望以99%的概率收集齐一套,至少需要抽多少次?
我们用三种方法来估计这个上界。
首先尝试用 Markov 不等式来估算。回忆 Markov 不等式它表达的是一个随机变量不太可能以特别大的概率特别大。这正好满足我们的要求。使用 Markov 不等式,我们有 \[ \Pr{X\ge a} \le \frac{\E{X}}{a} = \frac{n H_n}{a}. \] 如果我们想让上面的概率不超过 \(1\%\),我们需要取 \(a=100 n H_n\)。即在我们上面的例子里,Markov 不等式告诉我们说,如果抽了 \(100n H_n = 748547\) 次卡,那么以 \(99\%\) 的概率,能凑齐一套。
当然游戏公司没有这么黑。上面估算的数值看起来很坏的原因在于,Markov 不等式在我们的例子上太松了,它并没有用到随机变量足够多的信息。我们这儿用上方差的信息试一试。由 Chebyshev’s 不等式, \[ \Pr{\abs{X-\E{X}}\ge a}\le \frac{\Var{X}}{a^2}. \] 如果让上式不超过 \(1\%\),我们需要取 \(a=10\sqrt{\Var{X}}\)。因此,我们来计算一下 \(\Var{X}\)。我们注意到 \(X=\sum_{i=1}^n X_i\),并且这些 \(X_i\) 是相互独立的。因此,我们可以用方差的线性性,得到 \[ \Var{X}=\sum_{i=1}^n \Var{X_i} = \sum_{i=1}^n\frac{1-\frac{n-i+1}{n}}{\tp{\frac{n-i+1}{n}}^2}=\sum_{i=1}^n \frac{(i-1)n}{(n-i+1)^2}\le \sum_{i=1}^n \frac{n^2}{(n-i+1)^2}. \] 我们注意到 \[ \sum_{i=1}^n\frac{1}{(n-i+1)^2} = \sum_{i=1}^n \frac{1}{i^2} \le 1+\int_1^\infty \frac{\dd x}{x^2}=2. \] 因此 \(\Var{X}\le 2n^2\)。我们取 \(a=10\sqrt{2} n\),即如果我们抽了 \(H_n+10\sqrt{2}n\approx 21628\) 次卡,便可以以 \(99\%\) 的概率收集一套了。
实际上,我们可以直接计算抽了 \(m\) 张卡后还没有收集一套的概率。我们有 \[ \begin{align*} \Pr{抽了m张卡还没集齐} &=\Pr{存在i\in [n],抽了m次之后都没有抽到它}\\ &\le \sum_{i=1}^n \Pr{抽了m次都没有抽到i}. \end{align*} \] 上面这个小于等于号使用的是 union-bound。对于固定的卡 \(i\),抽了 \(m\) 轮之后没有抽到它的概率是 \[ \tp{1-\frac{1}{n}}^m \le e^{-\frac{m}{n}}. \] 因此,我们令 \(n e^{-\frac{m}{n}}\le 1\%\),可以得到 \(m\ge n\log 100n\approx 11513\)。也就是说,抽了11513次之后,有超过99%的概率已经收集全一套了,这比之前计算的,又要好了一些。
上面几个分析可以看出,如果我们对于随机变量有更多的信息,可以让我们的估算更加准确。
随机图上的相变
图的性质 \(\+P\colon G\mapsto 0\mbox{ or }1\) 指的是从图到 \(0\) 或者 \(1\) 的一个映射。
考虑 Erdős–Rényi 随机图 \(G(n,p(n))\),其中 \(p(n)\colon \bb N \to[0,1]\) 是一个关于顶点个数的函数。我们称一个图性质 \(\+P\) 具有相变性,如果 \(\exists r\colon \bb N\to[0,1]\) 使得
- 如果 \(p(n)\ll r(n)\),\(\Pr[G\sim G(n,p(n))]{G\mbox{ satisfies }P}\overset{n\to\infty}{\longrightarrow}0\);
- 如果 \(p(n)\gg r(n)\),\(\Pr[G\sim G(n,p(n))]{G\mbox{ satisfies }P}\overset{n\to\infty}{\longrightarrow}1\)。
这里 \(r\) 被称之为 \(P\) 的阈值函数。下面我们将用二阶矩方法证明性质“一个图包含一个\(K_4\)”具有相变性,并且其阈值函数是 \(n^{-\frac{2}{3}}\)。
Theorem 1 图性质“\(G\)包含一个 \(K_4\)”具有阈值函数 \(n^{-\frac{2}{3}}\)。
令随机变量 \(X\) 表示 \(G\) 中 \(K_4\) 的数量。当 \(p(n)\ll n^{-\frac{2}{3}}\)时,根据马尔可夫不等式,我们有 \[ \Pr[G\sim G(n,p(n))]{\mbox{$G$ contains a $K_4$}}=\Pr{X\geq 1}\leq \E{X}. \] 对于任意的图中的 \(4\) 个顶点构成的集合 \(S\in \binom{[n]}{4}\),令 \(X_S=\*1[G[S]\mbox{ is a clique}]\)。那么 \[ \E{X}=\E{\sum_{S\in \binom{[n]}{4}}X_S}=\binom{n}{4}\cdot p^6\leq n^4p^6=o(1). \]
另一方面,当\(p(n)\gg n^{-\frac{2}{3}}\),使用切比雪夫不等式 \[ \begin{align*} \Pr{X= 0} &\leq \Pr{\abs{X-\E{X}}\geq \E{X}}\\ &\leq \frac{\Var{X}}{\tp{\E{X}}^2}=\frac{\E{X^2}-\tp{\E{X}}^2}{\tp{\E{X}}^2}. \end{align*} \]
注意到 \[ \begin{align*} &\phantom{{}={}}\E{X^2}-\tp{\E{X}}^2\\ &=\E{\tp{\sum_{S\in \binom{[n]}{4}}X_s}^2}-\tp{\E{\sum_{S\in \binom{[n]}{4}}X_s}}^2\\ &=2\sum_{S\neq T}\E{X_SX_T}+\sum_S \E{X_S^2}-2\sum_{S\neq T}\E{X_S}\E{X_T}-\sum_{S}\tp{\E{X_s}}^2\\ &=2\sum_{\abs{S\cap T}=2}\tp{\E{X_SX_T}-\E{X_S}\E{X_T}}+2\sum_{S\cap T=3}\tp{\E{X_SX_T}-\E{X_S}\E{X_T}}\\ &\quad+ \sum_{S}\tp{\E{X_S^2}-\tp{\E{X_S}}^2}\\ &\leq 2\sum_{\abs{S\cap T}=2}\E{X_SX_T}+2\sum_{S\cap T=3}\E{X_SX_T} + \sum_{S}\E{X_S^2}. \end{align*} \] 正如 Figure 1 所示,当 \(\abs{S\cap T}=2\) 时, \(X_S= X_T=1\) 当且仅当这 \(11\) 条边都被包含。因此 \[ \E{X_SX_T}=\Pr{X_S=1\wedge X_T=1}=p^{11}. \] 类似地,当 \(\abs{S\cap T}=3\)(如 Figure 2 所示),
\[ \E{X_SX_T}=\Pr{X_S=1\wedge X_T=1}=p^9. \]
因此, \[\begin{align*} \E{X^2}-\tp{\E{X}}^2&\leq 2\sum_{\abs{S\cap T}=2}\E{X_SX_T}+2\sum_{S\cap T=3}\E{X_SX_T} + \sum_{S}\E{X_S^2}\\ &=2\binom{n}{2}\binom{n-2}{2}\binom{n-4}{2}p^{11} + 2\binom{n}{3}\binom{n-3}{1}\binom{n-4}{1}p^9\\ &\quad +\binom{n}{4}p^6\\ &\leq n^6p^{11}+n^5p^9+n^4p^6=o(\tp{\E{X}}^2). \end{align*}\] 这说明了当 \(p(n)\gg n^{-\frac{2}{3}}\) 时,\(\Pr{G \mbox{ contains a }K_4}\to 1\)。
Weierstrass 近似定理
我们在数学分析中曾经学过,在一个闭区间上的任意一个连续的函数都可以被一个多项式函数任意地近似。我们现在使用二阶矩方法来证明这个定理。
Theorem 2 (Weierstrass近似定理) 给定一个连续函数 \(f\colon [0,1]\to [-1,1]\)。对于任意的 \(\eps>0\) 都存在一个多项式 \(p\) 满足 \(\forall x\in[0,1]\), \(\abs{p(x)-f(x)}\leq \eps\)。
我们可以用以下的观点来看待这个问题:如 Figure 3 所示,我们从函数中选定 \(n+1\) 个点,第 \(i\) 个点的取值为 \(f\tp{\frac{i}{n}}\)。然后我们定义 \[ P_n(x)=\sum_{i=0}^n E_i(x)\cdot f\tp{\frac{i}{n}}. \] 我们希望 \(E_i(x)\) 满足下列条件:
- 对于任意的 \(x\),\(\sum_{i}E_i(x)=1\)。也就是说,系数是一个依赖于 \(x\) 的概率分布;
- 对于任意的 \(i,x\),\(E_i(x)\) 是一个多项式;
- 对于任意的 \(x\),系数比较集中在离 \(x\) 最近的点 \(\frac{i^*}{n}\) 上(\(i^* = \argmin_i \abs{x-\frac{i}{n}}\))。
我们可以定义出某些随机变量来表达 \(E_i(x)\),也即令 \(E_i(x)=\Pr{Y=i}\)。注意到我们希望当 \(x\) 接近于 \(\frac{i^*}{n}\) 的时候 \(E_i(x)\) 很大,并且对于其他离 \(x\) 比较远的点我们希望他们的系数之和比较小。考虑随机变量 \(Y\sim \!{Bin}(n,x)\)。我们有 \(\E{Y}=nx\) 并且 \(\Var{Y}=x(1-x)n\leq \frac{n}{4}\)。根据切比雪夫不等式, \[ \Pr{\abs{\frac{Y}{n}-x}\geq n^{-\frac{1}{3}}}=\Pr{\abs{Y-nx}\geq n^{\frac{2}{3}}}\leq \frac{n^{-\frac{1}{3}}}{4}. \] 令 \(E_i(x)=\Pr{Y=i}=\binom{n}{i}x^i(1-x)^{n-i}\)。对于任意 \(x\in[0,1]\), \[\begin{align*} \abs{P_n(x)-f(x)}&\leq \sum_{i=1}^nE_i(x)\abs{f\tp{\frac{i}{n}}-f(x)}\\ &=\underbrace{\sum_{i\colon \abs{i-nx}\leq n^{\frac{2}{3}}}E_i(x)\abs{f\tp{\frac{i}{n}}-f(x)}}_A + \underbrace{\sum_{i\colon \abs{i-nx}> n^{\frac{2}{3}}}E_i(x)\abs{f\tp{\frac{i}{n}}-f(x)}}_B. \end{align*}\] 由于函数 \(f\) 是连续的,那么存在 \(\delta\) 使得 \(\forall \abs{x-y}<\delta\),\(\abs{f(x)-f(y)}<\frac{\eps}{2}\)。当 \(n^{-\frac{1}{3}}<\delta\),我们有 \(A\leq \frac{\eps}{2}\)。同时,当 \(n^{-\frac{1}{3}}<\eps\)时,\(B\leq 2\sum_{i\colon \abs{i-nx}> n^{\frac{2}{3}}}E_i(x)\leq \frac{n^{-\frac{1}{3}}}{2}\leq \frac{\eps}{2}\)。因此,选定 \(n\geq \max\set{\frac{1}{\eps^3},\frac{1}{\delta^3}}\),对于所有\(x\in[0,1]\),我们有\(\abs{P_n(x)-f(x)}\leq \eps\)。