当前位置：首页 > news >正文

概率论基础教程第4章随机变量(一)

news 2025/8/18 8:30:51

第4章随机变量

4.1 随机变量

定义

随机变量是一个定义在样本空间上的实值函数，其取值依赖于随机试验的结果。
我们关注的往往是试验结果的某些函数（如点数之和、正面次数等），而不是具体的结果本身。

例如：

掷两枚骰子：关心点数之和（7），而非具体组合（(1,6)、(2,5)等）。
掷多枚硬币：关心正面出现的总次数，而非具体排列。

概率分配

因为随机变量的取值由试验结果决定，因此可以为它的每个可能取值指定一个概率。
随机变量的概率性质与事件的概率一致，满足概率公理。

例题

例 1a：掷3枚均匀硬币

令 $ Y $ 表示正面朝上的次数（H），反面为T。

$ Y $ 取值	对应结果	概率
0	(T,T,T)	$ P(Y=0) = \frac{1}{8} $
1	(T,T,H), (T,H,T), (H,T,T)	$ P(Y=1) = \frac{3}{8} $
2	(T,H,H), (H,T,H), (H,H,T)	$ P(Y=2) = \frac{3}{8} $
3	(H,H,H)	$ P(Y=3) = \frac{1}{8} $

验证总概率：
$\sum_{i=0}^{3} P(Y=i) = \frac{1}{8} + \frac{3}{8} + \frac{3}{8} + \frac{1}{8} = 1$

例 1b：保险公司赔付模型

两位老人投保，保额各10万美元。
令：
- $ Y $：较年轻者死亡，$ P(Y) = 0.05 $
- $ O $：较年长者死亡，$ P(O) = 0.10 $
- 假设 $ Y $ 与 $ O $ 独立
定义随机变量 $ X $：赔付总额（单位：10万美元），取值为 0, 1, 2

计算概率：

$\begin{aligned} P(X=0) &= P(Y^c \cap O^c) = 0.95 \times 0.9 = 0.855 \\ P(X=1) &= P(Y \cap O^c) + P(Y^c \cap O) = 0.05 \times 0.9 + 0.95 \times 0.1 = 0.140 \\ P(X=2) &= P(Y \cap O) = 0.05 \times 0.1 = 0.005 \end{aligned}$

验证：$ 0.855 + 0.140 + 0.005 = 1 $

例 1c：抽球问题（最大编号）

坛中有编号1~20的球，无放回抽取4个。
令 $ X $：抽出球中最大编号，则 $ X \in {4,5,\dots,20} $

求 $ P(X = i) $

要使最大编号为 $ i $，必须：

抽到编号为 $ i $ 的球；
其余3个球从编号 $ 1 $ 到 $ i-1 $ 中选。

所以：
$\frac{\binom{i-1}{3}}{\binom{20}{4}}, \quad i = 4,5,\dots,20$

注： $(i−13)\binom{i-1}{3}$ 是从 $ i-1 $ 个较小编号中选3个的方法数。

计算 $ P(X > 10) $ 的两种方法

方法一：直接求和
$\sum_{i=11}^{20} P(X=i) = \sum_{i=11}^{20} \frac{\binom{i-1}{3}}{\binom{20}{4}}$

方法二：补集法（更简便）
$\leq 10)$
而 $ X \leq 10 $ 意味着所有4个球都来自编号1~10：
$\leq 10) = \frac{\binom{10}{4}}{\binom{20}{4}} \Rightarrow P(X > 10) = 1 - \frac{\binom{10}{4}}{\binom{20}{4}}$

例1d：掷不均匀硬币直到首次正面或n次停止

每次正面概率为 $ p $，反面为 $ 1-p $
当出现正面或已掷 $ n $ 次时停止
令 $ X $：投掷次数，取值 $ 1,2,\dots,n $

概率分布：

$\begin{aligned} P(X=1) &= P(H) = p \\ P(X=2) &= P(T,H) = (1-p)p \\ P(X=3) &= P(T,T,H) = (1-p)^2 p \\ &\vdots \\ P(X=k) &= (1-p)^{k-1}p, \quad k = 1,2,\dots,n-1 \\ P(X=n) &= P(\text{前 } n-1 \text{ 次均为反面}) = (1-p)^{n-1} \end{aligned}$

注意：最后一次无论是否正面都会停止，所以 $ X=n $ 包括两种情况： $(T,…,T,H)(T,\dots,T,H)$ 和 $(T,…,T,T)(T,\dots,T,T)$

验证总概率为1：
$\sum_{i=1}^{n} P(X=i) = \sum_{i=1}^{n-1} p(1-p)^{i-1} + (1-p)^{n-1} = p \cdot \frac{1 - (1-p)^{n-1}}{1 - (1-p)} + (1-p)^{n-1} = 1$

例 1e：优惠券收集问题

有 $ N $ 种不同的优惠券。
每次独立地以等概率 $ \frac{1}{N} $ 随机收集一张。
某人希望集齐所有 $ N $ 种优惠券。

定义两个重要随机变量：

随机变量	含义
$ T $	收集到第 $ N $ 种新优惠券所需的总张数（即首次集齐的时间）
$ D_n $	前 $ n $ 次收集后，已获得的不同种类数

目标：求 $ P(T = n) $

1. 定义事件

令 $ A_j $ 表示事件：“前 $ n $ 张中没有第 $ j $ 种优惠券”，$ j = 1,2,\dots,N $

则：
$\iff \text{至少有一种优惠券未被收集} \iff \bigcup_{j=1}^N A_j$

所以：
$P\left( \bigcup_{j=1}^N A_j \right)$

2. 应用容斥原理
$P\left( \bigcup_{j=1}^N A_j \right) = \sum_{k=1}^{N} (-1)^{k+1} \sum_{1 \le j_1 < \cdots < j_k \le N} P(A_{j_1} \cap \cdots \cap A_{j_k})$

其中：

$ P(A_{j_1} \cap \cdots \cap A_{j_k}) $：前 $ n $ 张中完全缺失指定的 $ k $ 种优惠券
每次抽到的优惠券必须来自剩下的 $ N-k $ 种，概率为 $ \frac{N-k}{N} $
各次独立 → 连续 $ n $ 次都不属于这 $ k $ 种的概率为：
$\left( \frac{N - k}{N} \right)^n$

而从 $ N $ 种中选出 $ k $ 个特定种类的方式有 $ \binom{N}{k} $ 种。

因此：
$\sum_{j_1 < \cdots < j_k} P(\cdots) = \binom{N}{k} \left( \frac{N - k}{N} \right)^n$

代入容斥公式：
$\sum_{k=1}^{N} (-1)^{k+1} \binom{N}{k} \left( \frac{N - k}{N} \right)^n$

但注意：当 $ k = N $ 时，
$\left( \frac{N - N}{N} \right)^n = 0^n = 0 \quad (\text{只要 } n \ge 1)$
所以最后一项为 0。

最终得：

$\boxed{P(T > n) = \sum_{k=1}^{N-1} (-1)^{k+1} \binom{N}{k} \left( \frac{N - k}{N} \right)^n} \tag{1.1}$

适用范围：$ n \ge 1 $

3. 推出 $ P(T = n) $

利用事件关系：
$\{ T > n-1 \} = \{ T = n \} \cup \{ T > n \}, \quad \text{互斥} \Rightarrow P(T > n-1) = P(T = n) + P(T > n)$

所以：

$\boxed{P(T = n) = P(T > n-1) - P(T > n)}$

取值范围：

若 $ n < N $：不可能集齐 → $ P(T = n) = 0 $
若 $ n \ge N $：可能集齐 → $ P(T = n) > 0 $

[!NOTE]

特殊情况：当 $ n < N $ 时

至少还需要 $ N - n $ 张才能集齐，所以 $ T > n $ 必然成立

故：
$\quad \text{对所有 } 1 \le n < N$

代入公式 (1.1) 得：

$\sum_{k=1}^{N-1} (-1)^{k+1} \binom{N}{k} \left( \frac{N - k}{N} \right)^n = 1, \quad \text{对 } 1 \le n < N$

原始求和只从 $ k=1 $ 到 $ N-1 $。我们尝试将其扩展为完整的 $ k=0 $ 到 $ N $ 的和，并观察是否能简化。

所以 $ k=0 $ 项为：
$(-1)^{1} \binom{N}{0} \left( \frac{N}{N} \right)^n = -1 \cdot 1 \cdot 1 = -1$

$ k=N $ 的项为 0

左边变为完整求和：
$\sum_{k=0}^{N} (-1)^{k+1} \binom{N}{k} \left( \frac{N - k}{N} \right)^n = \underbrace{(-1)}_{k=0} + \underbrace{1}_{\text{原和}} + \underbrace{0}_{k=N} = 0$

因此我们得到：

$\boxed{ \sum_{k=0}^{N} (-1)^{k+1} \binom{N}{k} \left( \frac{N - k}{N} \right)^n = 0 }, \quad \text{对 } 1 \le n < N \tag{2}$

两边乘以 $ -1 $，得：
$\sum_{k=0}^{N} (-1)^k \binom{N}{k} \left( \frac{N - k}{N} \right)^n = 0 \tag{3}$

令 $ j = N - k $

这是关键一步，将表达式转化为关于 $ j $ 的形式。

令：
$\quad \Rightarrow \quad k = N - j$

当 $ k = 0 $ 时，$ j = N $；当 $ k = N $ 时，$ j = 0 $

所以求和顺序反转，但仍是遍历 $ j = 0 $ 到 $ N $

代入 (3) 式：

$ \binom{N}{k} = \binom{N}{N - j} = \binom{N}{j} $
$ \left( \frac{N - k}{N} \right)^n = \left( \frac{j}{N} \right)^n $
$ (-1)^k = (-1)^{N - j} = (-1)^N \cdot (-1)^{-j} = (-1)^N \cdot (-1)^j $（因为 $ (-1)^{-j} = (-1)^j $）

所以：
$\sum_{k=0}^{N} (-1)^k \binom{N}{k} \left( \frac{N - k}{N} \right)^n = \sum_{j=0}^{N} (-1)^{N-j} \binom{N}{j} \left( \frac{j}{N} \right)^n = (-1)^N \sum_{j=0}^{N} (-1)^j \binom{N}{j} \left( \frac{j}{N} \right)^n$

但根据 (3)，这个和等于 0：

$(-1)^N \sum_{j=0}^{N} (-1)^j \binom{N}{j} \left( \frac{j}{N} \right)^n = 0 \Rightarrow \sum_{j=0}^{N} (-1)^j \binom{N}{j} \left( \frac{j}{N} \right)^n = 0$

两边乘以 $ N^n $（非零），得：

$\sum_{j=0}^{N} (-1)^j \binom{N}{j} j^n = 0, \quad \text{对 } 1 \le n < N \tag{4}$

注意：当 $ j=0 $ 时，$ j^n = 0^n = 0 $（因为 $ n \ge 1 $），所以 $ j=0 $ 项为 0，可去掉。

因此最终得到：

$\boxed{ \sum_{j=1}^{N} (-1)^j \binom{N}{j} j^n = 0 }, \quad \text{对 } 1 \le n < N \tag{5}$

或者等价地写成：

$\boxed{ \sum_{j=1}^{N} (-1)^{N-j} \binom{N}{j} j^n = 0 }, \quad \text{对 } 1 \le n < N \tag{6}$

（只需将 $ (-1)^j = (-1)^N \cdot (-1)^{N-j} $ 代入即可）

求 $ P(D_n = k) $

1. 目标

求前 $ n $ 次收集后，恰好获得 $ k $ 种不同优惠券的概率：
$P(D_n = k), \quad k = 1,2,\dots,\min(n,N)$

2. 解题三步法

步骤1：选择哪 $ k $ 种优惠券被收集到

从 $ N $ 种中选 $ k $ 种：共有 $ \binom{N}{k} $ 种方式。

步骤2：所有 $ n $ 张都在这 $ k $ 种之中

每张优惠券属于这 $ k $ 种之一的概率是 $ \frac{k}{N} $，独立抽取。

所以所有 $ n $ 张都在这 $ k $ 种中的概率为：
$\left( \frac{k}{N} \right)^n$

步骤3：这 $ k $ 种每一种都至少出现一次

仅仅“都在这 $ k $ 种中”还不够，否则可能只出现了其中 $ k-1 $ 种。

我们要的是：这 $ k $ 种全部出现过。

在“所有优惠券都来自这 $ k $ 种”的条件下，每种被抽中的概率是 $ \frac{1}{k} $，问题转化为一个子优惠券收集问题：

在 $ k $ 种优惠券系统中，前 $ n $ 次是否集齐了所有 $ k $ 种？

即：
$P(\text{全部出现} \mid \text{仅在这 } k \text{ 种中}) = P(T_k \le n)$
其中 $ T_k $ 是收集齐 $ k $ 种所需次数。

而我们已知：

$\boxed{P(T > n) = \sum_{k=1}^{N-1} (-1)^{k+1} \binom{N}{k} \left( \frac{N - k}{N} \right)^n} \tag{1.1}$

$P(T_k > n) = \sum_{i=1}^{k-1} (-1)^{i+1} \binom{k}{i} \left( \frac{k - i}{k} \right)^n \Rightarrow P(T_k \le n) = 1 - P(T_k > n)$

所以：
$P(\text{全出现} \mid \text{仅在这 } k \text{ 种中}) = 1 - \sum_{i=1}^{k-1} (-1)^{i+1} \binom{k}{i} \left( \frac{k - i}{k} \right)^n$

3. 综合三步，得最终公式
$\boxed{ P(D_n = k) = \binom{N}{k} \left( \frac{k}{N} \right)^n \left[ 1 - \sum_{i=1}^{k-1} (-1)^{i+1} \binom{k}{i} \left( \frac{k - i}{k} \right)^n \right] } \tag{2.1}$

累积分布函数

对于任意随机变量 $ X $，定义其累积分布函数（Cumulative Distribution Function, CDF）为：

$\le x), \quad -\infty < x < \infty$

性质

$ F(x) $ 是单调非降函数（若 $ a \le b $，则 $ F(a) \le F(b) $）
$ \lim_{x \to -\infty} F(x) = 0 $
$ \lim_{x \to \infty} F(x) = 1 $
$ F(x) $ 右连续（对离散型尤其明显）

4.2 离散型随机变量

定义

若随机变量 $ X $ 的可能取值为有限或可数无限个，则称其为离散型随机变量。

概率质量函数

定义：
$p (a) = P (X = a)$

性质：

$ p(x_i) \ge 0 $，对所有 $ i $
$ p(x) = 0 $，当 $ x \notin {x_1, x_2, \dots} $
$ \sum_{i} p(x_i) = 1 $

由 PMF 求 CDF

对于离散型随机变量，
$\le a) = \sum_{x \le a} p(x)$

若取值为 $ x_1 < x_2 < \cdots $，则 $ F(a) $ 是阶梯函数，在每个 $ x_i $ 处跳跃，跳跃高度为 $ p(x_i) $

例：分布列为 $ p(1)=1/4, p(2)=1/2, p(3)=1/8, p(4)=1/8 $

CDF 为：
$\begin{cases} 0, & a < 1 \\ \frac{1}{4}, & 1 \le a < 2 \\ \frac{3}{4}, & 2 \le a < 3 \\ \frac{7}{8}, & 3 \le a < 4 \\ 1, & a \ge 4 \end{cases}$

图像为阶梯状，在 $ x=1,2,3,4 $ 处跳跃。

例题

例 2a：泊松型分布

设 $ p(i) = c \frac{\lambda^i}{i!}, \quad i = 0,1,2,\dots $，其中 $ \lambda > 0 $

求常数 $ c $ 使得总概率为1：

[!NOTE]

这是一个著名的泰勒级数（或麦克劳林级数）展开式：

$e^x = \sum_{i=0}^{\infty} \frac{x^i}{i!} = 1 + x + \frac{x^2}{2!} + \frac{x^3}{3!} + \cdots$

把这个公式中的 $ x $ 换成 $ \lambda $，就得到：

$\sum_{i=0}^{\infty} \frac{\lambda^i}{i!} = e^{\lambda}$