跳转至

概率与数理统计

事件的概率

古典概率

  • 有限性:实验结果(基本事件)的个数有限。
  • 等可能性:样本空间中每个基本事件发生的概率都相同。

若一个随机试验有 \(n\)互斥且等可能的基本事件,其中事件 \(A\) 包含 \(m\) 个基本事件,则事件 \(A\) 发生的概率为:

\[ P(A) = \frac{m}{n}, \quad 0 \leq m \leq n \]

基本计数原理

乘法原理

若一个实验可以分为 \(m\) 个步骤,每个步骤有 \(n_i\)种可能的结果,则总的可能结果数为: \(\(N = n_1 \times n_2 \times \cdots \times n_m\)\)

加法原理

若一个实验有 \(m\) 种互斥的方式,每种方式有 \(n_i\) 种可能的结果,则总的可能结果数为: \(\(N = n_1 + n_2 + \cdots + n_m\)\)

排列问题

\(n\)相异物件中取出 \(r\) 个进行不同排列的总数,记作:

\[ P_n^r = n (n - 1)(n - 2) \dots (n - r + 1) \]

这是因为:

  • \(n\) 个物件中取出排列中的\(1\),有 \(n\) 种取法;
  • 在剩下的 \(n - 1\) 个中取出一个作为排列中的\(2\),有 \(n - 1\) 种取法;
  • 最后,在剩下的 \(n - r + 1\) 个中取出一个作为排列中的\(r\),有 \(n - r + 1\) 种取法。

因此,不同的排列方式数为:

\[ n, (n - 1), (n - 2), \dots, (n - r + 1) \]

\(r\) 个数的积,即为排列数公式:

\[ P_n^r = n (n - 1)(n - 2) \dots (n - r + 1) \]

将上述表达式转换为阶乘形式,可以写作:

\[ P_n^r = \frac{n!}{(n - r)!} \]

其中: - \(n!\) 表示 \(n\) 的阶乘,即 \(n! = n \cdot (n - 1) \cdot (n - 2) \cdots 1\) - \((n - r)!\) 表示剩下未选的部分的全排列数

因此,\(P_n^r\) 是从 \(n\) 个元素中选择 \(r\) 个后,全排列这 \(r\) 个元素的总数。

组合问题

\(n\)相异物件中取出 \(r\) 个进行不考虑顺序的组合的总数,记作: \(\(C_n^r = \binom{n}{r} = \frac{n!}{r!(n - r)!}, \quad 0 \leq r \leq n\)\)

又称为二项式系数,因为它出现在二项式定理中:

\[ (a + b)^n = \sum_{r=0}^{n} \binom{n}{r} a^{n - r} b^r \]

其中 \(\binom{n}{r}\) 表示从 \(n\) 个元素中选 \(r\) 个的组合数。

二项式系数

\((a + b)^n = (a + b)(a + b)\cdots(a + b)\) 展开时,每一项都是从每个括号中选 \(a\)\(b\),共 \(n\) 次选择。
要得到 \(a^{n-i}b^i\) 这一项,就是从 \(n\) 个括号中选 \(i\) 个取 \(b\),剩下 \(n-i\) 个取 \(a\)
\(n\) 个中选 \(i\) 个的方法数为 \(\binom{n}{i}\),所以 \(a^{n-i}b^i\) 的系数就是 \(\binom{n}{i}\)

对称性
\[ \binom{n}{r} = \binom{n}{n - r} \]
边界值
\[ \binom{n}{0} = \binom{n}{n} = 1 \]
递推关系(帕斯卡尔恒等式)
\[ \binom{n}{r} = \binom{n - 1}{r} + \binom{n - 1}{r - 1} \]

(可用于构造帕斯卡尔三角形)

几何概率

几何概率用于样本空间是连续的情况,比如长度、面积、体积等。

几何概率的定义为:

\[ P(A) = \frac{\text{事件区域的度量}}{\text{样本空间的度量}} = \frac{|A|}{|S|} \]

问题:点落入对角带区域的概率

在单位正方形 \([0,1] \times [0,1]\) 中,随机撒下一点。求该点落在满足 \(|y - x| \le 0.1\) 的区域内的概率。

  • 样本空间 \(S\):单位正方形,面积 \(1\)
  • 事件区域 \(A\):两条直线 \(y = x - 0.1\)\(y = x + 0.1\) 围成的带状区域

即:

\[ A = \{(x, y) \in [0,1]^2 \mid |y - x| \le 0.1 \} \]

该带状区域可以表示为:

  • 在正方形中剔除两个三角形:\(x - y > 0.1\)\(y - x > 0.1\)

则事件区域面积:

\[ P = 1 - 2 \times \frac{(0.9)^2}{2} = 1 - 0.81 = 0.19 \]

柯氏公理体系

基本概念

样本空间(Sample Space):记作 \(\Omega\),表示一次随机试验中所有可能结果的集合。

事件(Event):样本空间 \(\Omega\) 的子集,记作 \(A \subseteq \Omega\)

事件包括:

  • 基本事件:单个元素 \(w_i \in \Omega\)
  • 事件 \(A\):样本空间的任意子集 \(A \subseteq \Omega\)
  • 必然事件:\(\Omega\)
  • 不可能事件:\(\varnothing\)

事件集合(事件域) \(\mathcal{F}\):样本空间 \(\Omega\) 上的一个 \(\sigma\)-代数,包含所有可能的事件。满足以下性质: - \(\Omega \in \mathcal{F}\) - 若 \(A \in \mathcal{F}\),则 \(A^c \in \mathcal{F}\) - 若 \(A_1, A_2, \dots \in \mathcal{F}\),则 \(\bigcup_{i=1}^{\infty} A_i \in \mathcal{F}\)

概率(Probability):是事件在一定条件下发生的理论可能性,属于一个先验值,用 \(P(A)\) 表示。

频率(Frequency):在多次重复试验中,事件 \(A\) 实际发生的相对次数。设进行 \(n\) 次独立重复试验,其中事件 \(A\) 发生了 \(k\) 次,则频率为: $$ f_n(A) = \frac{k}{n} $$

随着试验次数 \(n \to \infty\),事件 \(A\) 的频率趋近于其概率:

\[ \lim_{n \to \infty} f_n(A) = P(A) \]

这称为大数定律(Law of Large Numbers)。

概率函数(Probability Function):记作 \(P\),定义在事件集合 \(\mathcal{F}\) 上,满足以下性质: - \(P: \mathcal{F} \to [0, 1]\) - \(P(\Omega) = 1\) - 若 \(A \in \mathcal{F}\),则 \(P(A) \geq 0\) - 对于两两互不相交的事件 \(A_1, A_2, \dots\),有 \(P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i)\)

柯氏三大公理

\(P: \mathcal{F} \to [0, 1]\) 是定义在事件集合 \(\mathcal{F}\) 上的概率函数,则:

非负性(Non-negativity)
\[ \forall A \in \mathcal{F}, \quad P(A) \geq 0 \]
规范性(Normalization)
\[ P(\Omega) = 1 \]
可列可加性(Countable Additivity)

\(A_1, A_2, \dots\) 是两两互不相交的事件(即 \(A_i \cap A_j = \varnothing, \forall i \ne j\)),则:

\[ P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i) \]

由公理推导出的常用公式

单调性

\(A \subseteq B\),则 \(P(A) \leq P(B)\)

有限可加性

\(A \cap B = \varnothing\),则 \(P(A \cup B) = P(A) + P(B)\)

更一般地,若 \(A_1, A_2, \dots, A_n\) 两两互斥,则 \(P\left(\bigcup_{i=1}^n A_i\right) = \sum_{i=1}^n P(A_i)\)

补集公式

\(P(A^c) = 1 - P(A)\)

差集公式

\(A \subseteq B\),则 \(P(B \setminus A) = P(B) - P(A)\)

一般加法公式

\(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)

事件间的关系

基本关系
包含关系(子集)

若事件 \(A\) 发生时事件 \(B\) 必然发生,称 \(A\) 包含于 \(B\),记作 \(A \subseteq B\)\(B \supseteq A\)

相等关系

\(A \subseteq B\)\(B \subseteq A\),则 \(A = B\)

并事件(和事件)

\(A\)\(B\) 至少有一个发生,记作 \(A \cup B\)\(A + B\)

  • 集合表示\(A \cup B = \{ x \mid x \in A \text{ 或 } x \in B \}\)
  • 例子:掷骰子,\(A\) = “点数 ≤ 3”,\(B\) = “点数 ≥ 5”,则 \(A \cup B = \{1, 2, 3, 5, 6\}\)
交事件(积事件)

\(A\)\(B\) 同时发生,记作 \(A \cap B\)\(AB\)

  • 集合表示\(A \cap B = \{ x \mid x \in A \text{ 且 } x \in B \}\)
  • :掷骰子,\(A\) = “点数为偶数”,\(B\) = “点数 ≥ 4”,则 \(A \cap B = \{4, 6\}\)
差事件

\(A\) 发生但 \(B\) 不发生,记作 \(A - B\)

  • 集合表示\(A - B = \{ x \mid x \in A \text{ 且 } x \notin B \}\)
  • :掷骰子,\(A\) = “点数 ≤ 4”,\(B\) = “点数为奇数”,则 \(A - B = \{2, 4\}\)
### 对立事件(补事件)

事件 \(A\) 不发生的事件,记作 \(\overline{A}\)\(A^c\),满足:

$$ A \cup \overline{A} = S, \quad A \cap \overline{A} = \varnothing $$

  • 集合表示\(\overline{A} = S - A\)
  • :抛硬币,\(A\) = “正面朝上”,则 \(\overline{A}\) = “反面朝上”。
# 特殊关系
### 互斥事件(互不相容事件)

\(A \cap B = \varnothing\),即两事件不能同时发生。 - 性质\(P(A \cup B) = P(A) + P(B)\)。 - :掷骰子,\(A\) = “点数为 1”,\(B\) = “点数为 3”,两者互斥。

### 独立事件

\(P(B|A) = P(B)\),即 \(A\) 的发生不影响 \(B\) 的概率,则称 \(A\)\(B\) 独立。

  • 等价条件\(P(A \cap B) = P(A) \cdot P(B)\)
  • 注意区分
  • 互斥事件:\(A \cap B = \varnothing \Rightarrow P(A \cap B) = 0\)
  • 独立事件:\(A \cap B\) 可非空,但满足乘法公式

  • 例子:抛两枚硬币,\(A\) = “第一枚正面”,\(B\) = “第二枚正面”,两者独立。

### 完备事件组(完备性 + 互斥性)

设事件组 \(A_1, A_2, \dots, A_n\) 满足:

  • 两两互斥:\(A_i \cap A_j = \varnothing,\ i \ne j\)
  • 并集为样本空间:\(\bigcup_{i=1}^n A_i = S\)

则称其为一个 完备事件组

  • :掷骰子,事件组:点数为 1、2、3、4、5、6,构成完备事件组。
# 事件关系的集合运算律
### 交换律
\[ A \cup B = B \cup A,\quad A \cap B = B \cap A \]
### 结合律
\[ (A \cup B) \cup C = A \cup (B \cup C),\quad (A \cap B) \cap C = A \cap (B \cap C) \]
### 分配律
\[ A \cap (B \cup C) = (A \cap B) \cup (A \cap C) \\ A \cup (B \cap C) = (A \cup B) \cap (A \cup C) \]
### 德摩根律(对偶律)
\[ \overline{A \cup B} = \overline{A} \cap \overline{B}, \quad \overline{A \cap B} = \overline{A} \cup \overline{B} \]

独立事件、非独立事件与条件概率

独立事件(Independent Events)

若事件 \(A\) 的发生不影响事件 \(B\) 的发生概率,称 \(A\)\(B\) 相互独立,记作:

\[ P(A \cap B) = P(A) \cdot P(B) \]

等价于:

\[ P(A|B) = P(A),\quad P(B|A) = P(B) \]

示例 抛两枚硬币:

  • \(A\) = “第一枚正面”,\(P(A) = \frac{1}{2}\)
  • \(B\) = “第二枚正面”,\(P(B) = \frac{1}{2}\)

因为:

\[ P(A \cap B) = \frac{1}{4} = \frac{1}{2} \cdot \frac{1}{2} \]

所以 \(A\)\(B\) 独立

### 推广到多个事件的独立性

两两独立 ≠ 完全独立

\(A_1, A_2, A_3\)

  • 两两独立\(P(A_i \cap A_j) = P(A_i)P(A_j)\)
  • 完全独立:所有子集的交满足乘法规则,例如:
\[ P(A_1 \cap A_2 \cap A_3) = P(A_1) \cdot P(A_2) \cdot P(A_3) \]
非独立事件(Dependent Events)
  • \(P(A \cap B) \ne P(A) \cdot P(B)\),则 \(A\)\(B\) 非独立。
  • 说明一个事件发生会影响另一个事件的概率。

示例 从一副扑克牌中抽两张,不放回:

  • \(A\) = “第一张是红桃”,\(P(A) = \frac{13}{52}\)
  • \(B\) = “第二张是红桃”

由于抽第一张后不放回,\(B\) 的概率依赖于 \(A\) 是否发生,因此 \(A\)\(B\) 不独立

条件概率(Conditional Probability)

设事件 \(B\) 的概率 \(P(B) > 0\),在 \(B\) 已经发生的条件下,事件 \(A\) 的发生概率称为 \(A\)\(B\) 条件下的条件概率,记作 \(P(A|B)\)

\[ P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad \text{前提:} P(B) > 0 \]
  • \(P(A|B)\) 表示“在 \(B\) 已发生”的前提下,\(A\) 的概率;
  • 是一种修正后的概率,用来描述“依赖”关系;
  • \(P(A|B) \ne P(A)\),说明 \(B\) 的发生影响\(A\) 的概率。
加乘法公式

从条件概率定义出发,有:

\[ P(A \cap B) = P(A|B) \cdot P(B) = P(B|A) \cdot P(A) \]
互斥事件的条件概率

\(A\)\(B\) 互斥,则 \(P(A|B) = 0\),因为 \(A\)\(B\) 不能同时发生。

独立事件的条件概率

\(A\)\(B\) 独立,则 \(P(A|B) = P(A)\),因为 \(B\) 的发生不影响 \(A\) 的概率。

非独立事件的条件概率

\(A\)\(B\) 非独立,则 \(P(A|B) \ne P(A)\),说明 \(B\) 的发生影响了 \(A\) 的概率。

全概率公式与贝叶斯公式

\(A_1, A_2, \dots, A_n\) 为完备事件组,则对任意事件 \(B\)

  • 全概率公式
\[ P(B) = \sum_{i=1}^n P(A_i) \cdot P(B|A_i) \]
  • 贝叶斯公式
\[ P(A_j|B) = \frac{P(A_j) \cdot P(B|A_j)}{\sum_{i=1}^n P(A_i) \cdot P(B|A_i)} \]

随机变量及概率分布

一维随机变量

随机变量:随机变量 \(X\) 是实验结果的函数,将样本空间中的每个基本事件映射到实数集 \(\mathbb{R}\) 上,它可以是离散的或连续的。

离散随机变量:取值为可数个离散点的随机变量。例如,掷骰子的点数。

连续随机变量:取值为连续区间的随机变量。例如,测量一个人的身高。

离散型随机变量的概率分布

概率分布:离散随机变量 \(X\) 的概率分布是一个函数 \(P(X = x)\),表示 \(X\) 取值为 \(x\) 的概率。

概率质量函数(PMF):离散随机变量的概率分布可以用概率质量函数来表示,记作 \(P(X = x)\),满足:

\[ \sum_{x} P(X = x) = 1 \]

例子:掷骰子,\(X\) = “点数”,则 \(P(X = 1) = \frac{1}{6}, P(X = 2) = \frac{1}{6}, \ldots, P(X = 6) = \frac{1}{6}\)

概率分布函数(CDF):设随机变量 \(X\),其分布函数(简称 CDF)为:

\[ F(x) = P(X \leq x) \]

表示随机变量 \(X\) 小于等于某个值 \(x\) 的概率。

CDF 是 PMF 的累加:\(F(x) = \sum_{x_k \leq x} P(X = x_k)\)

二项分布

描述在 \(n\) 次独立的伯努利试验中,事件 \(A\) 发生 \(k\) 次的概率。记作 \(X \sim B(n, p)\),其中 \(p\) 是事件 \(A\) 发生的概率。

概率质量函数(PMF): $$ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \ldots, n $$

例子:抛硬币 10 次,\(X\) = “正面朝上次数”,则 \(X \sim B(10, \frac{1}{2})\)

分析

样本空间:抛 10 次硬币,每次有 2 种结果(正面或反面),所以所有可能的结果有 $ 2^{10} = 1024 $ 种。

事件 \(A\):正面恰好出现 5 次,选法有 $ \binom{10}{5} = 252 $种。

概率计算:每种结果等可能,所以 $$ P(A) = \frac{\text{有利结果数}}{\text{总结果数}} = \frac{252}{1024} = 0.24609375 $$

代入公式计算

假设 \(n = 10\)\(p = 0.5\),求 \(P(X = 5)\)

计算组合数: $$ \binom{10}{5} = \frac{10!}{5! \cdot 5!} = 252 $$

计算概率部分: $$ p^k = (0.5)^5 = 0.03125 (1-p)^{n-k} = (0.5)^{10-5} = (0.5)^5 = 0.03125 $$

代入公式: $$ P(X=5) = 252 \times 0.03125 \times 0.03125 = 252 \times 0.0009765625 = 0.24609375 $$

import matplotlib.pyplot as plt
from scipy.stats import binom
from matplotlib.widgets import Slider

plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False

## 创建图形
fig, ax = plt.subplots(figsize=(10, 8))
plt.subplots_adjust(bottom=0.2)

## 初始参数
n_init, p_init = 10, 0.5

## 绘制函数
def plot_binomial(n, p):
    ax.clear()
    x = range(1, n + 1)
    pmf = [binom.pmf(k, n, p) for k in x]
    ax.bar(x, pmf, tick_label=x)
    ax.set_xlabel('k(正面朝上次数)')
    ax.set_ylabel('P(X = k)')
    ax.set_title(f'二项分布 PMF(n={n}, p={p})')
    ax.grid(True, alpha=0.3)
    ax.set_ylim(0, max(pmf) * 1.1)

## 初始绘制
plot_binomial(n_init, p_init)

## 创建滑块
s_n = Slider(plt.axes([0.2, 0.1, 0.6, 0.03]), 'n', 1, 50, valinit=n_init, valstep=1)
s_p = Slider(plt.axes([0.2, 0.05, 0.6, 0.03]), 'p', 0.1, 0.9, valinit=p_init, valstep=0.1)

## 更新函数
def update(val):
    plot_binomial(int(s_n.val), s_p.val)
    fig.canvas.draw_idle()

s_n.on_changed(update)
s_p.on_changed(update)

plt.show()
泊松分布

描述在单位时间内或单位面积内,某事件发生的次数。记作 \(X \sim P(\lambda)\),其中 \(\lambda\) 是单位时间或面积内事件的平均发生次数。

概率质量函数(PMF): $$ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k !}, \quad k = 0, 1, 2, \ldots $$

例子: - 某商店平均每小时接待 5 位顾客,则 \(X \sim P(5)\),表示每小时接待顾客的次数。 - 在一定时间内某交通路口所发生的事故个数,也是一个典型的例子。

import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import poisson

plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False

lambda_param = 5  ## 平均每小时5次
x = np.arange(0, 16)  ## 0~15次
pmf = poisson.pmf(x, lambda_param)

plt.bar(x, pmf, color='skyblue', edgecolor='black')
plt.xlabel('k(单位时间内事件发生次数)')
plt.ylabel('P(X = k)')
plt.title('泊松分布 PMF(λ=5)')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()
图形说明:

  • 横轴 \(k\) 表示单位时间内事件发生的次数(如顾客数)。
  • 纵轴 \(P(X=k)\) 表示每种次数的概率。
  • 每根柱子的高度就是对应次数的概率,所有概率之和为 1。 可以把每根柱子看作“概率的面积”,所有柱子的面积加起来为 1。
# 由二项分布推导泊松分布

以投筛子为例,在投掷 \(n\) 次独立重复试验中,每次事件发生的概率为 \(p\),我们关心事件恰好发生 \(k\) 次的概率。

此时,符合二项分布\(P_n(k) = \binom{n}{k} p^k (1-p)^{n-k}\)

考虑极限情况: - \(n\) 趋近于无穷大 - \(p\) 很小(例如掷出“三个 1”的概率 \(p = \frac{1}{216}\)) - 保持 \(np = \lambda\) 为常数

这种情况下,二项分布会趋近于泊松分布(Poisson Distribution): $$ P(k) = \frac{\lambda^k}{k!} e^{-\lambda} $$

推导过程

原始二项分布公式:

\[ P_n(k) = \binom{n}{k} p^k (1 - p)^{n - k} \]

展开组合数:

\[ P_n(k) = \frac{n(n-1)\cdots(n - k + 1)}{k!} \cdot p^k \cdot (1 - p)^{n - k} \]

\(n \to \infty\), \(p \to 0\), 且 \(np = \lambda\) 固定:

  1. \(p^k = \left( \frac{\lambda}{n} \right)^k\)
  2. \((1 - p)^{n} \to e^{-\lambda}\)
  3. \(\frac{n(n - 1) \cdots (n - k + 1)}{n^k} \to 1\)(当 \(n \gg k\)

因此:

\[ P_n(k) \approx \frac{n^k}{k!} \cdot \left(\frac{\lambda}{n}\right)^k \cdot e^{-\lambda} = \frac{\lambda^k}{k!} e^{-\lambda} \]

这就是泊松分布的形式。

比如我们设置 \(\lambda = 2\),那么可以取一组 \((n, p)\) 值:

为什么要保持 \(np = \lambda\) 为常数不变?

假设 \(p\) 的值为0.2,0.02,0.002等等,当 \(n\) 越来越大时,\(p\) 越来越小,但它们的乘积 \(np\) 始终为 \(\lambda = 2\)

这个条件有两个作用:

  • 避免二项分布趋于 0 分布或确定性分布,若 \(p\) 太小又不控制 \(np\),则事件几乎不可能发生;
  • 控制泊松分布的期望,泊松分布的期望是 \(\mathbb{E}[X] = \lambda\),我们正是通过设置 \(\lambda = np\),保证极限分布的中心值是合理的。

连续性随机变量的概率分布

离散型随机变量使用 PMF 函数来描述,而连续型随机变量则使用概率密度函数(PDF)

概率密度函数(PDF, Probability Density Function)

  • 连续型随机变量没有 \(P(X = x)\) 的确切值;
  • 概率密度函数 \(f(x)\) 表示 \(X\) 在某区间内的概率密度。

PDF 是 CDF 的导数,反过来 CDF 是 PDF 的积分:

\[ F(x) = \int_{-\infty}^x f(t) \, dt \quad\Longrightarrow\quad f(x) = \frac{dF(x)}{dx} \]

如何理解概率密度函数?

分布函数 \(F(x)\) 出发,来解释“密度”一词的含义:

取定某一点 \(x\),考虑事件:\(A = \{x < X \leq x + h\}\)

其中 \(h > 0\) 是一个小常数。根据分布函数的定义,事件 \(A\) 的概率为:

\[ P(x < X \leq x + h) = F(x + h) - F(x) \]

这表示在区间 \((x, x + h)\) 内落入的概率。

我们对该区间的单位长度进行归一化处理,计算“单位长度上的概率”:

\[ \frac{F(x + h) - F(x)}{h} \]

这可以理解为:在点 \(x\) 附近、长度为 \(h\) 的区间中,每单位长度所包含的概率

\(h \to 0\) 时,该比值趋于分布函数的导数:

\[ \lim_{h \to 0} \frac{F(x + h) - F(x)}{h} = F'(x) = f(x) \]

这正是概率密度函数的定义:\(\(f(x) = F'(x)\)\)

表示在点 \(x\) 处“概率的密集程度”,即单位长度上概率的瞬时变化率。

可以把整个概率看作一根极细、无限长的金属杆,其总质量为 \(1\)(对应总概率为 1):

  • 密度函数 \(f(x)\) 就类似于金属杆在点 \(x\) 处的质量密度;
  • 它表示单位长度上“有多少质量”,也就是“有多少概率”。

连续型随机变量 \(X\) 的密度函数 \(f(x)\) 都具有以下三条基本性质:

  • \(f(x) \geq 0\)

  • \(\int_{-\infty}^{\infty} f(x) , \mathrm{d}x = 1\)

  • 对于任何常数 \(a < b\) 有    \(P(a \leq X \leq b) = F(b) - F(a) = \int_a^b f(x) , \mathrm{d}x \quad \text{(1.13)}\)

正态分布

正态分布是最重要的连续型概率分布之一,广泛应用于自然和社会科学中。

概率密度函数(PDF): $$ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)2}{2\sigma2}} $$ 其中 \(\mu\) 是均值(期望),\(\sigma^2\) 是方差。

标准正态分布:当 \(\mu = 0\)\(\sigma^2 = 1\) 时,称为标准正态分布,记作 \(Z \sim N(0, 1)\)

正态分布的累积分布函数(CDF)没有简单的解析形式,但可以通过数值方法或查表获得。 通常使用标准正态分布表来查找 \(P(Z \leq z)\) 的值,其中 \(Z\) 是标准正态分布。

正态分布的性质

  • 对称性:正态分布关于均值 \(\mu\) 对称。
  • 68-95-99.7 规则:约 68% 的数据落在 \(\mu \pm \sigma\) 范围内,约 95% 落在 \(\mu \pm 2\sigma\) 范围内,约 99.7% 落在 \(\mu \pm 3\sigma\) 范围内。
  • 中心极限定理:许多独立同分布的随机变量之和趋向于正态分布,无论原始变量的分布如何。
  • 线性变换:若 \(X \sim N(\mu, \sigma^2)\),则 \(Y = aX + b\) 仍服从正态分布,且 \(Y \sim N(a\mu + b, a^2\sigma^2)\)
  • 多元正态分布:若 \(X = (X_1, X_2, \ldots, X_n)^T\) 服从 \(N(\mu, \Sigma)\),则 \(X\) 的每个线性组合也服从正态分布。
指数分布

指数分布是描述事件发生时间间隔的连续型概率分布,常用于排队论、可靠性分析等领域。

概率密度函数(PDF): $$ f(x) = \lambda e^{-\lambda x}, \quad x \geq 0 $$ 其中 \(\lambda > 0\) 是分布的参数,表示单位时间内事件发生的平均次数。

累积分布函数(CDF): $$ F(x) = 1 - e^{-\lambda x}, \quad x \geq 0 $$ CDF 描述了随机变量 \(X\) 小于等于某个值 \(x\) 的概率。

性质: - 无记忆性:对于任意 \(s, t \geq 0\),都有 \(P(X > s + t | X > s) = P(X > t)\) - 期望\(E[X] = \frac{1}{\lambda}\) - 方差\(Var(X) = \frac{1}{\lambda^2}\)

间章

从图形上看: - PMF:一系列离散“柱子”(概率点) - PDF:平滑曲线(面积代表概率) - CDF:阶梯状或平滑的非减函数(从 0 增至 1)

如何理解: - CDF 对所有随机变量都存在(离散、连续、混合型); - PMF 和 PDF 是特殊情形下的 CDF 微分形式; - 离散型中:\(P(a \leq X \leq b) = F(b) - F(a^-)\); - 连续型中:\(P(a \leq X \leq b) = \int_a^b f(x) dx = F(b) - F(a)\)

条件概率分布

离散型随机变量的条件概率分布
连续性随机变量的条件概率分布

随机变量的数字特征

参数估计

假设检验

回归分析