Some Commonly Used Discrete Distributions

伯努利分布和二项分布(Bernoulli and binomial)

伯努利分布是一种离散分布,有两种可能的结果。1表示成功,出现的概率为 p (其中0<p<1)。0 表示失败,出现的概率为 q=1-p。
二项分布;独立重复 次伯努利试验,随机变量 次试验中成功的次数。

Probability Mass Function

notion imagenotion image
notion imagenotion image
  • n=1 的时候,二项分布又称为伯努利分布。n次独立伯努利试验成功的次数又构成了二项分布。
  • 二项定理 二项分布的关系见上述ppt。
  • 二项分布的证明利用了二项定理。

Expection and Variance

notion imagenotion image
notion imagenotion image
  • 注:方差有点像信息论中的熵(公式像、结果也像),在p=0.5的时候,方差最大(见上图)。
  • 这里的证明采用如下证明更容易理解,利用了公式

Summary

notion imagenotion image

几何分布和负二项分布(Geometric and Negative Binomial Distributions)

由来

notion imagenotion image
  • 一个基础试验,样本空间为 , 概论课测度为
  • 重复无限次基础试验,新的样本空间为
  • 为了研究 重复试验的概率测度, 假设无限次(可数的)重复实验为独立的。
关注的点如下:
notion imagenotion image
  • 在基础试验中有一个基础事件 , 重复试验直到 发生了 次;
  • Q:需要 次试验的概率为多少?
注: 中的样本点为 无穷序列,
  • 如果用 来表示 事件有无发生,那么 为01序列,维度为 (正整数)
notion imagenotion image
注:
  • 取决于第 次试验
  • 表示第 次试验的结果,是指示函数,即只有 两种结果。
  • 服从二项分布(n, p), 含义为前 次试验中 发生的次数
  • 说明定义了很多的随机变量(每做一次试验都会有一个随机变量) 且一定不独立!
  • 看上去复杂,但含义较为简单。 中最小的 ;例如, 那么观察, 中那个是最先大于等于 的, 就等于那个下标,意义就是发生第 个成功时,在那个index发生的,或者说执行了多少次伯努利试验才看到第2次成功
  • 都是定义在 上的
  • 执行了 多少次才看到第 次成功。或者说第r次成功发生在第k次伯努利试验

Probability Mass Function

notion imagenotion image
注: 表示第r次成功发生在第k次伯努利试验 的概率。或者说,有次成功最少需要的试验次数。
  • 证明思路, 第 k 次(最后一次)必定是要成功的,然后 乘 在前面的 k-1 次实验中有 r-1 次试验成功 的概率。后半部分是
notion imagenotion image
notion imagenotion image
注:
  • 有两个参数 , 为要看到的第 次成功, 为每次伯努利试验成功的概率
  • 当 r=1时, 称为几何分布,第一次成功时发生在第几次试验。几何分布有无记忆性质,
notion imagenotion image
注:
  • 负二项分布的叫法是由于负二项定理
  • 几何分布是由于其中 pmf 是几何级数

Expection and Variance

notion imagenotion image
注:
  • 均值直观理解:一次成功需要的次数大约为 1/ p, 那么r次成功需要的伯努利试验为 r * 1/p
  • 方差直观理解:p=1时,Y_r=r ,没有随机性了,此时方差为0。p越小,随机性越大,方差越大。

Summary

notion imagenotion image
  • 负二项分布 和 二项分布都是基于 多次独立重复伯努利试验的。
  • 二项分布关注的是 重复n次试验中有多少次成功
  • 负二项分布关注的是 要有r次成功 需要多少次伯努利试验

泊松分布 (Poisson Distribution)

最开始出现的目的是为了逼近 二项分布,因为泊松分布 用手算更容易一点

由来

回顾知识点:
notion imagenotion image
第一个式子证明:左右两边取对数
第二个式子就是泰勒展开
推导泊松分布的由来:
notion imagenotion image
notion imagenotion image
注:
  • , 即排列。, 即排列
  • , 是要近似的那个二项分布的期望。含义为n次试验,平均来讲,会发生
  • 用到了几个极限的近似,即只有以下三者条件满足时候,才足够准确:
    • 足够大;
    • 远小于 ;
    • 约等于 ;
一个例子
notion imagenotion image
notion imagenotion image

Probability Mass Function

notion imagenotion image
b泊松分布没有原始的 ,因为是从二项分布推导过来的。那要怎么证明f(x)是一个pmf呢?只需要证明满足pfm的三个条件即可。
notion imagenotion image
长相,直观了解
notion imagenotion image

Expection and Variance

notion imagenotion image
从近似二项分布的角度来直观理解:
  • 对于期望: 本来就是对应近似二项分布的期望,所以泊松分布的期望自然也是 s'd
  • 对于方差,二项分布的方差为 , 因为 接近 ,所以第二项可以省略,因此方差为

Poisson Process (stochastic process)

关注的是在一个时间段某事件发生的次数
notion imagenotion image

推导

二项分布关注的是在n次试验中,某事件发生的次数。泊松过程是在一个时间段内,是一个连续的时间段,而二项分布是离散的一次次试验。
notion imagenotion image
注:
  • 思路是把连续的时间段离散化,然后在每个离散的小时间段内, 服从伯努利试验,然后在任意前半段时间段内, 服从二项分布。
  • o(1/n) 含义为 比 1/n 往0跑的速度块,是为了证明每一个小的时间段内发生两次的概率相当小,这样就可以看作伯努利分布
notion imagenotion image
依旧是用泊松分布来近似二项分布,因为(时间长度)足够大,(每个小区间的概率)足够小

定义

notion imagenotion image
notion imagenotion image
注:
  • N_t, t=0,1,2,… 是一系列随机变量,且不独立。
  • N_t - N_s 服从泊松分布,表示在这段时间内发生的次数
  • N_t 也服从泊松分布,即当 s=0的情况

图示

notion imagenotion image
随机过程把一堆随机变量收集起来,这些随机变量有一个时间 的 index,即有时间的先后关系。比如上图中,黄线和黑线分别就是两个随机过程
  • 表示0到t时刻,事件发生的次数,这些随机变量之间本身不独立
  • 但是任意两个不重叠的区间内()发生的次数是独立的。

Example

notion imagenotion image
注:
  • 是一个月发生的次数,那么两个月的自然要乘 2, 一年自然要乘 12

超几何分布

由来

notion imagenotion image
不放回抽样, 抽出来 个球中红球个数 的分布。常用来模拟民意调查以及某生态区生物数量记数。
如果是有放回抽样,那么就是 二项分布,因此在 n<<N 的情况下,可以用来近似二项分布,因为此时又放回抽样和无放回抽样的概率近似。

Probability Mass Function

notion imagenotion image
notion imagenotion image
注:
  • 因为超几何等式,所以称为超几何分布,证明见上图标注;
  • 从 a+b 中任取 r 个球,等于 从 a 中 取 k 个,从b中取 r-k个, k=0,1,2,…,r

Expection and Variance

notion imagenotion image
注:
  • 期望理解:N中有R个红球,一把抽出来n个球,那么红球的个数的期望,自然就是红色球的比例 * 抽取球数: ,本质上还是和 二项分布一样,是 n*p。
  • 方差理解:, 前三部分即为 二项分布的方差 。最后一部分为 , 必定是小于1的。
  • 超几何分布的方差一定是小于对应二项分布的方差的。因为无放回
notion imagenotion image

Relationship between hypergeometric distribution and binomial distribution

notion imagenotion image
notion imagenotion image
当球总数很大时,有放回和无放回可近似。
在民意调查时,原则上是不允许重复抽样的,但是当人非常多的时候,可以近似为二项分布,即有允许有人重复被抽样。
超几何分布逼近二项分布的条件:
  • N, R 很大, 抽出来的 n 远小于N
泊松分布逼近二项分布的条件
  • 重复伯努利试验次数 n 很大
  • 每次伯努利试验成功的概率 p 很小
  • n次独立伯努利试验中=,总共成功的次数 k 很小
伯努利试验是离散概率的核心!和二项分布、负二项分布、几何分布、泊松分布均有联系。

Summary

notion imagenotion image

Summary

notion imagenotion image
  • 为了数位化概率论描述的世界,引入了随机变量。
  • 可以对概率分布做 transfromation Y = g(X)
  • 刻画概率分布P_x, 有三个工具:pmf, cdf, mgf
  • 刻画随机变量,有期望和方差。
    • 期望刻画了随机变量的中心点
    • 方差刻画了胖和瘦
    • mse = vart + {bias}^2
  • 常见的离散概率分布
    • 伯努利分布 and 二项分布
    • 几何分布 and 负二项分布
    • 泊松分布
    • 超几何分布
    •