Some Commonly Used Continuous Distributions

Introduction

在介绍离散随机变量的概率分布的时候,对于每个分布都介绍了其分布的由来,即有一个原始的样本空间,然后从一步步引入了那几种常见的离散概率分布。但是在连续概率分布中,要找一个原始的样本空间有点困难,所以经常会假设存在一个原始的样本空间,而不去真正讨论这个原始的样本空间是什么样的。
本质上,现实生活中,基本看不到连续随机变量,但是为了理论研究,或者用连续随机变量来近似离散随机变量,所以也会对连续随机变量展开研究。
对连续随机变量的研究,某一个函数只需要满足pdf的那两点条件,就认为这个函数可以是某一个随机变量的 cdf.

Uniform Distribution

notion imagenotion image
均匀分布一定是在某一段有限的区间内的!即该随机变量吐出来的值一定是落在某个区间的
均匀分布的重要性主要体现在 均匀分布的随机变量X通过转化可以得到任意的分布,常用在随机数生成的研究中。
notion imagenotion image

Exponential Distribution

Defination & pdf & cdf

notion imagenotion image
, 当 时,,即为 和纵坐标的交点,代表了 附近值 的概率大小
越小,更可能出现较大的值

mean and variance

notion imagenotion image
证明这里用到了分部积分
直观理解:
  • 变大的时候,随机变量的值会更加聚集在0这边,所以均值会变小,同时,会更加聚集,更加瘦,即有更小的方差。

Some properties : 指数分布、几何分布、伽马分布的的联系

notion imagenotion image
exponential distribution 常用来形容等待时间 (注:寿命也是一种等待时间,等待死亡这件事情发生)!即相邻的两个事件之间等待了多长时间。
notion imagenotion image
这里的 看作是单位时间内事件发生的次数,因此对期望为 可以有直观的解释。
 
回想离散概率分布:伯努利分布与二项分布、几何分布与负二项分布、泊松分布。
二项分布是刻画 做 n 次试验 中有多少次所关注事件成功发生了,即 n 次试验中事件发生的次数。
几何分布是 n次试验中,任意两次事件发生之间相邻的试验次数,或者说 事件发生需要多少次试验。
负二项分布,事件成功发生 r 次需要多少次试验。
二项分布、几何分布、负二项分布 都是在 一串独立重复的伯努利试验上做研究,是离散化的。
现在回到连续态,指数分布 是刻画 两件事件发生之间的等待时间,这点和几何分布是一样的,且参数 代表的含义也是一样的。
且对 负二项分布,也有对应的连续版本:伽马分布
离散概率分布
连续概率分布
含义
几何分布
指数分布
相邻两事件发生的等待时间(或者说,时间发生一次需要的时间)
负二项分布
伽马分布
发生 r 次,需要的时间(or试验次数)
因为 二项分布、几何分布、负二项分布 都是在 一串独立重复的伯努利试验上做研究,因此,这三者之间本身也存在一定的联系;类似的,可以推广到连续版本中。

Some properties : 指数分布的无记忆性

notion imagenotion image
因为对应几何分布,因此几何分布也有无记忆性。
怎么理解无记忆性呢?你在路边等公交车,已经等了 s 时长,这时候,来了一个人刚开始等,那么你俩等待的时长 是相同的。为什么会这样呢?因为本质上是一个个小的伯努利试验,等待事件的发生完全是一个随机事件,和历史的没有发生事件的伯努利试验无关的。

Gamma Distribution

先介绍gamma function,然后再介绍gamma分布及其性质。

Gamma Function

用积分来定义的函数。
notion imagenotion image
注:gamma function 的证明需要使用分部积分。

Definition & pdf & cdf

notion imagenotion image
  • 注:gamma分布的 pdf 由两部分组成:
    • 就是 gamma 函数;
    • 是为了使 gamma 函数 满足 pdf 性质凑出来的 系数。
  • gamma 分布的参数 可以不是整数
notion imagenotion image
  • 对于cdf,由于求解复杂,这里没有一个很好的表示方式,因此用 不完整 gamma 函数来表示;所谓不完整gamma 函数,即有限积分域的 gamma 函数。
  • 如果 为整数,cdf 可以表示为 求和级数 的形式,见上图标注
  • 具体的,有 ,其中, 服从 。从含义理解:
    • 此处 poisson 分布 的参数 为 , 可以理解为限定了时间为 ,然后单位时间内的发生次数为
    • 表示 事件发生 次等待时间小于 的概率
    • 表示 时间内 事件发生次数 大于 的概率。
    • 综上, 次事件 等待时间小于 不就是 时间内事件发生大于
  • 类似的,可以推广到 离散版本:负二项分布 和 二项分布 的关系:,其中,X为负二项分布,Y为二项分布。
  • 期望,\lambda 为 单位时间发生的次数,gamma 分布的 期望表示 发生 \alpha 次等待时间,自然就是
  • 方差,可以理解为 为指数分布,为gamma分布中 的特殊情况
notion imagenotion image

Some properties

notion imagenotion image
  • 离散版本和连续版本下 所关注不同随机变量 的分布:
    • 几何分布 和 指数分布 均有 无记忆性,因为是发生一次!
    • 二项分布 和 负二项分布的联系: ,即 次伯努利试验中事件发生的次数大于 的概率 等于 事件发生 次所需试验次数 小于 的的概率
 
notion imagenotion image
  • gamma分布中的两个参数
    • 又称为 shape parameter, 因为 决定了 pdf 的shape。
      • 时,为指数分布,
      • 时,与 有完全不同的曲线,因为 时,不再具有无记忆性了
    • 称为 siaze parameter, 因为 只能在 尺度上影响 pdf:
      • 单位时间内发生的次数, 表示了单位时间的尺度(day, hours, min,…)
      • 所以 ,即对随机变量X做线下变换,只影响了参数
  • Gamma 分布还是卡方分布的特例!

Summary for

notion imagenotion image

Beta Distribution

与 Gamma 相似,Beta分布也是由 Beta 函数的来的,一次先介绍 Beta 函数

Beta Function

notion imagenotion image
  • Beta 函数 与 Gamma 的联系
  • 当 \alpha \beta 为 整数时,Beta函数的形式与 组合C 的形式很相似

Beta distribution

notion imagenotion image
  • beta 分布和 gamma 分布 类似,均是由一个函数的来的,然后使得该函数满足pdf性质,因此添加了一个系数。
  • Beta分布的系数 有点类似 二项分布的 前面的
  • Beta 分布的形式也和二项分布 相似,为遍历 [0,1] 之间的所有数字,将其求积分。
  • Beta分布中,常数 \alpha,\beta 可以看作 一串独立伯努利试验中 事件发生和不发生的次数,随机变量X的可理解为 一次伯努利试验中事件发生的概率。
  • 因此,Beta是描述某一个概率的概率分布,所以其随机变量X的取值范围 为[0,1]
  • 与二项分布的联系:
    • 假设独立重复了n次伯努利试验
    • 二项分布:随机的是事件发生的次数,n次试验中事件发生了
    • Beta分布:随机的是 每次试验事件发生的概率 p, 已知 n次实验中 成功了\alpha 次, 失败了\beta 次,那么每次试验事件发生的概率是各随机变量,Beta分布就是描述在这个概率的随机变量的。
hust 所由学生都完同一个游戏,每个人过关的概率 p 不一样,这个p是个随机变量,且p服从Beta分布;从hust中抽取一个学生,此时 p 就固定住了,然后 让这个学生完 n次 游戏,过关的次数X是个随机变量,且服从二项分布。
notion imagenotion image
因为和二项分布的联系,因此 Beta 和二项分布 同样也有这么一层关系,见上ppt。因此Beta 有两种表达方式:
  • 不完全 beta 函数;
  • 与二项分布相似的表达方式。

Mean and Variance

notion imagenotion image
期望的理解:\alpha 为成功次数,\beta为失败次数,那么期望自然就是成功次数 除 总试验次数

Some properties

notion imagenotion image
notion imagenotion image
  • 谨记 为成功次数、 为失败次数。然后beta分布是根据成功次数与失败次数来描述 每次试验成功的概率 是如何分布的。
  • 均为 的时候,为均匀分布。因为此时 各个过关的概率是相同的,即试验没有说服力。当相同且大于1的时候,说明 每次试验过关的概率 的概率很大。
  • 时候, 说明 过关的概率 的概率很大,因此pdf 凸峰会在 小于0.5的这一侧。
  • 毫无疑问,凸峰的位置就是 期望!

Summary for

notion imagenotion image

Normal (Gaussian) Distribution

notion imagenotion image
notion imagenotion image
正态分布的pdf 和 证明。注意,这里证明采用了对X的线性变化。(其实就是标准化)
notion imagenotion image
notion imagenotion image
  • 正态分布的形状以及 两个参数对 pdf shape 的影响。因为对称性,所以有
  • pdf在 处取得极大值,且极大值为 ,也可以根据这点来判断参数对 shape 的影响。
  • cdf 没有闭式解,一般通过 标准化 + 查表的方式来计算 cdf

Mean and Variance

notion imagenotion image

Properties

notion imagenotion image
  • 正态分布使用广泛,可以用来对现实很多场景建模。
  • 对正态分布做线性变换,还是正态分布。
  • 标准化是一种特殊的线性变换!可以将任意的正态分布转化为标准正态分布
  • 注意理解 shape 在 均值和期望的影响。
notion imagenotion image
notion imagenotion image
  • 正态分布cdf 没有闭式解,一般通过标准化然后差表格来求解。
  • 利用好 pdf 的对称性。有

Normal approximation to the Binomial

notion imagenotion image
notion imagenotion image
  • 回忆,使用超几何分布来近似二项分布的时候,需要 球的数量足够多,只有这样无放回才可以近似为有放回。用泊松分布来近似二项分布的时候,需要满足 p 足够小,且 n 足够大。
  • 现在,使用二项分布来近似正态分布。
  • CLT(中心极限定理)
  • 对二项分布 X_n 做 上述变换(标准化)可以用来近似标准正态分布。
  • 只有当 离散分布的 每个 bar 的宽为 1 的时候,pdf 和 pmf 的形状才会重合。当进一步对 随机变量进行压缩的时候:
    • pmf 中每一个bar 的宽变小了,但是高度不会改变,(因为pmf的高度代表了概率,对随机变量做线性变换,对应X概率不会变);
    • pdf 的dx 没有变化,但是 高度翻倍了。
    • 因此,只有离散随机变量对应 bar 的宽度为1的时候,pdf 和 pmf 才会近似重合。
    • 因此,如果要 说明离散随机变量和连续随机变量相似,只能通过 cdf 相似来说明。
  • 用二项分布来近似正态分布:
    • 当 p = 0.5 的时候,不需要很大的n 就可以近似;
    • 当 p 趋近 0 或者 1 的时候,就需要足够大的 n 才可以近似,因为此时 二项分布有很大的方差,可以理解为需要足够多的样本。

Continuity Correction (for integer-valued discrete r.v.’s)

notion imagenotion image
notion imagenotion image
使用 正态分布来近似二项分布,因此需要连续性矫正(类似离散化的操作)。
比如计算 P(X=18),如果步离散化,直接按照 正态分布的cdf 来计算 P(X=18) = 0;显然不合适,因此,有

Summary for

notion imagenotion image

Weibull Distribution

notion imagenotion image
notion imagenotion image

Mean and variance

notion imagenotion image

Some properties

notion imagenotion image
  • 该分布也经常用来对寿命建模,相较于指数分布,该分布没有无记忆性,因此更为常用。
  • 注意理解指数分布 和 gamma 分布 中参数 \lambda 的含义。

Cauchy Distribution

notion imagenotion image
notion imagenotion image
 
  • 对柯西分布的直观理解:激光笔挂在距离远点上方1的点,然后摆动,且与 轴夹角 呈均匀分布。激光笔打在x轴上的位置呈可惜分布。(见上ppt)这也是为什么累计分布会出现arctan的原因。
  • 没有期望和方差!
  • 是一个重尾分布,即两头的概率还是相对比较大的。因此常用来对有极端事件的情况建模,比如各种和天鹅事件。
  • 柯西分布做线性变换还是柯西分布

Summary

  • 在连续随机变量中,很多时候不去考虑原始的样本空间 ,而是直接研究其 pdf
  • 注意 f(x) 的曲线走势 和 期望方差的直观联系
  • 指数分布、伽马分布、几何分布、二项分布的联系
  • 伽马分布 和 卡方分布的联系。
notion imagenotion image