Some Commonly Used Continuous Distributions
IntroductionUniform DistributionExponential DistributionDefination & pdf & cdfmean and varianceSome properties : 指数分布、几何分布、伽马分布的的联系Some properties : 指数分布的无记忆性Gamma DistributionGamma FunctionDefinition & pdf & cdfSome propertiesSummary for Beta DistributionBeta FunctionBeta distributionMean and VarianceSome propertiesSummary for Normal (Gaussian) DistributionMean and VariancePropertiesNormal approximation to the BinomialContinuity Correction (for integer-valued discrete r.v.’s)Summary for Weibull DistributionMean and varianceSome propertiesCauchy DistributionSummary
Introduction
在介绍离散随机变量的概率分布的时候,对于每个分布都介绍了其分布的由来,即有一个原始的样本空间,然后从一步步引入了那几种常见的离散概率分布。但是在连续概率分布中,要找一个原始的样本空间有点困难,所以经常会假设存在一个原始的样本空间,而不去真正讨论这个原始的样本空间是什么样的。
本质上,现实生活中,基本看不到连续随机变量,但是为了理论研究,或者用连续随机变量来近似离散随机变量,所以也会对连续随机变量展开研究。
对连续随机变量的研究,某一个函数只需要满足pdf的那两点条件,就认为这个函数可以是某一个随机变量的 cdf.
Uniform Distribution

均匀分布一定是在某一段有限的区间内的!即该随机变量吐出来的值一定是落在某个区间的
均匀分布的重要性主要体现在 均匀分布的随机变量X通过转化可以得到任意的分布,常用在随机数生成的研究中。

Exponential Distribution
Defination & pdf & cdf

对 , 当 时,,即为 和纵坐标的交点,代表了 附近值 的概率大小
越小,更可能出现较大的值
mean and variance

证明这里用到了分部积分
直观理解:
- 变大的时候,随机变量的值会更加聚集在0这边,所以均值会变小,同时,会更加聚集,更加瘦,即有更小的方差。
Some properties : 指数分布、几何分布、伽马分布的的联系

exponential distribution 常用来形容等待时间 (注:寿命也是一种等待时间,等待死亡这件事情发生)!即相邻的两个事件之间等待了多长时间。

这里的 看作是单位时间内事件发生的次数,因此对期望为 可以有直观的解释。
回想离散概率分布:伯努利分布与二项分布、几何分布与负二项分布、泊松分布。
二项分布是刻画 做 n 次试验 中有多少次所关注事件成功发生了,即 n 次试验中事件发生的次数。
几何分布是 n次试验中,任意两次事件发生之间相邻的试验次数,或者说 事件发生需要多少次试验。
负二项分布,事件成功发生 r 次需要多少次试验。
二项分布、几何分布、负二项分布 都是在 一串独立重复的伯努利试验上做研究,是离散化的。
现在回到连续态,指数分布 是刻画 两件事件发生之间的等待时间,这点和几何分布是一样的,且参数 代表的含义也是一样的。
且对 负二项分布,也有对应的连续版本:伽马分布
离散概率分布 | 连续概率分布 | 含义 |
几何分布 | 指数分布 | 相邻两事件发生的等待时间(或者说,时间发生一次需要的时间) |
负二项分布 | 伽马分布 | 发生 r 次,需要的时间(or试验次数) |
因为 二项分布、几何分布、负二项分布 都是在 一串独立重复的伯努利试验上做研究,因此,这三者之间本身也存在一定的联系;类似的,可以推广到连续版本中。
Some properties : 指数分布的无记忆性

因为对应几何分布,因此几何分布也有无记忆性。
怎么理解无记忆性呢?你在路边等公交车,已经等了 s 时长,这时候,来了一个人刚开始等,那么你俩等待的时长 是相同的。为什么会这样呢?因为本质上是一个个小的伯努利试验,等待事件的发生完全是一个随机事件,和历史的没有发生事件的伯努利试验无关的。
Gamma Distribution
先介绍gamma function,然后再介绍gamma分布及其性质。
Gamma Function
用积分来定义的函数。

注:gamma function 的证明需要使用分部积分。
Definition & pdf & cdf

- 注:gamma分布的 pdf 由两部分组成:
- 就是 gamma 函数;
- 是为了使 gamma 函数 满足 pdf 性质凑出来的 系数。
- gamma 分布的参数 可以不是整数

- 对于cdf,由于求解复杂,这里没有一个很好的表示方式,因此用 不完整 gamma 函数来表示;所谓不完整gamma 函数,即有限积分域的 gamma 函数。
- 如果 为整数,cdf 可以表示为 求和级数 的形式,见上图标注
- 具体的,有 ,其中, 为 , 服从 。从含义理解:
- 此处 poisson 分布 的参数 为 , 可以理解为限定了时间为 ,然后单位时间内的发生次数为 次
- 表示 事件发生 次等待时间小于 的概率
- 表示 时间内 事件发生次数 大于 的概率。
- 综上, 次事件 等待时间小于 不就是 时间内事件发生大于 次
- 类似的,可以推广到 离散版本:负二项分布 和 二项分布 的关系:,其中,X为负二项分布,Y为二项分布。
- 期望,\lambda 为 单位时间发生的次数,gamma 分布的 期望表示 发生 \alpha 次等待时间,自然就是
- 方差,可以理解为 。 为指数分布,为gamma分布中 的特殊情况

Some properties

- 离散版本和连续版本下 所关注不同随机变量 的分布:
- 几何分布 和 指数分布 均有 无记忆性,因为是发生一次!
- 二项分布 和 负二项分布的联系: ,即 次伯努利试验中事件发生的次数大于 的概率 等于 事件发生 次所需试验次数 小于 的的概率

- gamma分布中的两个参数 和
- 又称为 shape parameter, 因为 决定了 pdf 的shape。
- 时,为指数分布,
- 时,与 有完全不同的曲线,因为 时,不再具有无记忆性了
- 称为 siaze parameter, 因为 只能在 尺度上影响 pdf:
- 单位时间内发生的次数, 表示了单位时间的尺度(day, hours, min,…)
- 所以 , ,即对随机变量X做线下变换,只影响了参数
- Gamma 分布还是卡方分布的特例!
Summary for

Beta Distribution
与 Gamma 相似,Beta分布也是由 Beta 函数的来的,一次先介绍 Beta 函数
Beta Function

- Beta 函数 与 Gamma 的联系
- 当 \alpha \beta 为 整数时,Beta函数的形式与 组合C 的形式很相似
Beta distribution

- beta 分布和 gamma 分布 类似,均是由一个函数的来的,然后使得该函数满足pdf性质,因此添加了一个系数。
- Beta分布的系数 有点类似 二项分布的 前面的
- Beta 分布的形式也和二项分布 相似,为遍历 [0,1] 之间的所有数字,将其求积分。
- Beta分布中,常数 \alpha,\beta 可以看作 一串独立伯努利试验中 事件发生和不发生的次数,随机变量X的可理解为 一次伯努利试验中事件发生的概率。
- 因此,Beta是描述某一个概率的概率分布,所以其随机变量X的取值范围 为[0,1]
- 与二项分布的联系:
- 假设独立重复了n次伯努利试验
- 二项分布:随机的是事件发生的次数,n次试验中事件发生了 次
- Beta分布:随机的是 每次试验事件发生的概率 p, 已知 n次实验中 成功了\alpha 次, 失败了\beta 次,那么每次试验事件发生的概率是各随机变量,Beta分布就是描述在这个概率的随机变量的。
hust 所由学生都完同一个游戏,每个人过关的概率 p 不一样,这个p是个随机变量,且p服从Beta分布;从hust中抽取一个学生,此时 p 就固定住了,然后 让这个学生完 n次 游戏,过关的次数X是个随机变量,且服从二项分布。

因为和二项分布的联系,因此 Beta 和二项分布 同样也有这么一层关系,见上ppt。因此Beta 有两种表达方式:
- 不完全 beta 函数;
- 与二项分布相似的表达方式。
Mean and Variance

期望的理解:\alpha 为成功次数,\beta为失败次数,那么期望自然就是成功次数 除 总试验次数
Some properties


- 谨记 为成功次数、 为失败次数。然后beta分布是根据成功次数与失败次数来描述 每次试验成功的概率 是如何分布的。
- 当 均为 的时候,为均匀分布。因为此时 各个过关的概率是相同的,即试验没有说服力。当相同且大于1的时候,说明 每次试验过关的概率 的概率很大。
- 当 时候, 说明 过关的概率 的概率很大,因此pdf 凸峰会在 小于0.5的这一侧。
- 毫无疑问,凸峰的位置就是 期望!
Summary for

Normal (Gaussian) Distribution


正态分布的pdf 和 证明。注意,这里证明采用了对X的线性变化。(其实就是标准化)


- 正态分布的形状以及 两个参数对 pdf shape 的影响。因为对称性,所以有
- pdf在 处取得极大值,且极大值为 ,也可以根据这点来判断参数对 shape 的影响。
- cdf 没有闭式解,一般通过 标准化 + 查表的方式来计算 cdf
Mean and Variance

Properties

- 正态分布使用广泛,可以用来对现实很多场景建模。
- 对正态分布做线性变换,还是正态分布。
- 标准化是一种特殊的线性变换!可以将任意的正态分布转化为标准正态分布
- 注意理解 shape 在 均值和期望的影响。


- 正态分布cdf 没有闭式解,一般通过标准化然后差表格来求解。
- 利用好 pdf 的对称性。有
Normal approximation to the Binomial


- 回忆,使用超几何分布来近似二项分布的时候,需要 球的数量足够多,只有这样无放回才可以近似为有放回。用泊松分布来近似二项分布的时候,需要满足 p 足够小,且 n 足够大。
- 现在,使用二项分布来近似正态分布。
- CLT(中心极限定理)
- 对二项分布 X_n 做 上述变换(标准化)可以用来近似标准正态分布。
- 只有当 离散分布的 每个 bar 的宽为 1 的时候,pdf 和 pmf 的形状才会重合。当进一步对 随机变量进行压缩的时候:
- pmf 中每一个bar 的宽变小了,但是高度不会改变,(因为pmf的高度代表了概率,对随机变量做线性变换,对应X概率不会变);
- pdf 的dx 没有变化,但是 高度翻倍了。
- 因此,只有离散随机变量对应 bar 的宽度为1的时候,pdf 和 pmf 才会近似重合。
- 因此,如果要 说明离散随机变量和连续随机变量相似,只能通过 cdf 相似来说明。
- 用二项分布来近似正态分布:
- 当 p = 0.5 的时候,不需要很大的n 就可以近似;
- 当 p 趋近 0 或者 1 的时候,就需要足够大的 n 才可以近似,因为此时 二项分布有很大的方差,可以理解为需要足够多的样本。
Continuity Correction (for integer-valued discrete r.v.’s)


使用 正态分布来近似二项分布,因此需要连续性矫正(类似离散化的操作)。
比如计算 P(X=18),如果步离散化,直接按照 正态分布的cdf 来计算 P(X=18) = 0;显然不合适,因此,有
Summary for

Weibull Distribution


Mean and variance

Some properties

- 该分布也经常用来对寿命建模,相较于指数分布,该分布没有无记忆性,因此更为常用。
- 注意理解指数分布 和 gamma 分布 中参数 \lambda 的含义。
Cauchy Distribution


- 对柯西分布的直观理解:激光笔挂在距离远点上方1的点,然后摆动,且与 轴夹角 呈均匀分布。激光笔打在x轴上的位置呈可惜分布。(见上ppt)这也是为什么累计分布会出现arctan的原因。
- 没有期望和方差!
- 是一个重尾分布,即两头的概率还是相对比较大的。因此常用来对有极端事件的情况建模,比如各种和天鹅事件。
- 柯西分布做线性变换还是柯西分布
Summary
- 在连续随机变量中,很多时候不去考虑原始的样本空间 ,而是直接研究其 pdf
- 注意 f(x) 的曲线走势 和 期望方差的直观联系
- 指数分布、伽马分布、几何分布、二项分布的联系
- 伽马分布 和 卡方分布的联系。
