Jointly Distributed Random Variables
Jointly Distributed Random VariablesDefinitionJoint Cumulative Distribution FunctionJoint Probability Mass FunctionJoint Probability Density FunctionMultinomial DistributionExampleIndependent Random VariablesExampleTransformationMethod of Events (pmf)Method of cumulative distribution functionMethod of probability density functionMethod of moment generating function.Order Statistics (顺序统计量)cdf, pdf of 是joint pmf/pdf of pdf/cdf of pdf of the range pdf of the spacing Conditional DistributionDiscrete random vectorContinuous random vectorsMixed Joint DistributionTheorem (Multiplication Law & Law of Total Probability & Bayes Theorem).Theorem (Conditional Distribution & Independent)Summary
Jointly Distributed Random Variables
回想随机变量的出现:在随机事件中,我们有时候可能不关心事件本身,而想去数位化这些事件,因此,做了一个映射,把所有事件 映射到实数域 ,这个映射就是随机变量
但是很多时候,一个随机试验中,我们有很多关心的随机变量,比如:从一个班级中抽出一个学生,我们同时关心这名学生 的身高 和 体重 的关系。因此有了联合分布随机变量

注:这些所关注的随机变量必须是源自同一个样本空间,即是同一个 得到的 不同角度的观测值,比如同一个学生的身高、体重、血压(源自同一个试验结果:抽出来的一个学生) 或者 一组学生的平均身高、平均体重(源自同一个试验结果:抽出来的一组学生)

在连续随机变量的时候,虽然讨论的时候不怎么关注 原始 概率空间,但是还是有的!

- 联合概率的分布定义,更容易理解联合随机变量和原始概率空间的联系。
- 讨论多个随机变量的关系的时候,背后必然是由同一个 \omega,比如 讨论 Y ≥ X Y 与X 必然都是由同一个 \omega 转化得到的
- 比如之前讨论 二项分布 与 负二项分布 的关系 P{X<n} = P{Y>r} ,背后是由同一个原始概率空间的,即都是一串独立伯努利试验。
- 所有的 随机变量 都需要定义在相同的原始概率空间。因为只有这样从可以 把联合概率密度函数的 面积 A 拉会到原始概率空间来研究 P_{X_1,X_2}(A) = P(E_A)
- 对联合概率的研究可以拉到原始概率空间来研究
Definition



- 有联合概率分布 可以计算边缘概率分布,但有边缘概率分布不一定能计算联合概率分布。
- 因此,边缘概率分布比 联合概率分布 所带有的信息少
Joint Cumulative Distribution Function



- iv :右连续。因为离散点的概率值是计算到右上方的(二维情况下)。在n维的联合随机变量下,没有很好的定义的 x 的大小关系,因此,F_x的右连续是指 右上连续
- v : 非递减。
- vi : 联合概率分布的计算定义。二维情况下,本质上是二维空间的前缀和。
- vii : 边缘概率的计算。n维里面任意选取k维,剩下的维度 x_o 趋向0即可。
- 满足 7 点性质的就都可以是联合累计概率分布函数
Joint Probability Mass Function


- n 维 pmf 和其中任意 k维 pmf 的关系:把所有不在该 k 维内的 维度 做累加求和。
- 某一个点的概率计算:因为右极限的定义发生了改变,因此计算相比一维随机变量 复杂了。需要不断的对每一个维度取极限,每次减少一个参与计算的维度。
Joint Probability Density Function


- pdf 描述的是 密度, 不是质量。虽然和 pmf 相似,但是意义不同。。
- pdf:
- 利用 pdf 来计算概率,是计算原始概率空间某个几个内的概率,是个多重积分(如果是二维随机变量,那就是而微积分,是计算以面积A为底的体积。)
- n维 → k 维度: 对不关注的维度求积分,表示在不关注的维度上任意值都可以,即累加不关注的维度上的概率


- 只有边缘分布是没法唯一确定联合概率分布的,相同的边缘分布 可以计算出多个不同的联合分布。
- 只有边缘分分布独立的时候,从能唯一确定联合分布。
Multinomial Distribution
对应二项分布,多项分布中,每个base experments 不只有两种结果,因此二项分布是多项分布的特例。

- 先回忆 partition, 因为 combition 是partition 的特例,而二项分布是多项分布的特例,二项式定理是多项式定理的特例。
- 谨记 partition 这个经典例子,先将所有字母排列开来,为 11! ,然后把每个字母下 先后顺序除掉。

- 一个多项分布的例子:多次掷骰子,每次试验结果都有6种可能的结果,那么 n 次试验后,每种结果的次数是如何分布的呢?
- 此处,列出了原始样本空间 \Omega,及古典概率视角下的概率。


- 先定义基础试验概率空间,基础试验共有 m 种可能的结果,定义每种可能结果的概率 p_i, i=1,2,…,m
- 重复 n 次基础试验,有了新的概率空间。X_i 为某种结果出现的次数。
- pdf 函数证明使用多项式公式。

- 二项分布是多项分布的特例,在二项分布中,每次基础试验只有两种可能的结果,但是多项分布有m种可能的结果。然后在二项分布中,虽然有两种可能的结果,但是使用 一维随机变量来描述,因为 ,同理,在多项分布中,也可以只使用 维来描述,剩下一维的值 即等于

- 多项分布 m维 → k+1维度: 将基础试验中部分的结果(类别)当作一种来处理,便可以降维。特殊的,每个X_i 都可以看作是二项分布。
- 注意方差和期望
Example


- 联合概率分布的求解 本质上就是求多重积分。


- 计算边缘分布 的直观理解:把X取某个值时的所有可能Y值的密度(概率)累加起来,就是X在该位置的边缘密度(概率)
Independent Random Variables

- 独立随机变量的引入:联合随机变量背后有相同的概率空间。然后考虑这些随机变量是否独立。一般的,在有了联合概率分布之后,可以求解得到边缘分布,但是反之不成立。然而,如果联合随机变量是离散的,那么可以通过边缘概率分布求解得到联合概率分布。

- 独立含义:任意变量的取值不会影响别的变量取值
- 独立联合随机变量的概率密度函数是 上的 cross product set。




- 两两独立 和 相互独立 是不一样的概念
- 原始的概率空间 \Omega,然后通过n个随机变量 X转移到了 n维空间,然后每一维上又又各自一个函数转换,最后到了 一个新的n维空间Y。如果X 相互独立,那么Y也相互独立。
- 证明的思路:边缘分布 相乘 等于 联合分布
- 对上述定理一般化,可以通过 函数 将n维转移到 k维度,但是需要注意,每个函数的输入不能又重复的随机变量,即
- 理清楚 独立的含义,是指n维 随机变量中,任意以维 随机变量都没有附带别的随机变量的信息,因此做任意的转化都还是独立的。


这个定理告诉我们,要证明 联合随机变量相互独立,不需要找到他们 每一个随机变量的边缘pdf(or pmf ),再去判断相乘是否等于联合pdf(or pmf)。只需要判断 边缘pdf (or pmf)是否和联合 pdf (or pmf)呈正比即可。即不需要具体的计算边缘pmf 和 pdf
Example


判断联合随机变量是否独立,关键是判断 pdf or pmf 大于0的区域 是否为 cross-product dot .即是否为一个个矩形区域。三角形区域 or 圆形都必然不是独立的,因为一个随机变量 的pfm 曲线和 另外一个 pmf 曲线产生了联系。
随机变量 独立
- 对于离散随机变量,边缘分布 与 固定一个 值时 在各个点上的重量(概率)有着相同的比例。
- 对于连续随机变量, 与 有着相同的 shape,只是比例不同。 分别为固定 时 的概率分布。
Transformation
回忆之前的Transformation, 大多时候是单变量的。本节探讨的 Transformation 是输入是n维的联合随机变量。
Transformation 的本质是在做重量的搬移。因此本节探讨的是做了转化之后,新的k维联合随机变量的重量是如何分布的。

对n维联合随机变量 做Transformation 后,得到 k 维的联合随机变量。因此这里的 转化函数 有 k 个,然后每个转化函数的输入均是 n 维的随机变量。
做了转化后,得到了一个新的 k 维的联合随机变量。

有上述三种方式来分析转化后的联合概率分布。
Method of Events (pmf)



- 本小节讲了 离散随机变量 转化后的 联合分布。
- 定理:多个独立的泊松分布相加还是泊松分布。从直接理解来看:泊松分布的含义为发生的次数,参数\lambda 为总发生的次数。那么多个独立泊松分布相加,最后参数
- 配合上如更好理解,一个泊松过程,每一段都是一个 泊松分布,加起来一长段自然还是泊松分布。
Method of cumulative distribution function
注:cdf 是对于离散和连续均通用的。其实就是找到转化前概率空间对应的区域,然后积分。




- 从直观角度理解,多个独立的 gamma 分布 相加 还是gamma 分布。多个指数分布相加,转化为Gamma分布。多个独立高斯分布相加还是高斯分布。



- 这里计算更推荐采用定义来计算,即找到对应的积分区域,然后积分求得 累计分布,再求导得到 概率密度函数。
Method of probability density function
注:是 method of cdf 的特例,证明见定理



- 本方法有如下限制:
- 本方法限制了 Y 的维度和 X的维度相同。但是如果实际不相同的话,可以构造除缺失的维度,然后再积分积掉。
- 还限制了转化函数 g(\cdot) 存在,且一对一,即存在反函数。
- 怎么理解方法中的雅可比矩阵呢?我们知道,做Transformation 本质上是在搬重量,然后本方法限制了维度相同,因此也就相当于限制了搬移后的体积是相同的,然后因为搬移前后底面积不相同,各个位置对应的密度也不相同,因此有了雅可比矩阵来纠正。

- 利用该方法计算 联合随机变量概率密度,当转化前后维度不一致时,新增加了一个维度Y_2,然后利用公式计算完成后,再把新增的维度积分。

- 注意 Y_1的含义:X_1是等待的时间,那么 Y1 就是X_1等待时间占总的等待时间的比例
- 因此,如果\alpha_1, \alpha_2 都为1的话,那么Y_1就是均匀分布了。


- 该例展示了如何将圆内的均匀分布转化为两个独立的随机变量(通过极坐标来转化)


Method of moment generating function.

Order Statistics (顺序统计量)
将原先的随机变量值根据大小再排列,得到新的一组随机变量。是不可逆的!
本小节研究是排序之后的随机变量的概率分布和其他性质。


- 把原先的联合随机变量 按照大小排列,排列本身就是一种Transformation,但是这种排列是不可逆的。比如说期末考试成绩,按大小排列之后,就不知道成绩对应的学生了。
- 我们关注的 的是排列之后的这 n + 2 个随机变量

- 在讨论顺序统计量的联合分布和边缘分布的时候,我们只关注原先的联合随机变量 是 独立同分布的情况.
- 原先的随机变量 若是独立同分布,那么顺序统计随机变量必然不是 独立的!因为:
- 转化后的联合随机变量 是递增的,任意两个随机变量之间有信息了
- , 不是cross -product
cdf, pdf of 是
- s是 求解 pdf and cdf 时:
- method of pdf 不再适用,因为此处的Transformation 不可逆
- method of event 也不适用
- 因此,采用method of cdf, 即找对应转化前的的对应区域来积分。


- 图解:
- 的含义即为 联合随机变量 , 的最小值为 。然后这个最小值可以为这 个随机变量中任意一个,然后剩下的随机变量均大于等于 。
- 因此有
- 同理, 的含义为 联合随机变量 的最大值为 。
- 因此有
- 直观理解:
- 的含义为: 最小值小于等于 x ,那么转化前的联合随机变量 也必然是全部大于等于 x 的。因此有
- 同理,可证明

同时点亮 n 个灯泡,所有灯泡坏掉之后,房间便处于黑暗。问房间处于明亮状态的时间的分布。其实就是问 最长寿命的分布, 即求出的分布。
joint pmf/pdf of


- 求转换后的联合随机变量的pdf / pmf。直观理解:
- 知道了 X_{(1)}, X_{(2)},…,X_{(n)} 的数值,其实就相当于知道了转化前联合随机变量 $X_1,X_2,….X_N$ 的数值,只是具体顺序无法确定,而且有n! 种可能的顺序会对应到 X_{(1)}, X_{(2)},…,X_{(n)} 的值,有因为 $X_1,X_2,….X_N$ 是独立同分布的,所有可以不用管具体顺序。
- 因此有
pdf/cdf of

- 算这个边缘分布的时候,当然可以根据之前计算的顺序统计量联合分布积分求解得到,但是计算较为复杂。
- 直观理解:第 k 个随机变量的值等于 x , 说明有 k-1 个随机变量小于 x, n-k 个随机变量的值大于x,然后 排序后的第 k 个可以是转化前的任意一个随机变量,因此需要乘
pdf of the range

之前计算过 的 概率密度,如下:
用到了 X,Y 的联合概率密度,因此本小节先求 ,然后再利用公式求解。
pdf of the spacing

本小节的思路同上一小节,算是一个推广,但是计算思路是一致的。
在计算 的时候,可以理解为有 个 比 小, 个 比 大, 然后 个 处于 和 之间。然后再乘上 partition.
Conditional Distribution
Discrete random vector


- 研究的是在X给定的情况下,Y 的联合概率分布情况。X 是固定的,Y 是随机向量。
- X 和 Y 总共是 m + n 维的随机变量,均是来自同一个原始的概率空间!
- 理解清楚这里为什么是 的形式,在固定住X之后,为了使得Y上的重量总和为1,因此除X的总重量,相当于做了一个归一化,但是不改变 Y 上的各个变量值的分布比例。


- 上述定理表达的是在 已知了总共发生次数的情况下,每个时间段各自发生的次数 符合多项分布。
- X_1+X_2+…+X_n 均符合泊松分布,泊松分布是统计一段时间内发生次数的随机变量,因此在X_1, X_2,…X_n 独立的情况下,X_1+X_2+…+X_n 还是泊松分布,可以看作是将时间轴拼在一起的泊松分布。
- 那么在 Y= X_1+X_2+…+X_n 已知的情况下,发生次数该如何分布呢?即在每个时间段的发生次数应该怎么分布呢?直觉的,每段时间发生的次数最大为 m, 最小为 0
- 把每段时间想象为一个桶,泊松分布的参数 \lambda_i 为桶的大小,总共有m 个桶,然后往桶里丢 n 个球。因此每次基础试验,有m种可能的结果(可能丢到m个桶里面),每种结果的概率为 p_i,p_i 于 \lambda_i 成正比。
- 建立了上述的理解之后,可以开始求解了。
Continuous random vectors



Mixed Joint Distribution

Theorem (Multiplication Law & Law of Total Probability & Bayes Theorem).


一个 例子,用到了上述三个定理


Theorem (Conditional Distribution & Independent)


Summary
- 原始概率空间是隐藏的。
- 概率分布 其实理解为 重量的分布,pdf 中的函数值是密度,不是重量,需要积分才是重量。
- 独立的本质是多个随机变量各自不包含其余随机变量的信息
- Transformation 的本质是在做重量的搬移
