Properties of Expectation
ExpectationTheoremTheorem. (relation of expection and sum)一些推论(显而易见的推论)Theorem. (relation of expection and multiply)Covariance and CorrelationIntuitive explanation of covariance and correlationTheorem. 一些性质Example (Conv of (X_i, X_j) in Multinormal)Cov & Cor for Sums of Random VariablesTheorem (variance of sum).Theorem ( of linear transformation).Theorem (some properties of ).Conditional ExpectationTheorem (Law of Total Expectation)Conditional Expectation and PredictionMoment Generating Function
Expectation
Theorem




Theorem. (relation of expection and sum)

这条定理说的是对随机变量的期望可以和相加 交换顺序。
一些推论(显而易见的推论)

- 推论1:其实是上一个定理的特例
- 推论2:
- 为了说明某些性质永远出现,常用 with probability one 或者 almost surely 来形容。
- 证明的时候用到了:期望和线性运算可以交换顺序(因为本质上期望是加权平均)
- 推论3:easy,so strightforeword
Theorem. (relation of expection and multiply)

期望 和 乘除之间的关系:只有在两个随机变量独立的情况下才有讨论的价值。
两个随机变量独立,那么先相乘再做期望和先求期望再相乘是一样的。

这个简单的推论说明:有独立的条件的时候,相乘可以和期望互换计算顺序。反之不成立,即满足这个关系式不一定独立。
满足这个关系式说明两个随机变量无关,这里顺便引入了无关的概念。注意区别无关和独立。
上图后半部分,E(X/Y)=E(X) * E(1/Y) ≠ E(X) / E(Y) 根本原因在于 g(x) = 1/ x 不是线性函数!
即一般 E[h(Y)]≠ h(E[Y]), 除非 h 为线性函数,才会等于
Covariance and Correlation
回顾:期望和反差用来形容一个随机变量的属性(位置、胖瘦等)。那用什么来描述联合随机变量呢?协变和相关系数!下面给出定义:

- Cov == 0 和 cor ==0 是 if and only if 的关系。
- Cov 可以看作是方差Var的推广,从一维到多维的推广
Intuitive explanation of covariance and correlation


对斜变和相关系数的直观理解:
- 随机变量X距离其均值的偏差 和 随机变量Y距离其均值的偏差 的product,即把两个偏移量相乘在一起后再求个平均(权重为几率值)
- 协变 衡量的是两个随机变量一起变化的状况,或者联系(X偏大的时候,Y会不会偏大)的程度。值越大,说明互动联系越大。 观察上图,两个随机变量X 和Y在二维平面上呈现分布,以各自的期望为坐标系中心,然后把各自的变量投影在各自的轴上,分为四块区域,其中,在一三象限,(x-E[X]) * (Y-E[Y]) 为正, 在二四象限为负。也就是说,如果XY的值均分布在一三象限,那么Conv就是正数,如果都分布在二四象限,Conv就是负数,如果在四个象限都有分布,那么会有抵消的情况,因而会比较小。 注:这里只描述的 相关性,而不代表因果论。比如X为鞋子尺寸,Y为阅读能力,两者是相关的,鞋子越大说明年龄大,然后学习时间较长,阅读能力也较强,但是没有一点因果关系。
- 协变有个缺点,他是有单位的,不同量纲下得到的值不一样。因此有了相关系数。
- Correlation Coefficient(相关系数是单位无关的)是消除量纲之后的
- 相关系数可以衡量两个变量之间的线性关系,随着相关系数的值增大,线性关系越来越强
Theorem. 一些性质

上式进一步说明了协变是方差的推广!

推论1:
- X与Y独立,则Cov(X, Y)=0。反之不一定成立。即不相关是更弱的条件。
- 相关系数为 0 不代表没有关系,只是没有线性关系
推论2:
- 从另外一个角度展现 相关系数
- 相当于是对两个随机变量先做 标准化,再求 其相乘的期望
- 右上图展示了该角度的计算过程:做标准化相当于首先把坐标系中心移动到期望,然后把轴拉伸或压缩,使得两个随机变量的方差一样,达到消除量纲的作用,是两个变量同时消除量纲的影响,然后在在这个没有单位的数据上计算相关性。
Example (Conv of (X_i, X_j) in Multinormal)


注:不失一般性(Without loss of generality,缩写:WLOG
可见,X_i 和 X_j之间是负相关,也很直观,因为 两者相加最大为n;具体的,当p增大的时候,相关性也增大。
Cov & Cor for Sums of Random Variables
考察的是两组随机变量,各自做了线性组合之后的 协变和相关


- 协变可看作是方差的推广,常数的方差是为0的,可以从这个角度理解为什么线性组合中的a_0 和 b_0 消失不见了。具体的,对某个变量加常数,只是对其整体平移了(上下左右),并不会改变其协变和相关系数
- 上述计算结果可以用矩阵表示出来,见上图标注。
Theorem (variance of sum).
前面讲的 Expection of Sum, 说明了期望永远可以和求和做互换。那么方差呢?
前面还讲过 协变是方差的推广,Cov(X, X) = Var(X)。这里也利用这个性质来计算,即把上条定理的中的Y换为X。

利用之前的定理可以直接得到答案,还是行向量乘矩阵再乘列向量。注意这里矩阵的对角线为Var(X_i),且为对称矩阵。这个矩阵称为协方差矩阵。
利用矩阵的这个角度,可以有如下推广:
- 推广1:如果X_i 与X_j 无关,协方差矩阵为对角矩阵。此时之和各自变量的方差有关,和任意两变量的协方差无关。
- 注意 a^2 是怎么计算出来的,因为矩阵前面有行向量后面有列向量
- 推广2:统计学中的应用,通常 n 代表 样本数量,然后样本均值的方差随着 n 的增大逐渐减小,然后趋向 \mu,为什么是\mu呢?因为E[样本均值] = \mu
下面用图示来解释为什么多个变量的方差相加不等于多个变量相加的方差,即Var(X_1+X_2) ≠Var(X_1) + Var(X_2), 当且仅当 X_1,X_2 独立或者线性无关的时候,等号才成立。

从投影的角度看:
- 绘图投影:X_1 + X_2 投影下来是红点,可以看见,红点上面深红色的线表示该点的概率。可见,两种情况下,方差不一样。尤其的,当 X_1= X_2 时候 X_1- X_2 投影过来就是一个点,此时方差为0;
- 转为向量点乘的投影。上图右边的标注。还不太懂向量投影。。。所以无法理解。。
继续之前的推论

这里讲的是从样本来推算其所属的概率分布的方差。注意 S^2也是个随机变量。
当n趋向无穷的时候,Var(S^2) = 0。

上述三个推论,都有一个条件:随机变量X_1, X_2,…,X_n 之间是 un correlated。如果把条件收紧到 独立,自然也成立,因为独立一定是 uncorrelated.
Theorem ( of linear transformation).
这一小节研究的是 两变量各自做了线性transformation之后 的相关系数。

只有正负号的影响,随机变量 做线性变换 无非是 平移(加常数a_0)和缩放 (乘常数a_1):
- 回忆:平移只会改变 随机变量的期望,缩放会改变期望和方差。
- 平移不会影响两个随机变量之间的相关系数,甚至平移不会影响协方差,因为协方差计算的时候会减去期望。
- 至于缩放,也只与符号相关,为什么呢?因为相关系数会把 缩放的强度 (具体的值)给除掉,即在做标准化的时候,会除掉标准差。如下式:
随机变量 平移+缩放,在做标准化 = 原先标准化的分布图形
Theorem (some properties of ).
这一小节研究的是相关系数的性质。


- 相关系数不受量纲的影响,不像协方差
- 绝对值越大,线性相关性越强
- 概率=1,不一定是 必然的,只是 almost surely。
下面介绍几种常见的用来描述随机变量分布的Transformation。也就是说,对这些函数值求期望,可以用来描述该随机变量的概率分布。


有点统计的思想。
Conditional Expectation
从条件概率分布来的,所以先回顾一下条件概率分布。
条件期望本质上就是期望应用在条件概率分布上的计算。


- 条件期望值和 y 的部分没关系,因为对 y 已经做了加权求和。所以得到的是关于 x 的函数。 或者从另外一个角度,期望是个数值,具体的常数值,这个常数 和 条件X=? 有关系,因此是关于x的函数。
- 图形理解的角度(见下页大草帽图),是固定 x 之后,随机变量Y的重心,那么在不同的x处,有不同的重心。即随着x的变换,随机变量Y的重心如何变换
- 如果X Y 独立,那么给定条件其实不会带来任何有价值信息,所以可以使用边缘概率密度计算。然后期望算的是重心,重心是一样的。因为和X的取值无关,所以关于X是一个常数。
- g(X) 依旧是个随机变量,因为X的值还不确定,X吐出来一个值之后,就可以算出 当前X下Y的期望(条件期望)下图绿线表示的就是X的不同取值下对应的Y的条件期望值。只是当前X的取值也不固定了,因此g(X)这个随机变量的取值是绿线上。

首先理解,边缘概率就是联合概率分布的一个投影!
其次理解上述不同 写法的含义:
- Y|X=x:随机变量,随机的来源是该年龄的不同学生,吐出来的是身高,是age = x 下不同学生的身高的随机变量
- g(x):常量,是age = x 的所有学生身高的期望。
- g(X):随机变量,随机的来源是 年龄!是不同年龄下,学生身高的期望值。
- Var 的情况和 期望的理解角度相同:
- Var_{Y|X}(Y|X=x):是个常量,是该年龄下所有学生身高的方差
- Var_{Y|X}(Y|X=x):是个随机变量,随机的来源是不同的年龄。即不同年龄下对应一批学生身高的方差。
Theorem (Law of Total Expectation)
如果要计算1000个学生的期望身高,可以把这1000个学生分为不同的年龄段来个各自计算期望,最后再加权平均。回忆上一页ppt,如果想要计算所有学生身高的期望,可以计算每个年龄下身高的期望,最后再求一次期望,即

从证明过程看,只是不同的积分顺序 得到了不同的思路:
- 先对X积分的话,先得到了Y的边缘分布,然后再对Y自然而然得到了其期望
- 先对Y积分的话,先得到了g(X)这个条件期望,然后再对X积分求期望
具体的,对联合概率密度f(X,Y)求某期望,直接 对 h(x)f(x, y) dx dy 积分,然后不同的积分顺序得到了不同的计算过程,其实最正常的思路是先求得边缘分布,再用边缘分布求期望,当然也具有不用求边缘分布求。
应用:想要调查全国打工人的期望薪资,可以让每个省各自计算其辖区打工人的期望薪资,最后再对各个省的期望薪资再来一次期望(加权平均), 最后计算的这步权重为 各个省人口。