贝叶斯神经网络引入

date
Nov 29, 2021
slug
BayesianNN _introduction
status
Published
tags
Neural Network
summary
从贝叶斯线性回归到贝叶斯神经网络
type
Post
本文脉络如下图:
notion imagenotion image
将先简单介绍贝叶斯定理,然后以线性回归模型为例子,分别讲述极大似然估计、最大后验估计、贝叶斯估计这三种参数估计方法。通过这三种参数估计方法深刻理解频率派和贝叶斯派的区别所在,最后把贝叶斯派的观点应用到普通神经网络中,即形成了贝叶斯神经网络

贝叶斯理论

托马斯·贝叶斯为了解决“逆概率”问题,提出了贝叶斯定理:
何为正向概率何为逆向概率?
  • 正向概率即为给定特定的环境,然后求环境中某一事件发生的概率。
  • 逆向概率则是反过来从已发生的事件去反推环境的参数。
例如,抽奖同桶里面有十个球,其中2个白球8个黑球,然后你随便摸一个球,问摸出是白球的概率,此为正向概率;但如果现在不知道桶里黑白球的比例,然后我有放回的摸N个球,通过观察这N个球然后估计桶里白球黑球的比例,此为逆向该率。
机器学习的问题通常便是一个逆向概率问题:模型的参数是未知的,我们只有N个样本(N个样本即相当于我又放回的摸了N次球),然后通过这N个样本来估计模型的参数。
贝叶斯公式由下图几部分组成:
notion imagenotion image
  • 先验分布:反映的是在观测到数据之前我们对待估参数 的了解和认识
  • 似然: 在确定了参数的情况下,样本数据的概率分布。实际上这是对实际观察数据的一种描述
  • 后验分布:是我们通过贝叶斯定理得到的最终的分析结果,反映的是在给定观测数据的基础上,我们对于参数新的认知
综合来看,最开始没有观测到数据的时候,我们依据过往的经验赋予参数一个分布,称之为先验分布,然后当我们有了实际的观测数据之后,我们就对先验分布进行了更新,得到了新的分布,称之为后验分布。
所以贝叶斯理论提供了一个思考问题的固定模式:
先验分布 + 样本信息 → 后验分布
#频率派 贝叶斯派简介
频率派
贝叶斯派
参数估计
把所要推断的参数\theta看作是一个未知的固定系数,即\theta 虽然是未知的,但它确确实实是存在的一个固定值,它不会改变
参数是一个随机值,因为没有观察到,所以它和一个随机数也没什么区别,因此认为参数服从某一个分布
决策
结果是由“推断”出的参数直接决定
结果是由所有可能的参数所给出的预测结果的期望
总之,频率派把参数看作是一个固定常数,而贝叶斯派认为参数是一个分布。

线性回归

数据表示:
线性回归模型:
最小二乘估计
L2正则化的最小二乘估计:
假设我拟合出的曲线如下:
notion imagenotion image
可以看到,每个样本都有一点偏差,可以称之为样本的噪声。假设噪声 服从高斯分布,即 ,则有

极大似然估计

核心思想:参数应该取使得已经发生的事件的概率达到最大
因此就是可以在给定的数据集的情况下,使得该数据集发生的概率最大来求得模型中的参数。那么该数据集发生的概率 该怎么数学表示呢?如下表示
该形式又称之为似然函数,参数直接取最大化即可:
计算如下:
可以看到,最好得到w的优化目标函数同最小二乘得到的目标函数完全一样,因此在线性回归模型中,噪声服从高斯分布的极大似然估计,就是最小二乘估计。

最大后验估计

最大后验估计是直接从待求解的参数出发,用贝叶斯公式来求解:
观察公式,分母部分是边缘概率,是与w无关的一个边缘概率值,所以我们可以仅仅把它当作计算后验概率过程中的归一化系数。然后分子中的第二项P(X|w)因为w 和X是无关的,所以也可以忽略掉。最终得到如下形式:
即我们只关注最后的这个正比关系。然后w取最大后验概率的参数,即:
其中为似然函数,为先验概率,这里假设先验概率服从如下高斯分布:
则似然和先验数学表达分别如下:
求解过程如下:
再来观察这个的目标函数,可以发现第一项依旧和最小二乘的形式是完全一样的,而第二项是和L2正则项类似的,除了系数不一样。事实上,第二项就可以认为是L2正则化项,因为此处的系数完全是我之前自定义的,一个是噪声的高斯分布方差,一个是先验分布的协方差。
所以我们可以说:噪声、先验均服从高斯分布的最大后验分布 就是 带L2正则化的最小二乘估计。

贝叶斯估计(贝叶斯线性回归)

在贝叶斯估计中,我们假设参数w是未知的随机变量,而不是固定的值,这是与最大后验概率的区别所在。所以我们不用或者求解参数值,而是直接求的分布
依旧采用如下贝叶斯公式:
其中p(Y|X,w)和p(w)分别为似然函数和参数的先验,在这里,依旧假设先验w服从如下高斯分布:
则似然和先验表达如下:
先验和似然均服从高斯分布,所以后验也服从高斯分布,这里假设后验服从如下高斯分布:
所以现在的目的就是根据似然和先验的表达式求解后验分布的两个参数,这里采用配方法求解:
先化解标准高斯分布,如下:
(因为底数部分是一个固定的常数值,并不会影响具体的分布,所以在这里只写指数部分)
可见,参数的二次项系数,的一次项系数,分别如上公式块黄色青色所指。所以我们只需要找到似然函数和先验的乘积项目中的w的一次项和二次项即可。
化解似然函数和先验乘积,如下:
一次项、二次项,对应关系分别如下:
求解得到w后验分布的均值和协方差矩阵如下:
至此,后验w的参数已经求解得到了,即已经完成贝叶斯推断部分了。接下来是贝叶斯决策部分。所谓决策,即新给定一个样本输入,求解该样本的对应的结果
贝叶斯线性回归模型:
模型参数:
因为此处的w不再是一个固定的参数值,而是一个分布,所以 也是一个分布:
最终预测的结果,即为的期望

小结

到此,线性回归的三中参数估计方法均已经给出,可以发现,最大后验估计是在极大似然估计的基础上引入先验信息;贝叶斯估计与最大后验估计的区别在于最大后验估计只取使得先验和似然乘积最大的参数w,而贝叶斯估计求得完整的分布,最后再通过求期望来得到预测结果。
举个例子,假设我现在有个问题需要请教班级里面的同学,但是我手上只有成绩单。那我应该请教谁呢?
频率派的做法是去请教最优秀的学生。那么谁最优秀?怎么选择最优秀的呢?
极大似然估计的做法是直接看成绩单,去问成绩最优秀的那个学生,因为极大似然估计认为你既然能考出最好的成绩,那你必然就是最优秀的,选你没错了。
最大后验估计的做法是这样的,我潜意识里面认为性格文静的学生优秀,然后我带着这样的偏见先给在座的学生根据性格打分,越文静的分数越高。然后再去根据成绩单加分,最后选出综合分数最高的那个学生。
在这里,我所带的偏见即为先验信息,成绩单就是样本。我们先抛开加入先验的作用谈一下为什么需要加入先验信息?其实引入先验才是最符合我们认识世界观察世界的方式的。比如你现在新认识一个朋友,那你必然会根据这个朋友的外在给他一个最初的评价,这就是我们所说的第一印象。然后在日后慢慢的接触中,对这个朋友的认识、了解越来越多,就会对他有一个新的评价。这个新的评价即为后验。所以说,引入先验才是符合我们认知的。再来谈一下先验的作用,假设我对这个朋友第一印象的特别好,各方面都是满分。然后认识的第二天他做了一件有让普遍价值观所不能接受的事情,但是这个时候,你对他的评价肯定还是好的,心里还是会为他辩解的。但是如果他之后每天都做一件不能让你的价值观接受的事情,时间长了,你对他的评价肯定也会变差的,这个时候,不管你对他的第一印象怎么样,最后的评价都是很差很差,就是说第一印象对最后的评价的作用微乎其微。所以引入先验的作用如果用机器学习的话语讲就是:当样本少的时候(你们之间认识的时间短,观察的不够多),先验很大程度决定了后验,但是当样本足够多的时候(对他有了足够多的了解),先验对后验的样本就没那么重要了。
贝叶斯派的做法就不是找最优秀的学生了,贝叶斯派也会引入先验,这一点和最大后验的做法类似。贝叶斯派也会先根据同学的性格来打个分数,然后再结合手头的成绩单得到一个综合排名,只不过贝叶斯派不找最优秀的学生了,而是挨个问过班级的每一位学生,然后根据刚刚得到的综合排名给每位学生的答案赋予一个权重值,排名靠前的学生的答案肯定是权重越高。最后选择权中最高的答案。
贝叶斯派的最大优点就是引入了不确定度。比如刚刚的例子,极大似然和最大后验的做法均是只得问了一个学生的答案就把他当作了最后的结果,至于多大程度可信我根本无从得知,所以这样的方法用在无人驾驶、医疗诊断上很难被信服。而贝叶斯的做法最后拿到的结果是一个所有人的且带权重的答案,所以当我选择权重最高的答案时,我也就知道选择该答案的置信度,这就是贝叶斯派最大的优势。当然贝叶斯派的缺陷也很明显,计算过于复杂,计算量过大。
频率派 贝叶斯派总结频率派 贝叶斯派总结
频率派 贝叶斯派总结

贝叶斯神经网络

至此,已经领悟了频率派和贝叶斯派的思想不同之处了,如果把贝叶斯参数估计的方法放到神经网络中,就形成了贝叶斯神经网络。
notion imagenotion image