Lecture 11 – Ordinary Least Squares
介绍了普通最小二乘法,然后用几何解释解了标准解。然后用决定系数coefficient of determination来衡量不同自变量下的模型的性能,最后探讨了解的唯一性。
何为线性模型:多个参数的线性组合即为线性,和自变量没有关系
最小二乘法
通过向量化之后,最小二乘有如下形式:

理清楚每行表示的是一个样本,每列表示的是一个特征。
然后有损失函数
解\thets的微分推导超纲了,因此本节课采用几何来得到答案:


首先理清楚列空间的概念
然后讲明:计算 Y - X\theta 的二范数其实就是在X的列向量所张成的平面上,找到一个向量 X\theta,使得该向量距离Y最短,那其实很好理解,X\theta 其实应该就是Y向量在X列向量所张成的平面上的投影,因此 Y - X\theta 必然垂直于X列向量,因此有了如下推导

决定系数
又称为拟合值与真实值之间的方差比例,R²值是一个在0和1之间的值,用于衡量回归模型的拟合优度。它越接近1,表示模型的拟合效果越好,能够更好地解释因变量的变异;反之,如果多重R²值较低,则说明模型的解释能力较弱,无法很好地拟合数据。
关于解的唯一性
如果X是列满秩矩阵,那么最小二乘法的解有且只有一个。

当然,如果特征多,样本少,可能就不存在唯一解,但是通常情况下,样本是足够多的。当列的相关性过强时,不存在解,因为没有伪逆矩阵