Lecture 17 – Probability II: Estimators, Bias, and Variance

Recording
Slides
slides
Type
Lecture
这节课的内容蛮多的,最后还讲到了置信区间。
notion imagenotion image
从这个角度看方差,和偏差:
  • 方差是由于数据是随机的,有误差。一般是过拟合了
  • 偏差是由于所建立的模型本身和真实模型存在差异。一般是欠拟合
    notion imagenotion image
    notion imagenotion image
    在不同的数据集上训练得到的多个模型之间的方差。
    notion imagenotion image
    notion imagenotion image
    notion imagenotion image
     
    线性模型的系数代表了相关性,绝对值代表相关性的大小,符号代表的是正相关还是负相关。系数为0代表了对应的参数改变对y不影响。
    或者叫斜率,代表了在其他x不变的情况下,对饮x改变1,y改变的大小。
    notion imagenotion image
    notion imagenotion image
    在特征中有相关的特征时,一个x_i的系数就没法判断x_i与y的相关性了,因为可能被别的x_j干扰。
    y =\theta_1 x_1 + \theta_2 x_2 ,假设\theta_1<0,可以说x_1与y是负相关的呢?
    不能!! 因为此时x_1 和 x_2 可能是相关的,然后x_1的作用被x_2削弱了,所以系数变负数了。