LAB 7 Gradient Descent and sklearn

Recording
Slides
Type
LAB
一些特征工程的技巧:
  • Dummy encoding。 onehot编码的进化版。pd.get_dummies(data, drop_first=True, dtype=int) 来编码数据中的非数值特征。注意,通常需要设置drop_first=True, 不然生成的是列相关的。这一步是把每一个非数值特征生成的onehot的第一列去掉了,例如,在性别这个特征下,本来是要生成两列的,但是在这个参数的作用下,1将会删掉其中一列。就是说,在进行onehot编码时,引入了线性相关的列,因此哦通过删除第一列,使得其不相关,然后把这种编码方式称为Dummy encoding
  • 动手写了一个简单的非线性模型和对应的梯度下降。
  • 梯度下降需要用到 梯度,神经网络中的梯度是通过反向传播计算的。