PROJ 2A Spam & Ham I
Recording
Slides
Type
Proj
在分类任务上,找特征时,可以找不同类别下最大的不同的特征。当特征是二进制的时候,可以判断该特征在不同类别下各自的占比,当特征是数值型时,可以判断该特征在不同类别下的分布
pandas .melt将宽格式转为长格式,可以直接用来在sns上绘图

学会计算多个分类指标,如召回率,精确率等。
tp = np.sum((Y_train == y_train_pred) & (Y_train == 1)) tn = np.sum((Y_train == y_train_pred) & (Y_train == 0)) fp = np.sum((Y_train != y_train_pred) & (Y_train == 0)) fn = np.sum((Y_train != y_train_pred) & (Y_train == 1)) precision = tp / (tp + fp) recall = tp / (tp + fn) far = fp / (fp + tn)
深刻理解 tp tn fp fn 的含义,其中第一个字母表示是否预测正确,第二个字母表示模型预测结果。
在垃圾邮件分类中,显然精准率更加的重要,但是在癌症检测中,召回率更加重要。