PROJ 1A Housing I
Recording
Slides
Type
Proj
先查看数据的分布,然后考虑剔除异常值。移除异常值的时候,逐个变量的移除。
用正则表达式提取 字符串中的数字信息,此处是因为数字出现在
,
和of
之间pattern = r", (\d+) of" with_rooms['Bedrooms'] = with_rooms['Description'].str.findall(pattern).str[0].fillna(0).astype(int) #.str: use string function to series return with_rooms
一般是用散点图来查看两变量之间的关系,但是当出现大量的重叠信息时,可以考虑使用一系列boxplot 来观察两变量之间的关系。(以下两张图描述的是同样的数据,显然,第二张图片更加的清晰)


画图第一要义:图片上的数据不要重叠
material = {1: 'Shingle/Asphalt', 2: 'Tar&Gravel', 3: 'Slate', 4: 'Shake', 5: 'Tile', 6: 'Other'} data['Roof Material'] = data['Roof Material'].replace(material)
replace 可以直接用 字典
# 用官方的来进行onehot,这是示范 from sklearn.preprocessing import OneHotEncoder enc = OneHotEncoder(feature_name_combiner=lambda input_feature, category: "x0_" + category) enc.fit(data[['Roof Material']]) new_cols = pd.DataFrame(enc.transform(data[['Roof Material']]).toarray(), # 编码完是np.ndarray columns=enc.get_feature_names_out(), index=data.index) # 和原数据拼接在一起 return pd.concat((data, new_cols), axis=1)