ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理
【摘要】 ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理
目录
对爬取的某平台二手房数据进行数据分析以及特征工程处理
1、定义数据集
2、特征工程(数据分析+数据处理)
对爬取的某平台二手房数据进行数据分析以及特征工程处理
Crawl:利用bs4和requests爬取了国内顶...
ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理
目录
对爬取的某平台二手房数据进行数据分析以及特征工程处理
Crawl:利用bs4和requests爬取了国内顶级某房源平台(2020年7月2日上海二手房)将近30*100多条数据并进行房价分析以及预测
ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理实现代码
1、定义数据集
-
<class 'pandas.core.frame.DataFrame'>
-
total_price unit_price roomtype height direction decorate area \
-
0 290万 46186元/平米 2室1厅 高楼层/共6层 南 平层/简装 62.79平米
-
1 599万 76924元/平米 2室1厅 低楼层/共6层 南 平层/精装 77.87平米
-
2 420万 51458元/平米 2室1厅 低楼层/共6层 南 北 平层/精装 81.62平米
-
3 269.9万 34831元/平米 2室2厅 低楼层/共6层 南 平层/精装 77.49平米
-
4 383万 79051元/平米 1室1厅 中楼层/共6层 南 平层/精装 48.45平米
-
-
age garden district id Unnamed: 11 total_price_Num \
-
0 1993.0 国和一村 杨浦 107102693322 NaN 290.0
-
1 2005.0 虹康花苑(三期) 长宁 107102590033 NaN 599.0
-
2 1995.0 纪念小区 虹口 107102469522 NaN 420.0
-
3 2009.0 新凯二期 松江 107102187832 NaN 269.9
-
4 1996.0 白浪新村 闵行 107102568627 NaN 383.0
-
-
unit_price_Num area_Num
-
0 46186 62.79
-
1 76924 77.87
-
2 51458 81.62
-
3 34831 77.49
-
4 79051 48.45
-
total_price unit_price roomtype height direction decorate area \
-
2995 230万 43144元/平米 1室1厅 低楼层/共11层 南 平层/简装 53.31平米
-
2996 372万 75016元/平米 1室1厅 低楼层/共11层 南 平层/精装 49.59平米
-
2997 366万 49973元/平米 2室1厅 中楼层/共6层 南 平层/简装 73.24平米
-
2998 365万 69103元/平米 2室1厅 低楼层/共17层 北 平层/精装 52.82平米
-
2999 420万 49412元/平米 2室2厅 低楼层/共14层 南 北 平层/精装 85平米
-
-
age garden district id Unnamed: 11 total_price_Num \
-
2995 2010.0 南新东园 浦东 107102716551 NaN 230.0
-
2996 2006.0 九歌上郡 闵行 107102716557 NaN 372.0
-
2997 1995.0 高境一村 宝山 107102716802 NaN 366.0
-
2998 1990.0 遵义西大楼 长宁 107102716833 NaN 365.0
-
2999 2011.0 象屿名城 松江 107102717793 NaN 420.0
-
-
unit_price_Num area_Num
-
2995 43144 53.31
-
2996 75016 49.59
-
2997 49973 73.24
-
2998 69103 52.82
-
2999 49412 85.00
-
<class 'pandas.core.frame.DataFrame'>
-
Int64Index: 3000 entries, 0 to 2999
-
Data columns (total 15 columns):
-
total_price 3000 non-null object
-
unit_price 3000 non-null object
-
roomtype 3000 non-null object
-
height 3000 non-null object
-
direction 3000 non-null object
-
decorate 3000 non-null object
-
area 3000 non-null object
-
age 2888 non-null float64
-
garden 3000 non-null object
-
district 3000 non-null object
-
id 3000 non-null int64
-
Unnamed: 11 0 non-null float64
-
total_price_Num 3000 non-null float64
-
unit_price_Num 3000 non-null int64
-
area_Num 3000 non-null float64
-
dtypes: float64(4), int64(2), object(9)
-
memory usage: 375.0+ KB
-
None
-
age id Unnamed: 11 total_price_Num \
-
count 2888.000000 3.000000e+03 0.0 3000.000000
-
mean 2001.453601 1.070999e+11 NaN 631.953450
-
std 9.112425 1.535036e+07 NaN 631.308855
-
min 1911.000000 1.070000e+11 NaN 90.000000
-
25% 1996.000000 1.071020e+11 NaN 300.000000
-
50% 2003.000000 1.071026e+11 NaN 437.000000
-
75% 2008.000000 1.071027e+11 NaN 738.000000
-
max 2018.000000 1.071027e+11 NaN 9800.000000
-
-
unit_price_Num area_Num
-
count 3000.000000 3000.000000
-
mean 58939.028333 102.180667
-
std 25867.208297 62.211662
-
min 11443.000000 17.050000
-
25% 40267.500000 67.285000
-
50% 54946.000000 89.230000
-
75% 73681.250000 119.035000
-
max 250813.000000 801.140000
-
数据集维度: (3000, 15)
-
数据集所有字段: Index(['total_price', 'unit_price', 'roomtype', 'height', 'direction',
-
'decorate', 'area', 'age', 'garden', 'district', 'id', 'Unnamed: 11',
-
'total_price_Num', 'unit_price_Num', 'area_Num'],
-
dtype='object')
-
统计字段名及其对应长度: roomtype 22
-
['2室1厅' '2室2厅' '1室1厅' '3室2厅' '1室0厅' '3室1厅' '2室0厅' '1室2厅' '4室3厅' '5室2厅'
-
'4室2厅' '5室3厅' '3室0厅' '5室1厅' '5室4厅' '6室4厅' '6室2厅' '6室3厅' '7室2厅' '9室6厅'
-
'3室3厅' '4室1厅']
-
roomtype字段下所有类别 对应数量
-
2室2厅 751
-
3室2厅 706
-
2室1厅 622
-
1室1厅 323
-
4室2厅 192
-
3室1厅 174
-
1室0厅 47
-
1室2厅 37
-
2室0厅 37
-
5室2厅 35
-
4室3厅 25
-
5室3厅 17
-
6室2厅 9
-
6室3厅 5
-
5室1厅 5
-
3室3厅 4
-
3室0厅 3
-
5室4厅 3
-
4室1厅 2
-
6室4厅 1
-
7室2厅 1
-
9室6厅 1
-
Name: roomtype, dtype: int64
-
统计字段名及其对应长度: height 138
-
['高楼层/共6层' '低楼层/共6层' '中楼层/共6层' '高楼层/共18层' '低楼层/共9层' '中楼层/共5层' '高楼层/共11层'
-
'高楼层/共4层' '高楼层/共32层' '中楼层/共7层' '高楼层/共30层' '中楼层/共12层' '中楼层/共24层' '低楼层/共4层'
-
'低楼层/共5层' '中楼层/共13层' '中楼层/共11层' '低楼层/共7层' '高楼层/共8层' '中楼层/共18层' '中楼层/共14层'
-
'低楼层/共17层' '中楼层/共30层' '低楼层/共18层' '高楼层/共13层' '中楼层/共31层' '中楼层/共29层'
-
'独栋/共2层' '高楼层/共29层' '低楼层/共30层' '低楼层/共15层' '高楼层/共28层' '联排/共3层' '中楼层/共8层'
-
'中楼层/共56层' '低楼层/共16层' '低楼层/共56层' '低楼层/共32层' '高楼层/共7层' '高楼层/共5层' '中楼层/共9层'
-
'高楼层/共33层' '高楼层/共22层' '低楼层/共26层' '中楼层/共35层' '低楼层/共23层' '低楼层/共35层'
-
'中楼层/共19层' '中楼层/共17层' '高楼层/共31层' '低楼层/共38层' '低楼层/共28层' '低楼层/共22层'
-
'低楼层/共24层' '中楼层/共16层' '高楼层/共25层' '低楼层/共14层' '双拼/共2层' '中楼层/共4层' '高楼层/共17层'
-
'低楼层/共34层' '中楼层/共28层' '高楼层/共24层' '中楼层/共20层' '低楼层/共12层' '高楼层/共16层'
-
'中楼层/共25层' '联排/共1层' '中楼层/共15层' '高楼层/共34层' '低楼层/共49层' '中楼层/共10层'
-
'低楼层/共11层' '高楼层/共14层' '中楼层/共21层' '中楼层/共32层' '共3层' '中楼层/共38层' '共1层'
-
'低楼层/共19层' '中楼层/共22层' '中楼层/共33层' '低楼层/共13层' '低楼层/共20层' '高楼层/共12层'
-
'中楼层/共37层' '高楼层/共15层' '低楼层/共25层' '低楼层/共31层' '高楼层/共26层' '高楼层/共9层' '双拼/共3层'
-
'低楼层/共33层' '高楼层/共20层' '高楼层/共40层' '低楼层/共21层' '低楼层/共10层' '上叠别墅/共4层'
-
'低楼层/共2层' '低楼层/共8层' '低楼层/共61层' '中楼层/共59层' '高楼层/共36层' '中楼层/共27层'
-
'下叠别墅/共6层' '高楼层/共10层' '高楼层/共27层' '高楼层/共21层' '低楼层/共3层' '高楼层/共37层'
-
'高楼层/共49层' '低楼层/共27层' '高楼层/共19层' '中楼层/共34层' '低楼层/共1层' '高楼层/共35层'
-
'低楼层/共43层' '低楼层/共51层' '中楼层/共39层' '低楼层/共29层' '中楼层/共36层' '高楼层/共43层'
-
'联排/共2层' '中楼层/共23层' '独栋/共3层' '高楼层/共23层' '高楼层/共39层' '共2层' '高楼层/共38层'
-
'高楼层/共45层' '中楼层/共63层' '中楼层/共26层' '下叠别墅/共5层' '下叠别墅/共3层' '下叠别墅/共4层'
-
'低楼层/共37层' '低楼层/共41层' '高楼层/共58层']
-
height字段下所有类别 对应数量
-
高楼层/共6层 557
-
中楼层/共6层 335
-
低楼层/共6层 260
-
中楼层/共5层 90
-
低楼层/共18层 84
-
高楼层/共18层 75
-
中楼层/共11层 65
-
中楼层/共18层 65
-
中楼层/共14层 57
-
低楼层/共14层 56
-
低楼层/共11层 51
-
高楼层/共5层 50
-
高楼层/共11层 47
-
高楼层/共7层 43
-
中楼层/共7层 43
-
中楼层/共17层 36
-
中楼层/共8层 35
-
低楼层/共24层 33
-
中楼层/共24层 32
-
低楼层/共7层 31
-
低楼层/共12层 30
-
高楼层/共14层 27
-
低楼层/共16层 26
-
高楼层/共16层 25
-
低楼层/共15层 24
-
中楼层/共12层 24
-
低楼层/共17层 24
-
高楼层/共12层 24
-
低楼层/共5层 21
-
低楼层/共13层 19
-
...
-
低楼层/共38层 3
-
高楼层/共23层 3
-
共1层 2
-
高楼层/共40层 2
-
高楼层/共36层 2
-
高楼层/共49层 2
-
独栋/共3层 2
-
低楼层/共49层 2
-
上叠别墅/共4层 2
-
共2层 2
-
高楼层/共10层 2
-
中楼层/共56层 2
-
低楼层/共37层 2
-
低楼层/共2层 1
-
高楼层/共45层 1
-
下叠别墅/共6层 1
-
下叠别墅/共3层 1
-
双拼/共2层 1
-
低楼层/共41层 1
-
低楼层/共51层 1
-
下叠别墅/共5层 1
-
高楼层/共39层 1
-
联排/共2层 1
-
高楼层/共43层 1
-
中楼层/共63层 1
-
高楼层/共58层 1
-
中楼层/共59层 1
-
中楼层/共36层 1
-
低楼层/共61层 1
-
低楼层/共56层 1
-
Name: height, Length: 138, dtype: int64
-
统计字段名及其对应长度: direction 34
-
['南' '南 北' '东南' '东 南' '北 西北' '东北' '西' '西南' '东南 南' '南 西南' '东' '南 西 北' '西 东'
-
'东 东南' '北' '南 西' '东 西' '北 南' '西南 西北' '暂无数据' '东 北' '东南 西北' '西北' '东南 西'
-
'东北 南 北' '东 南 北' '西 东北' '南 东南' '南 北 东 东南' '南 东' '南 北 西' '西 北 南' '西 北'
-
'东南 南 西北 北']
-
direction字段下所有类别 对应数量
-
南 2131
-
南 北 653
-
东南 50
-
西南 46
-
西 19
-
东 13
-
北 12
-
南 西 8
-
东南 南 7
-
北 南 7
-
南 西南 6
-
东北 5
-
东 南 5
-
暂无数据 5
-
南 西 北 4
-
西 东 3
-
东 东南 3
-
西北 3
-
东 西 3
-
东 北 2
-
北 西北 2
-
西 北 南 1
-
南 北 西 1
-
东南 南 西北 北 1
-
南 东南 1
-
西 东北 1
-
南 东 1
-
东南 西北 1
-
东南 西 1
-
西南 西北 1
-
西 北 1
-
南 北 东 东南 1
-
东北 南 北 1
-
东 南 北 1
-
Name: direction, dtype: int64
-
统计字段名及其对应长度: decorate 18
-
['平层/简装' '平层/精装' '简装' '平层/毛坯' '精装' '复式/精装' '平层/其他' '跃层/精装' '错层/精装' '复式/简装'
-
'复式/其他' '错层/其他' '错层/简装' '复式/毛坯' '跃层/简装' '毛坯' '错层/毛坯' '跃层/毛坯']
-
decorate字段下所有类别 对应数量
-
平层/精装 1428
-
平层/简装 997
-
平层/毛坯 247
-
复式/精装 166
-
平层/其他 57
-
复式/简装 39
-
复式/毛坯 17
-
错层/精装 16
-
精装 9
-
复式/其他 5
-
跃层/精装 5
-
简装 5
-
跃层/简装 2
-
错层/简装 2
-
跃层/毛坯 2
-
错层/其他 1
-
错层/毛坯 1
-
毛坯 1
-
Name: decorate, dtype: int64
-
统计字段名及其对应长度: garden 1859
-
['国和一村' '虹康花苑(三期)' '纪念小区' ... '南新东园' '遵义西大楼' '象屿名城']
-
garden字段下所有类别 对应数量
-
新南家园 15
-
世茂滨江花园 13
-
田林十二村 10
-
文怡花园 9
-
万馨佳园 9
-
绿地金卫新家园(西区) 9
-
金地湾流域(二期569弄) 8
-
中房公寓 8
-
鸿宝一村(南区) 8
-
新凯二期 8
-
中远两湾城 7
-
印象春城 7
-
新德佳苑 7
-
长丰坊 7
-
中环一号(一期) 6
-
惠康苑西苑 6
-
明园森林都市 6
-
明珠小区(川沙) 6
-
惠益新苑 6
-
富友嘉园 6
-
美兰湖中华园 6
-
中凯城市之光(静安) 6
-
金都雅苑(公寓) 6
-
达安锦园 6
-
徐汇苑 6
-
上海康城 6
-
丰庄十二街坊 6
-
中环一号(三期) 6
-
慧芝湖花园 6
-
御景龙庭 5
-
..
-
紫堤苑 1
-
金昌大厦 1
-
梓树园 1
-
西南名苑 1
-
佳宝一村 1
-
芳雅苑 1
-
德邑小城(公寓) 1
-
富丽苑 1
-
中友嘉园 1
-
证大家园(一期) 1
-
潍坊七村 1
-
钦州路111弄 1
-
东南华庭 1
-
铁岭路50弄 1
-
惠祥公寓 1
-
科苑新村 1
-
上海阳城 1
-
同济融创玫瑰公馆 1
-
湖畔佳苑(公寓) 1
-
寿祥坊 1
-
平阳三村 1
-
石泉小区 1
-
新福康里(公寓) 1
-
公馆77 1
-
合生城邦三街坊 1
-
双晖小区 1
-
明日星城(一期) 1
-
浅水湾恺悦名城 1
-
隽苑 1
-
紫竹小区 1
-
Name: garden, Length: 1859, dtype: int64
-
统计字段名及其对应长度: district 15
-
['杨浦' '长宁' '虹口' '松江' '闵行' '宝山' '静安' '徐汇' '浦东' '黄浦' '普陀' '嘉定' '奉贤' '金山'
-
'青浦']
-
district字段下所有类别 对应数量
-
浦东 794
-
闵行 400
-
徐汇 268
-
静安 228
-
宝山 208
-
普陀 169
-
嘉定 155
-
松江 146
-
杨浦 141
-
长宁 135
-
奉贤 95
-
黄浦 89
-
青浦 63
-
金山 55
-
虹口 54
-
Name: district, dtype: int64
-
dataset.corr():
-
age id Unnamed: 11 total_price_Num \
-
age 1.000000 0.000330 NaN 0.199691
-
id 0.000330 1.000000 NaN -0.143520
-
Unnamed: 11 NaN NaN NaN NaN
-
total_price_Num 0.199691 -0.143520 NaN 1.000000
-
unit_price_Num -0.143897 -0.071997 NaN 0.638882
-
area_Num 0.345437 -0.171639 NaN 0.787404
-
-
unit_price_Num area_Num
-
age -0.143897 0.345437
-
id -0.071997 -0.171639
-
Unnamed: 11 NaN NaN
-
total_price_Num 0.638882 0.787404
-
unit_price_Num 1.000000 0.184717
-
area_Num 0.184717 1.000000
-
散点图可视化:可寻找异常点
-
检查目标变量满足整体分布
-
-
mu = 631.95 and sigma = 631.20
-
-
绘制Q-Q分位数图:看是否与理论的一致
-
Skew in numerical features:
-
-
skewness.head():
-
Skew
-
area_Num 3.448604
-
unit_price_Num 1.121800
-
总共有 2 数值型的特征做变换
-
采用LabelEncoder,对部分类别的特征进行编号,转为数值型
-
temp1:
-
roomtype object
-
height object
-
direction object
-
decorate object
-
garden object
-
district object
-
total_price_Num float64
-
area_Num float64
-
dtype: object
-
temp2:
-
Index(['roomtype', 'height', 'direction', 'decorate', 'garden', 'district'], dtype='object')
-
[5, 10, 8, 6, 11, 2, 13, 3, 7, 14, 4, 0, 1, 9, 12]
-
roomtype height direction decorate garden district total_price_Num \
-
0 4 134 16 6 507 5 290.0
-
1 4 83 16 7 1501 10 599.0
-
2 4 83 19 7 1333 8 420.0
-
3 5 83 16 7 829 6 269.9
-
4 1 40 16 7 1268 11 383.0
-
5 8 105 16 6 1505 10 1250.0
-
6 8 86 19 7 21 11 737.0
-
7 0 38 16 9 1230 8 162.0
-
8 5 98 19 7 1589 2 328.0
-
9 0 40 16 6 708 13 163.0
-
-
area_Num
-
0 62.79
-
1 77.87
-
2 81.62
-
3 77.49
-
4 48.45
-
5 135.03
-
6 112.00
-
7 35.76
-
8 77.63
-
9 30.25
-
roomtype height direction decorate garden district \
-
2995 1 45 16 6 388 7
-
2996 1 45 16 7 236 11
-
2997 4 40 16 6 1819 2
-
2998 4 51 13 7 1586 10
-
2999 5 48 19 7 1547 6
-
-
total_price_Num area_Num
-
2995 230.0 53.31
-
2996 372.0 49.59
-
2997 366.0 73.24
-
2998 365.0 52.82
-
2999 420.0 85.00
2、特征工程(数据分析+数据处理)
文章来源: yunyaniu.blog.csdn.net,作者:一个处女座的程序猿,版权归原作者所有,如需转载,请联系作者。
原文链接:yunyaniu.blog.csdn.net/article/details/107316607
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)