ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理

举报
一个处女座的程序猿 发表于 2021/03/29 03:21:39 2021/03/29
【摘要】 ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理     目录 对爬取的某平台二手房数据进行数据分析以及特征工程处理 1、定义数据集 2、特征工程(数据分析+数据处理)       对爬取的某平台二手房数据进行数据分析以及特征工程处理 Crawl:利用bs4和requests爬取了国内顶...

ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理

 

 

目录

对爬取的某平台二手房数据进行数据分析以及特征工程处理

1、定义数据集

2、特征工程(数据分析+数据处理)


 

 

 

对爬取的某平台二手房数据进行数据分析以及特征工程处理

Crawl:利用bs4和requests爬取了国内顶级某房源平台(2020年7月2日上海二手房)将近30*100多条数据并进行房价分析以及预测
ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理实现代码

1、定义数据集


  
  1. <class 'pandas.core.frame.DataFrame'>
  2. total_price unit_price roomtype height direction decorate area \
  3. 0 290万 46186元/平米 2室1厅 高楼层/共6层 南 平层/简装 62.79平米
  4. 1 599万 76924元/平米 2室1厅 低楼层/共6层 南 平层/精装 77.87平米
  5. 2 420万 51458元/平米 2室1厅 低楼层/共6层 南 北 平层/精装 81.62平米
  6. 3 269.9万 34831元/平米 2室2厅 低楼层/共6层 南 平层/精装 77.49平米
  7. 4 383万 79051元/平米 1室1厅 中楼层/共6层 南 平层/精装 48.45平米
  8. age garden district id Unnamed: 11 total_price_Num \
  9. 0 1993.0 国和一村 杨浦 107102693322 NaN 290.0
  10. 1 2005.0 虹康花苑(三期) 长宁 107102590033 NaN 599.0
  11. 2 1995.0 纪念小区 虹口 107102469522 NaN 420.0
  12. 3 2009.0 新凯二期 松江 107102187832 NaN 269.9
  13. 4 1996.0 白浪新村 闵行 107102568627 NaN 383.0
  14. unit_price_Num area_Num
  15. 0 46186 62.79
  16. 1 76924 77.87
  17. 2 51458 81.62
  18. 3 34831 77.49
  19. 4 79051 48.45
  20. total_price unit_price roomtype height direction decorate area \
  21. 2995 23043144元/平米 11厅 低楼层/共11层 南 平层/简装 53.31平米
  22. 2996 37275016元/平米 11厅 低楼层/共11层 南 平层/精装 49.59平米
  23. 2997 36649973元/平米 21厅 中楼层/共6层 南 平层/简装 73.24平米
  24. 2998 36569103元/平米 21厅 低楼层/共17层 北 平层/精装 52.82平米
  25. 2999 42049412元/平米 22厅 低楼层/共14层 南 北 平层/精装 85平米
  26. age garden district id Unnamed: 11 total_price_Num \
  27. 2995 2010.0 南新东园 浦东 107102716551 NaN 230.0
  28. 2996 2006.0 九歌上郡 闵行 107102716557 NaN 372.0
  29. 2997 1995.0 高境一村 宝山 107102716802 NaN 366.0
  30. 2998 1990.0 遵义西大楼 长宁 107102716833 NaN 365.0
  31. 2999 2011.0 象屿名城 松江 107102717793 NaN 420.0
  32. unit_price_Num area_Num
  33. 2995 43144 53.31
  34. 2996 75016 49.59
  35. 2997 49973 73.24
  36. 2998 69103 52.82
  37. 2999 49412 85.00
  38. <class 'pandas.core.frame.DataFrame'>
  39. Int64Index: 3000 entries, 0 to 2999
  40. Data columns (total 15 columns):
  41. total_price 3000 non-null object
  42. unit_price 3000 non-null object
  43. roomtype 3000 non-null object
  44. height 3000 non-null object
  45. direction 3000 non-null object
  46. decorate 3000 non-null object
  47. area 3000 non-null object
  48. age 2888 non-null float64
  49. garden 3000 non-null object
  50. district 3000 non-null object
  51. id 3000 non-null int64
  52. Unnamed: 11 0 non-null float64
  53. total_price_Num 3000 non-null float64
  54. unit_price_Num 3000 non-null int64
  55. area_Num 3000 non-null float64
  56. dtypes: float64(4), int64(2), object(9)
  57. memory usage: 375.0+ KB
  58. None
  59. age id Unnamed: 11 total_price_Num \
  60. count 2888.000000 3.000000e+03 0.0 3000.000000
  61. mean 2001.453601 1.070999e+11 NaN 631.953450
  62. std 9.112425 1.535036e+07 NaN 631.308855
  63. min 1911.000000 1.070000e+11 NaN 90.000000
  64. 25% 1996.000000 1.071020e+11 NaN 300.000000
  65. 50% 2003.000000 1.071026e+11 NaN 437.000000
  66. 75% 2008.000000 1.071027e+11 NaN 738.000000
  67. max 2018.000000 1.071027e+11 NaN 9800.000000
  68. unit_price_Num area_Num
  69. count 3000.000000 3000.000000
  70. mean 58939.028333 102.180667
  71. std 25867.208297 62.211662
  72. min 11443.000000 17.050000
  73. 25% 40267.500000 67.285000
  74. 50% 54946.000000 89.230000
  75. 75% 73681.250000 119.035000
  76. max 250813.000000 801.140000
  77. 数据集维度: (3000, 15)
  78. 数据集所有字段: Index(['total_price', 'unit_price', 'roomtype', 'height', 'direction',
  79. 'decorate', 'area', 'age', 'garden', 'district', 'id', 'Unnamed: 11',
  80. 'total_price_Num', 'unit_price_Num', 'area_Num'],
  81. dtype='object')
  82. 统计字段名及其对应长度: roomtype 22
  83. ['2室1厅' '2室2厅' '1室1厅' '3室2厅' '1室0厅' '3室1厅' '2室0厅' '1室2厅' '4室3厅' '5室2厅'
  84. '4室2厅' '5室3厅' '3室0厅' '5室1厅' '5室4厅' '6室4厅' '6室2厅' '6室3厅' '7室2厅' '9室6厅'
  85. '3室3厅' '4室1厅']
  86. roomtype字段下所有类别 对应数量
  87. 22751
  88. 32706
  89. 21622
  90. 11323
  91. 42192
  92. 31174
  93. 1047
  94. 1237
  95. 2037
  96. 5235
  97. 4325
  98. 5317
  99. 629
  100. 635
  101. 515
  102. 334
  103. 303
  104. 543
  105. 412
  106. 641
  107. 721
  108. 961
  109. Name: roomtype, dtype: int64
  110. 统计字段名及其对应长度: height 138
  111. ['高楼层/共6层' '低楼层/共6层' '中楼层/共6层' '高楼层/共18层' '低楼层/共9层' '中楼层/共5层' '高楼层/共11层'
  112. '高楼层/共4层' '高楼层/共32层' '中楼层/共7层' '高楼层/共30层' '中楼层/共12层' '中楼层/共24层' '低楼层/共4层'
  113. '低楼层/共5层' '中楼层/共13层' '中楼层/共11层' '低楼层/共7层' '高楼层/共8层' '中楼层/共18层' '中楼层/共14层'
  114. '低楼层/共17层' '中楼层/共30层' '低楼层/共18层' '高楼层/共13层' '中楼层/共31层' '中楼层/共29层'
  115. '独栋/共2层' '高楼层/共29层' '低楼层/共30层' '低楼层/共15层' '高楼层/共28层' '联排/共3层' '中楼层/共8层'
  116. '中楼层/共56层' '低楼层/共16层' '低楼层/共56层' '低楼层/共32层' '高楼层/共7层' '高楼层/共5层' '中楼层/共9层'
  117. '高楼层/共33层' '高楼层/共22层' '低楼层/共26层' '中楼层/共35层' '低楼层/共23层' '低楼层/共35层'
  118. '中楼层/共19层' '中楼层/共17层' '高楼层/共31层' '低楼层/共38层' '低楼层/共28层' '低楼层/共22层'
  119. '低楼层/共24层' '中楼层/共16层' '高楼层/共25层' '低楼层/共14层' '双拼/共2层' '中楼层/共4层' '高楼层/共17层'
  120. '低楼层/共34层' '中楼层/共28层' '高楼层/共24层' '中楼层/共20层' '低楼层/共12层' '高楼层/共16层'
  121. '中楼层/共25层' '联排/共1层' '中楼层/共15层' '高楼层/共34层' '低楼层/共49层' '中楼层/共10层'
  122. '低楼层/共11层' '高楼层/共14层' '中楼层/共21层' '中楼层/共32层' '共3层' '中楼层/共38层' '共1层'
  123. '低楼层/共19层' '中楼层/共22层' '中楼层/共33层' '低楼层/共13层' '低楼层/共20层' '高楼层/共12层'
  124. '中楼层/共37层' '高楼层/共15层' '低楼层/共25层' '低楼层/共31层' '高楼层/共26层' '高楼层/共9层' '双拼/共3层'
  125. '低楼层/共33层' '高楼层/共20层' '高楼层/共40层' '低楼层/共21层' '低楼层/共10层' '上叠别墅/共4层'
  126. '低楼层/共2层' '低楼层/共8层' '低楼层/共61层' '中楼层/共59层' '高楼层/共36层' '中楼层/共27层'
  127. '下叠别墅/共6层' '高楼层/共10层' '高楼层/共27层' '高楼层/共21层' '低楼层/共3层' '高楼层/共37层'
  128. '高楼层/共49层' '低楼层/共27层' '高楼层/共19层' '中楼层/共34层' '低楼层/共1层' '高楼层/共35层'
  129. '低楼层/共43层' '低楼层/共51层' '中楼层/共39层' '低楼层/共29层' '中楼层/共36层' '高楼层/共43层'
  130. '联排/共2层' '中楼层/共23层' '独栋/共3层' '高楼层/共23层' '高楼层/共39层' '共2层' '高楼层/共38层'
  131. '高楼层/共45层' '中楼层/共63层' '中楼层/共26层' '下叠别墅/共5层' '下叠别墅/共3层' '下叠别墅/共4层'
  132. '低楼层/共37层' '低楼层/共41层' '高楼层/共58层']
  133. height字段下所有类别 对应数量
  134. 高楼层/共6557
  135. 中楼层/共6335
  136. 低楼层/共6260
  137. 中楼层/共590
  138. 低楼层/共1884
  139. 高楼层/共1875
  140. 中楼层/共1165
  141. 中楼层/共1865
  142. 中楼层/共1457
  143. 低楼层/共1456
  144. 低楼层/共1151
  145. 高楼层/共550
  146. 高楼层/共1147
  147. 高楼层/共743
  148. 中楼层/共743
  149. 中楼层/共1736
  150. 中楼层/共835
  151. 低楼层/共2433
  152. 中楼层/共2432
  153. 低楼层/共731
  154. 低楼层/共1230
  155. 高楼层/共1427
  156. 低楼层/共1626
  157. 高楼层/共1625
  158. 低楼层/共1524
  159. 中楼层/共1224
  160. 低楼层/共1724
  161. 高楼层/共1224
  162. 低楼层/共521
  163. 低楼层/共1319
  164. ...
  165. 低楼层/共383
  166. 高楼层/共233
  167. 12
  168. 高楼层/共402
  169. 高楼层/共362
  170. 高楼层/共492
  171. 独栋/共32
  172. 低楼层/共492
  173. 上叠别墅/共42
  174. 22
  175. 高楼层/共102
  176. 中楼层/共562
  177. 低楼层/共372
  178. 低楼层/共21
  179. 高楼层/共451
  180. 下叠别墅/共61
  181. 下叠别墅/共31
  182. 双拼/共21
  183. 低楼层/共411
  184. 低楼层/共511
  185. 下叠别墅/共51
  186. 高楼层/共391
  187. 联排/共21
  188. 高楼层/共431
  189. 中楼层/共631
  190. 高楼层/共581
  191. 中楼层/共591
  192. 中楼层/共361
  193. 低楼层/共611
  194. 低楼层/共561
  195. Name: height, Length: 138, dtype: int64
  196. 统计字段名及其对应长度: direction 34
  197. ['南' '南 北' '东南' '东 南' '北 西北' '东北' '西' '西南' '东南 南' '南 西南' '东' '南 西 北' '西 东'
  198. '东 东南' '北' '南 西' '东 西' '北 南' '西南 西北' '暂无数据' '东 北' '东南 西北' '西北' '东南 西'
  199. '东北 南 北' '东 南 北' '西 东北' '南 东南' '南 北 东 东南' '南 东' '南 北 西' '西 北 南' '西 北'
  200. '东南 南 西北 北']
  201. direction字段下所有类别 对应数量
  202. 2131
  203. 南 北 653
  204. 东南 50
  205. 西南 46
  206. 西 19
  207. 13
  208. 12
  209. 南 西 8
  210. 东南 南 7
  211. 北 南 7
  212. 南 西南 6
  213. 东北 5
  214. 东 南 5
  215. 暂无数据 5
  216. 南 西 北 4
  217. 西 东 3
  218. 东 东南 3
  219. 西北 3
  220. 东 西 3
  221. 东 北 2
  222. 北 西北 2
  223. 西 北 南 1
  224. 南 北 西 1
  225. 东南 南 西北 北 1
  226. 南 东南 1
  227. 西 东北 1
  228. 南 东 1
  229. 东南 西北 1
  230. 东南 西 1
  231. 西南 西北 1
  232. 西 北 1
  233. 南 北 东 东南 1
  234. 东北 南 北 1
  235. 东 南 北 1
  236. Name: direction, dtype: int64
  237. 统计字段名及其对应长度: decorate 18
  238. ['平层/简装' '平层/精装' '简装' '平层/毛坯' '精装' '复式/精装' '平层/其他' '跃层/精装' '错层/精装' '复式/简装'
  239. '复式/其他' '错层/其他' '错层/简装' '复式/毛坯' '跃层/简装' '毛坯' '错层/毛坯' '跃层/毛坯']
  240. decorate字段下所有类别 对应数量
  241. 平层/精装 1428
  242. 平层/简装 997
  243. 平层/毛坯 247
  244. 复式/精装 166
  245. 平层/其他 57
  246. 复式/简装 39
  247. 复式/毛坯 17
  248. 错层/精装 16
  249. 精装 9
  250. 复式/其他 5
  251. 跃层/精装 5
  252. 简装 5
  253. 跃层/简装 2
  254. 错层/简装 2
  255. 跃层/毛坯 2
  256. 错层/其他 1
  257. 错层/毛坯 1
  258. 毛坯 1
  259. Name: decorate, dtype: int64
  260. 统计字段名及其对应长度: garden 1859
  261. ['国和一村' '虹康花苑(三期)' '纪念小区' ... '南新东园' '遵义西大楼' '象屿名城']
  262. garden字段下所有类别 对应数量
  263. 新南家园 15
  264. 世茂滨江花园 13
  265. 田林十二村 10
  266. 文怡花园 9
  267. 万馨佳园 9
  268. 绿地金卫新家园(西区) 9
  269. 金地湾流域(二期569弄) 8
  270. 中房公寓 8
  271. 鸿宝一村(南区) 8
  272. 新凯二期 8
  273. 中远两湾城 7
  274. 印象春城 7
  275. 新德佳苑 7
  276. 长丰坊 7
  277. 中环一号(一期) 6
  278. 惠康苑西苑 6
  279. 明园森林都市 6
  280. 明珠小区(川沙) 6
  281. 惠益新苑 6
  282. 富友嘉园 6
  283. 美兰湖中华园 6
  284. 中凯城市之光(静安) 6
  285. 金都雅苑(公寓) 6
  286. 达安锦园 6
  287. 徐汇苑 6
  288. 上海康城 6
  289. 丰庄十二街坊 6
  290. 中环一号(三期) 6
  291. 慧芝湖花园 6
  292. 御景龙庭 5
  293. ..
  294. 紫堤苑 1
  295. 金昌大厦 1
  296. 梓树园 1
  297. 西南名苑 1
  298. 佳宝一村 1
  299. 芳雅苑 1
  300. 德邑小城(公寓) 1
  301. 富丽苑 1
  302. 中友嘉园 1
  303. 证大家园(一期) 1
  304. 潍坊七村 1
  305. 钦州路1111
  306. 东南华庭 1
  307. 铁岭路501
  308. 惠祥公寓 1
  309. 科苑新村 1
  310. 上海阳城 1
  311. 同济融创玫瑰公馆 1
  312. 湖畔佳苑(公寓) 1
  313. 寿祥坊 1
  314. 平阳三村 1
  315. 石泉小区 1
  316. 新福康里(公寓) 1
  317. 公馆77 1
  318. 合生城邦三街坊 1
  319. 双晖小区 1
  320. 明日星城(一期) 1
  321. 浅水湾恺悦名城 1
  322. 隽苑 1
  323. 紫竹小区 1
  324. Name: garden, Length: 1859, dtype: int64
  325. 统计字段名及其对应长度: district 15
  326. ['杨浦' '长宁' '虹口' '松江' '闵行' '宝山' '静安' '徐汇' '浦东' '黄浦' '普陀' '嘉定' '奉贤' '金山'
  327. '青浦']
  328. district字段下所有类别 对应数量
  329. 浦东 794
  330. 闵行 400
  331. 徐汇 268
  332. 静安 228
  333. 宝山 208
  334. 普陀 169
  335. 嘉定 155
  336. 松江 146
  337. 杨浦 141
  338. 长宁 135
  339. 奉贤 95
  340. 黄浦 89
  341. 青浦 63
  342. 金山 55
  343. 虹口 54
  344. Name: district, dtype: int64
  345. dataset.corr():
  346. age id Unnamed: 11 total_price_Num \
  347. age 1.000000 0.000330 NaN 0.199691
  348. id 0.000330 1.000000 NaN -0.143520
  349. Unnamed: 11 NaN NaN NaN NaN
  350. total_price_Num 0.199691 -0.143520 NaN 1.000000
  351. unit_price_Num -0.143897 -0.071997 NaN 0.638882
  352. area_Num 0.345437 -0.171639 NaN 0.787404
  353. unit_price_Num area_Num
  354. age -0.143897 0.345437
  355. id -0.071997 -0.171639
  356. Unnamed: 11 NaN NaN
  357. total_price_Num 0.638882 0.787404
  358. unit_price_Num 1.000000 0.184717
  359. area_Num 0.184717 1.000000
  360. 散点图可视化:可寻找异常点
  361. 检查目标变量满足整体分布
  362. mu = 631.95 and sigma = 631.20
  363. 绘制Q-Q分位数图:看是否与理论的一致
  364. Skew in numerical features:
  365. skewness.head():
  366. Skew
  367. area_Num 3.448604
  368. unit_price_Num 1.121800
  369. 总共有 2 数值型的特征做变换
  370. 采用LabelEncoder,对部分类别的特征进行编号,转为数值型
  371. temp1:
  372. roomtype object
  373. height object
  374. direction object
  375. decorate object
  376. garden object
  377. district object
  378. total_price_Num float64
  379. area_Num float64
  380. dtype: object
  381. temp2:
  382. Index(['roomtype', 'height', 'direction', 'decorate', 'garden', 'district'], dtype='object')
  383. [5, 10, 8, 6, 11, 2, 13, 3, 7, 14, 4, 0, 1, 9, 12]
  384. roomtype height direction decorate garden district total_price_Num \
  385. 0 4 134 16 6 507 5 290.0
  386. 1 4 83 16 7 1501 10 599.0
  387. 2 4 83 19 7 1333 8 420.0
  388. 3 5 83 16 7 829 6 269.9
  389. 4 1 40 16 7 1268 11 383.0
  390. 5 8 105 16 6 1505 10 1250.0
  391. 6 8 86 19 7 21 11 737.0
  392. 7 0 38 16 9 1230 8 162.0
  393. 8 5 98 19 7 1589 2 328.0
  394. 9 0 40 16 6 708 13 163.0
  395. area_Num
  396. 0 62.79
  397. 1 77.87
  398. 2 81.62
  399. 3 77.49
  400. 4 48.45
  401. 5 135.03
  402. 6 112.00
  403. 7 35.76
  404. 8 77.63
  405. 9 30.25
  406. roomtype height direction decorate garden district \
  407. 2995 1 45 16 6 388 7
  408. 2996 1 45 16 7 236 11
  409. 2997 4 40 16 6 1819 2
  410. 2998 4 51 13 7 1586 10
  411. 2999 5 48 19 7 1547 6
  412. total_price_Num area_Num
  413. 2995 230.0 53.31
  414. 2996 372.0 49.59
  415. 2997 366.0 73.24
  416. 2998 365.0 52.82
  417. 2999 420.0 85.00

 

 

 

 

 

2、特征工程(数据分析+数据处理)

 

 

 

 

 

 

 

 

 

 

 

文章来源: yunyaniu.blog.csdn.net,作者:一个处女座的程序猿,版权归原作者所有,如需转载,请联系作者。

原文链接:yunyaniu.blog.csdn.net/article/details/107316607

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。