ML之FE:对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘

举报
一个处女座的程序猿 发表于 2021/05/20 01:01:05 2021/05/20
【摘要】 ML之FE:对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘       目录 对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘 输出结果 实现代码         对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘 输出结果 &n...

ML之FE:对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘

 

 

 

目录

对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘

输出结果

实现代码


 

 

 

 

对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘

输出结果

 

 

实现代码


  
  1. # coding: utf8
  2. import pandas as pd
  3. import matplotlib.pyplot as plt
  4. # ML之FE:对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘
  5. #1、定义数据集
  6. # 头发(长发/短发)、身高、下巴(棱角/圆滑)、胡长(mm)、皮肤、体重
  7. contents={"name": ['Mary', 'Bob', 'Lisa', 'Tom', 'Alan', 'Jason','Sophia', 'Aiden', 'Sarah', 'Miqi', 'Temp01', 'Temp02'],
  8. "age": [ 16, 24, 19, 20, 33, 23, 29, 31, 34, 24, 27, 30],
  9. "Hair": ['长发', '短发', '长发', '短发', '长发', '短发', '长发', '长发', '长发', '长发', '短发', '长发'],
  10. "Height": [158, 175, 162, 170, 175, 168, 166, 169, 164, 157, 182, 161],
  11. "Jaw": ['圆滑', '棱角', '圆滑', '棱角', '圆滑', '圆滑', '圆滑', '棱角', '圆滑', '圆滑', '棱角', '圆滑'],
  12. "Beard": [2, 7, 3, 5, 2, 3, 5, 6, 3, 4, 5, 3],
  13. "Skin": ['细腻', '粗糙', '细腻', '粗糙', '细腻', '粗糙', '细腻', '粗糙', '细腻', '细腻', '粗糙', '粗糙'],
  14. "Weight": [99, 143, 105, 135, 120, 160, 95, 145, 125, 112, 155, 100],
  15. "Sex": ['女性', '男性', '女性', '男性', '男性', '男性', '女性', '男性', '女性', '女性', '男性', '女性'],
  16. }
  17. data_frame = pd.DataFrame(contents)
  18. print(type(data_frame))
  19. data_name = 'HumanGender_RelatedAttributes'
  20. col_cat='Jaw'
  21. label_name='Sex'
  22. for col in data_frame.columns[1:-2]:
  23. if data_frame[col].dtypes in ['object']:
  24. print(col)
  25. # T1、采用函数
  26. col_cats=[col,label_name]
  27. # SNCountPlot(col_cats,data_frame,imgName='')
  28. # T2、自定义函数???
  29. x_subname = list(data_frame[col].value_counts().to_dict().keys())
  30. label_y1 = list(data_frame[label_name].value_counts().to_dict().keys())[0]
  31. label_y2 = list(data_frame[label_name].value_counts().to_dict().keys())[1]
  32. y1=list(data_frame[data_frame[label_name]==label_y1][col].value_counts().to_dict().values())
  33. y2=list(data_frame[data_frame[label_name]==label_y2][col].value_counts().to_dict().values())
  34. print(x_subname)
  35. print(label_y1,label_y2)
  36. print(y1,y2)
  37. # # T2、自定义函数???
  38. # y01Lists,y02Lists=[],[]
  39. # for x in x_subname:
  40. # if x not in data_frame[data_frame[label_name]==label_y2][col].value_counts(dropna=False).to_dict().keys():
  41. # pass
  42. # else:
  43. #
  44. # y01=data_frame[data_frame[label_name]==label_y1][col].value_counts(dropna=False).to_dict()[x]
  45. # y02=data_frame[data_frame[label_name]==label_y2][col].value_counts(dropna=False).to_dict()[x]
  46. # y01Lists.append(y01)
  47. # y02Lists.append(y02)
  48. # print(y01Lists,y02Lists)
  49. DoubleBarAddText(y1,y2, col,label_name, x_subname,label_y1,label_y2,data_name)
  50. else:
  51. Num_col_Plot2_ByLabels(data_name,data_frame,label_name,col)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

文章来源: yunyaniu.blog.csdn.net,作者:一个处女座的程序猿,版权归原作者所有,如需转载,请联系作者。

原文链接:yunyaniu.blog.csdn.net/article/details/116563364

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。