- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

ML之FE：对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘

一个处女座的程序猿发表于 2021/05/20 01:01:05 2021/05/20

【摘要】 ML之FE：对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘       目录对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘输出结果实现代码         对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘输出结果 &n...

对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘

输出结果

实现代码

对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘

输出结果

实现代码


  
   
    
     
    
    
     
      # coding: utf8
     
    
   
    
     
    
    
     
      import pandas as pd
     
    
   
    
     
    
    
     
      import matplotlib.pyplot as plt
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      # ML之FE：对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      #1、定义数据集
     
    
   
    
     
    
    
     
      # 头发(长发/短发)、身高、下巴(棱角/圆滑)、胡长(mm)、皮肤、体重
     
    
   
    
     
    
    
     
      contents={"name": ['Mary', 'Bob',  'Lisa', 'Tom',  'Alan', 'Jason','Sophia', 'Aiden',  'Sarah', 'Miqi', 'Temp01', 'Temp02'],
     
    
   
    
     
    
    
      "age":  [ 16, 24, 19, 20, 33, 23, 29, 31, 34, 24, 27, 30],
     
    
   
    
     
    
    
      "Hair": ['长发', '短发',  '长发', '短发', '长发', '短发', '长发', '长发',   '长发',  '长发', '短发',   '长发'],
     
    
   
    
     
    
    
      "Height": [158, 175, 162, 170, 175, 168, 166, 169, 164, 157, 182, 161],
     
    
   
    
     
    
    
      "Jaw":   ['圆滑', '棱角',  '圆滑', '棱角', '圆滑', '圆滑', '圆滑', '棱角',  '圆滑', '圆滑', '棱角',   '圆滑'], 
     
    
   
    
     
    
    
      "Beard":  [2, 7, 3, 5, 2, 3, 5, 6, 3, 4, 5, 3],
     
    
   
    
     
    
    
      "Skin":  ['细腻', '粗糙',  '细腻', '粗糙', '细腻', '粗糙', '细腻',   '粗糙',   '细腻',   '细腻', '粗糙', '粗糙'], 
     
    
   
    
     
    
    
      "Weight": [99, 143, 105, 135, 120, 160, 95, 145, 125, 112, 155, 100],
     
    
   
    
     
    
    
      "Sex":   ['女性', '男性', '女性',  '男性', '男性', '男性',  '女性',   '男性',  '女性',   '女性', '男性', '女性'], 
     
    
   
    
     
    
    
     
       }
     
    
   
    
     
    
    
     
      data_frame = pd.DataFrame(contents)
     
    
   
    
     
    
    
     
      print(type(data_frame))
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      data_name = 'HumanGender_RelatedAttributes'
     
    
   
    
     
    
    
     
      col_cat='Jaw'
     
    
   
    
     
    
    
     
      label_name='Sex'
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      for col in data_frame.columns[1:-2]:
     
    
   
    
     
    
    
      if data_frame[col].dtypes in ['object']:
     
    
   
    
     
    
    
     
       print(col)
     
    
   
    
     
    
    
      # T1、采用函数
     
    
   
    
     
    
    
     
       col_cats=[col,label_name]
     
    
   
    
     
    
    
     
      # SNCountPlot(col_cats,data_frame,imgName='')
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      # T2、自定义函数？？？
     
    
   
    
     
    
    
     
       x_subname = list(data_frame[col].value_counts().to_dict().keys())
     
    
   
    
     
    
    
     
       label_y1 = list(data_frame[label_name].value_counts().to_dict().keys())[0]
     
    
   
    
     
    
    
     
       label_y2 = list(data_frame[label_name].value_counts().to_dict().keys())[1]
     
    
   
    
     
    
    
     
       y1=list(data_frame[data_frame[label_name]==label_y1][col].value_counts().to_dict().values())
     
    
   
    
     
    
    
     
       y2=list(data_frame[data_frame[label_name]==label_y2][col].value_counts().to_dict().values())
     
    
   
    
     
    
    
     
       print(x_subname)
     
    
   
    
     
    
    
     
       print(label_y1,label_y2)
     
    
   
    
     
    
    
     
       print(y1,y2)
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      # # T2、自定义函数？？？
     
    
   
    
     
    
    
     
      # y01Lists,y02Lists=[],[]
     
    
   
    
     
    
    
     
      # for x in x_subname:
     
    
   
    
     
    
    
     
      # if x not in data_frame[data_frame[label_name]==label_y2][col].value_counts(dropna=False).to_dict().keys():
     
    
   
    
     
    
    
     
      # pass
     
    
   
    
     
    
    
     
      # else:
     
    
   
    
     
    
    
     
      # 
     
    
   
    
     
    
    
     
      # y01=data_frame[data_frame[label_name]==label_y1][col].value_counts(dropna=False).to_dict()[x]
     
    
   
    
     
    
    
     
      # y02=data_frame[data_frame[label_name]==label_y2][col].value_counts(dropna=False).to_dict()[x]
     
    
   
    
     
    
    
     
      # y01Lists.append(y01)
     
    
   
    
     
    
    
     
      # y02Lists.append(y02)
     
    
   
    
     
    
    
     
      # print(y01Lists,y02Lists)
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
       DoubleBarAddText(y1,y2, col,label_name, x_subname,label_y1,label_y2,data_name)
     
    
   
    
     
    
    
      else:
     
    
   
    
     
    
    
     
       Num_col_Plot2_ByLabels(data_name,data_frame,label_name,col)

文章来源: yunyaniu.blog.csdn.net，作者：一个处女座的程序猿，版权归原作者所有，如需转载，请联系作者。

原文链接：yunyaniu.blog.csdn.net/article/details/116563364

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

ML之FE：对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘

对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘

输出结果

实现代码

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品