《Python数据挖掘与机器学习实战》—3.4.2 分析数据

举报
华章计算机 发表于 2019/06/17 13:54:29 2019/06/17
【摘要】 本节书摘来自华章计算机《Python数据挖掘与机器学习实战》一书中的第3章,第3.4.2节,作者是方巍 。

3.4.2  分析数据

  分析数据的特征:

  TV:在电视上投资的广告费用(以千万元为单位);

  Radio:在广播媒体上投资的广告费用;

  Newspaper:用于报纸媒体的广告费用;

  响应:连续的值;

  Sales:对应产品的销量。

  在这个案例中,通过不同的广告投入,预测产品销量。因为响应变量是一个连续的值,所以这个问题是一个回归问题。数据集一共有200个观测值,每一组观测对应一个市场的情况。

?注意:这里推荐使用的是seaborn包。这个包的数据可视化效果比较好。其实seaborn也属于Matplotlib的内部包,只是需要单独安装。

  import seaborn as sns

  import matplotlib.pyplot as plt

  # 使用散点图可视化特征与响应之间的关系

  sns.pairplot(data, x_vars=['TV','Radio','Newspaper'], y_vars='Sales',

    size=7, aspect=0.8)

  plt.show()                                                               #注意必须加上这一句,否则无法显示

  #这里选择TV?Radio?Newspaper 作为特征,Sales作为观测值

 

  seaborn的pairplot函数绘制X的每一维度和对应Y的散点图。通过设置size和aspect参数来调节显示的大小和比例。通过加入一个参数kind='reg',seaborn可以添加一条最佳拟合直线和95%的置信带。

 

  sns.pairplot(data, x_vars=['TV','Radio','Newspaper'], y_vars='Sales',

    size=7, aspect=0.8, kind='reg')

  plt.show()

 

  如图3-3是运行后的拟合效果图。从图中可以看出,TV特征和销量是有比较强的线性关系的,而Radio和Sales线性关系弱一些,Newspaper和Sales线性关系更弱。

 image.png

图3-3  线性回归结果图


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。