《Python数据挖掘与机器学习实战》—3.4.2 分析数据
3.4.2 分析数据
分析数据的特征:
TV:在电视上投资的广告费用(以千万元为单位);
Radio:在广播媒体上投资的广告费用;
Newspaper:用于报纸媒体的广告费用;
响应:连续的值;
Sales:对应产品的销量。
在这个案例中,通过不同的广告投入,预测产品销量。因为响应变量是一个连续的值,所以这个问题是一个回归问题。数据集一共有200个观测值,每一组观测对应一个市场的情况。
?注意:这里推荐使用的是seaborn包。这个包的数据可视化效果比较好。其实seaborn也属于Matplotlib的内部包,只是需要单独安装。
import seaborn as sns
import matplotlib.pyplot as plt
# 使用散点图可视化特征与响应之间的关系
sns.pairplot(data, x_vars=['TV','Radio','Newspaper'], y_vars='Sales',
size=7, aspect=0.8)
plt.show() #注意必须加上这一句,否则无法显示
#这里选择TV?Radio?Newspaper 作为特征,Sales作为观测值
seaborn的pairplot函数绘制X的每一维度和对应Y的散点图。通过设置size和aspect参数来调节显示的大小和比例。通过加入一个参数kind='reg',seaborn可以添加一条最佳拟合直线和95%的置信带。
sns.pairplot(data, x_vars=['TV','Radio','Newspaper'], y_vars='Sales',
size=7, aspect=0.8, kind='reg')
plt.show()
如图3-3是运行后的拟合效果图。从图中可以看出,TV特征和销量是有比较强的线性关系的,而Radio和Sales线性关系弱一些,Newspaper和Sales线性关系更弱。
图3-3 线性回归结果图
- 点赞
- 收藏
- 关注作者
评论(0)