《Python数据挖掘与机器学习实战》—3.4 用Python实现多元线性回归

举报
华章计算机 发表于 2019/06/17 13:53:33 2019/06/17
【摘要】 本节书摘来自华章计算机《Python数据挖掘与机器学习实战》一书中的第3章,第3.4节,作者是方巍 。

3.4  用Python实现多元线性回归

  当结果值的影响因素有多个时,可以采用多元线性回归模型。例如,商品的销售额可能与电视广告投入、收音机广告投入和报纸广告投入有关系,可以有:

            image.png    (3-7)

3.4.1  使用pandas读取数据

  pandas是一个用于数据探索、数据分析和数据处理的Python库。

 

  import pandas as pd

  #获取数据

  data = pd.read_csv('/home/lulei/Advertising.csv')

  # 显示前5项数据

  data.head()

 

  这里的Advertising.csv是来自http://www-bcf.usc.edu/~gareth/ISL/Advertising.csv,大家可以自行下载。

  上面代码的运行结果如下:

 

  TV     Radio     Newspaper    Sales

  0      230.1      37.8       69.2       22.1

  1      44.5       39.3       45.1       10.4

  2      17.2       45.9       69.3       9.3

  3      151.5      41.3       58.5       18.5

  4      180.8      10.8       58.4       12.9

 

  上面显示的结果类似一个电子表格,这个结构称为pandas的数据帧(data frame),类型全称是pandas.core.frame.DataFrame。

  pandas的两个主要数据结构是Series和DataFrame;Series类似于一维数组,它由一组数据及一组与之相关的数据标签(即索引)组成;DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典。

 

  # 显示最后5项数据

  data.tail()

 

  以上代码的作用是只显示结果的末尾5行,结果如下:

 

          TV     Radio    Newspaper    Sales

  195    38.2     3.7       13.8         7.6

  196    94.2     4.9       8.1          9.7

  197    177.0    9.3       6.4          12.8

  198    283.6    42.0      66.2         25.5

  199    232.1    8.6       8.7          13.4

  查看DataFrame的维度:

 

  data.shape

 

  注意第一列叫索引,和数据库某个表中的第一列类似。结果如下:

 

  (200,4)


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。