《Python数据挖掘与机器学习实战》—3.5.2 数据预处理

举报
华章计算机 发表于 2019/06/17 14:07:48 2019/06/17
【摘要】 本节书摘来自华章计算机《Python数据挖掘与机器学习实战》一书中的第3章,第3.5.2节,作者是方巍 。

3.5.2  数据预处理

  由于带Adj前缀的数据是除权后的数据,更能反映股票数据特征,所以主要使用的数据特征为调整后的开盘价、最高价、最低价、收盘价和交易额(即Adj.Open、Adj.High、Adj.Low、Adj.Close和Adj.Volume)。

  两个数据特征如下:

  HL_PCT(股票最高价与最低价变化百分比):

             image.png (3-9)

  PCT_change(股票收盘价与开盘价的变化百分比):

              image.png(3-10)

  于是,自变量为:Adj.Close、HL_PCT、PCT_change和Adj.Volume。因变量为:Adj.Close。

  最后,对自变量数据进行规范化处理,使之服从正态分布。只需要执行以下语句就可以达到预处理的目的,代码如下:

 

  X = preprocessing.scale(X)

 

  使用Sklearn做线性回归,首先导入相关函数:

 

  from sklearn.linear_model import LinearRegression

 

  建立线性回归模型:

 

  clf = LinearRegression(n_jobs=-1)

 

  进行线性模拟:

 

  clf.fit(X_train, y_train)

 

  使用predict()函数对需要预测的数据进行预测:

 

  forecast_set = clf.predict(X_lately)

 

  模型的评估主要使用精度(accuracy)参数。调用线型模型中的精度评估函数score()。

 

  accuracy = clf.score(X_test, y_test)


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。