- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《Python数据挖掘与机器学习实战》—3.5.2 数据预处理

华章计算机发表于 2019/06/17 14:07:48 2019/06/17

【摘要】本节书摘来自华章计算机《Python数据挖掘与机器学习实战》一书中的第3章，第3.5.2节，作者是方巍。

3.5.2 数据预处理

　　由于带Adj前缀的数据是除权后的数据，更能反映股票数据特征，所以主要使用的数据特征为调整后的开盘价、最高价、最低价、收盘价和交易额（即Adj.Open、Adj.High、Adj.Low、Adj.Close和Adj.Volume）。

　　两个数据特征如下：

　　HL_PCT（股票最高价与最低价变化百分比）：

（3-9）

　　PCT_change（股票收盘价与开盘价的变化百分比）：

（3-10）

　　于是，自变量为：Adj.Close、HL_PCT、PCT_change和Adj.Volume。因变量为：Adj.Close。

　　最后，对自变量数据进行规范化处理，使之服从正态分布。只需要执行以下语句就可以达到预处理的目的，代码如下：

　　X = preprocessing.scale(X)

　　使用Sklearn做线性回归，首先导入相关函数：

　　from sklearn.linear_model import LinearRegression

　　建立线性回归模型：

　　clf = LinearRegression(n_jobs=-1)

　　进行线性模拟：

　　clf.fit(X_train, y_train)

　　使用predict()函数对需要预测的数据进行预测：

　　forecast_set = clf.predict(X_lately)

　　模型的评估主要使用精度（accuracy）参数。调用线型模型中的精度评估函数score()。

　　accuracy = clf.score(X_test, y_test)

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《Python数据挖掘与机器学习实战》—3.5.2 数据预处理

3.5.2 数据预处理

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《Python数据挖掘与机器学习实战》—3.5.2 数据预处理

3.5.2 数据预处理

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品