建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
直达楼层
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

采纳成功

您已采纳当前回复为最佳回复

姜大德

发帖: 7粉丝: 4

发消息 + 关注

发表于2020年06月02日 09:24:52 7660 10
直达本楼层的链接
楼主
显示全部楼层
[其他] 初赛Baseline,一套完整的流程

Baseline根据经赛方的审核,同意放出此Baseline,在此非常感谢赛方的信任。 此Baseline只做了一些有限的特征工程,主要是刻画一个完整的预测流程,助力各位小伙伴对数据有一个简单的认识 * Baseline只取前1000000行数据作为训练 * 由于采用聚合运算,因此最后测试结果相同订单的预测时间相同 * 选取经纬度、速度、方向做简单特征 * 模型采用lightgbm+kf作为模型训练 * 本Baseline旨在完成一个完整的流程,具体特征、label的选择需要其本人自己改进 * 数据放在'data/'文件夹下即可 * 经测试得分176495.2554,误差很大 > 文末附Baseline下载 > 本地cpu运行花费不到5分钟 ### 1. 数据路径 ```python # baseline只用到gps定位数据,即train_gps_path与测试数据 train_gps_path = 'data/train0523.csv' test_data_path = 'data/A_testData0531.csv' ``` ### 2. 取前1000000行数据 ```python # 取前1000000行 debug = True NDATA = 1000000 if debug: train_data = pd.read_csv(train_gps_path,nrows=NDATA,header=None) else: train_data = pd.read_csv(train_gps_path,header=None) ``` ### 3. 预测结果 ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/02/100909zp6ieg4e8jomjlgc.png) 本人水平有限,有什么好的想法还请在评论区讨论! ### 2020/06/15更改 很抱歉,模型参数设置有误,导致模型训练出现问题,文件现已更正 * 在参数列增加```'metric':'mse'```即可,同时删除lightgbm内部eval参数。 * 因为是baseline,所以模型效果可能很差,建议配合进行数据清理后再跑效果会好点 * 效果可能比原baseline更差,因为“认真”训练了。

baseline.zip 5.69 KB,下载次数:498

举报
分享

分享文章到朋友圈

分享文章到微博

采纳成功

您已采纳当前回复为最佳回复

Ink2HL

发帖: 0粉丝: 0

发消息 + 关注

发表于2020年06月02日 09:39:05
直达本楼层的链接
沙发
显示全部楼层

大佬厉害了

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

Linux__

发帖: 0粉丝: 0

发消息 + 关注

发表于2020年06月02日 11:42:57
直达本楼层的链接
板凳
显示全部楼层

大佬大概训练了多久

评论
姜大德 2020-6-2 11:43 评论

不到5分钟,毕竟只用了很少数据与特征

... 查看全部
点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

醉一心

发帖: 1粉丝: 0

发消息 + 关注

发表于2020年06月02日 12:35:26
直达本楼层的链接
地板
显示全部楼层

大佬怎么样把训练数据导入OBS,他还说文件不允许大于5G,可是训练数据有20G啊

评论
姜大德 2020-6-2 13:17 评论

应该可以直接读取,如果没有那估计是赛方让本地运行

... 查看全部
Ink2HL 2020-6-2 13:47 评论

评论 姜大德:OBS有一个软件的。可以用软件将数据上传上去

... 查看全部
醉一心 2020-6-3 13:05 评论

评论 姜大德:大佬,我成功运行了,如果只用这种sklearn机器学习的方法能苟到复赛吗,没有设备,不会深度学习。 最后还是感谢大佬将github上有关的文章连接写在注释里,很有帮助。

... 查看全部
点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

SnakeWoodMan

发帖: 0粉丝: 0

发消息 + 关注

发表于2020年06月02日 16:34:25
直达本楼层的链接
5#
显示全部楼层
请问大佬这个错误需要如何修改
TypeError: aggregate() missing 1 required positional argument: 'func_or_funcs'

我是在本地跑的,第一次参加,希望大佬可以解答下我的疑惑,谢谢啦

评论
MZwei 2020-6-2 17:13 评论

https://stackoverflow.com/questions/56821579/pandas-groupby-agg-throws-typeerror-aggregate-missing-1-required-positional

... 查看全部
姜大德 2020-6-2 18:32 评论

pandas版本问题,1.0x是我这写法,原0.2x是字典写法

... 查看全部
点赞1 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

完完全小白

发帖: 0粉丝: 0

发消息 + 关注

发表于2020年06月03日 16:36:15
直达本楼层的链接
6#
显示全部楼层

请问大佬,要让程序完全运行还需在基础上添加哪些东西啊?

评论
姜大德 2020-6-4 15:04 评论

这个已经可直接运行了

... 查看全部
点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

balloon

发帖: 0粉丝: 0

发消息 + 关注

发表于2020年06月04日 20:02:31
直达本楼层的链接
7#
显示全部楼层

你好,我想问一下baseline这个错误怎么处理呢,谢谢

image.png

评论
你压到我腿毛啦 2020-6-4 20:56 评论

版本问题 if mode=='train': group_df = df.groupby('loadingOrder')['timestamp'].agg({"mmax":'max', "count":'count', "mmin":'min'}).reset_index() # 读取数据的最大值-最小值,即确认时间间隔为label group_df['label'] = (group_df['mmax'] - group_df['mmin']).dt.total_seconds() elif mode=='test': group_df = df.groupby('loadingOrder')['timestamp'].agg({"count":'count'}).reset_index()

... 查看全部
幼稚园的幼稚er 2020-6-7 17:39 评论

请教下大佬是在哪个平台跑的程序

... 查看全部
点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复
发表于2020年06月06日 16:05:39
直达本楼层的链接
8#
显示全部楼层

大佬,你跑出来的误差为什么那么大?

评论
姜大德 2020-6-6 17:30 评论

这只是baseline

... 查看全部
点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复
发表于2020年06月09日 17:16:40
直达本楼层的链接
9#
显示全部楼层

请问楼主,训练的时候有没有出现这样的输出呢?十分感谢楼主的分享!

image.png

评论
yd_287099189 2020-6-10 11:07 评论

同问

... 查看全部
姜大德 2020-6-10 20:15 评论

评论 yd_287099189:lightgbm参数设置问题,当时没注意,把eval参数自己修改就行

... 查看全部
点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

Milikum

发帖: 0粉丝: 0

发消息 + 关注

发表于2020年06月14日 19:46:46
直达本楼层的链接
10#
显示全部楼层

请问楼主,我在训练的时候出现这种输出怎么解决?

image.png

评论
姜大德 2020-6-15 19:19 评论

同上,参数设置问题,这两天改下

... 查看全部
点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

求问解答

发帖: 0粉丝: 0

发消息 + 关注

发表于2020年06月22日 11:41:34
直达本楼层的链接
11#
显示全部楼层

求问大佬,在尝试运行baseline代码的时候,第四步开始出错,提示错误image.png,该怎么解决呀?

$9{ZJH]{SCQ}IYOR8`B6$88.png

评论
姜大德 2020-6-25 20:01 评论

timestamp没有?test集里面的,如果数据集没有其他改动应该是有的

... 查看全部
点赞1 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册

结贴

您对问题的回复是否满意?
满意度
非常满意 满意 一般 不满意
我要反馈
0/200