baseline.zip
5.69 KB,下载次数:498
在此一键设置昵称,即可参与社区互动!
[其他]
初赛Baseline,一套完整的流程
Baseline根据经赛方的审核,同意放出此Baseline,在此非常感谢赛方的信任。
此Baseline只做了一些有限的特征工程,主要是刻画一个完整的预测流程,助力各位小伙伴对数据有一个简单的认识
* Baseline只取前1000000行数据作为训练
* 由于采用聚合运算,因此最后测试结果相同订单的预测时间相同
* 选取经纬度、速度、方向做简单特征
* 模型采用lightgbm+kf作为模型训练
* 本Baseline旨在完成一个完整的流程,具体特征、label的选择需要其本人自己改进
* 数据放在'data/'文件夹下即可
* 经测试得分176495.2554,误差很大
> 文末附Baseline下载
> 本地cpu运行花费不到5分钟
### 1. 数据路径
```python
# baseline只用到gps定位数据,即train_gps_path与测试数据
train_gps_path = 'data/train0523.csv'
test_data_path = 'data/A_testData0531.csv'
```
### 2. 取前1000000行数据
```python
# 取前1000000行
debug = True
NDATA = 1000000
if debug:
train_data = pd.read_csv(train_gps_path,nrows=NDATA,header=None)
else:
train_data = pd.read_csv(train_gps_path,header=None)
```
### 3. 预测结果

本人水平有限,有什么好的想法还请在评论区讨论!
### 2020/06/15更改
很抱歉,模型参数设置有误,导致模型训练出现问题,文件现已更正
* 在参数列增加```'metric':'mse'```即可,同时删除lightgbm内部eval参数。
* 因为是baseline,所以模型效果可能很差,建议配合进行数据清理后再跑效果会好点
* 效果可能比原baseline更差,因为“认真”训练了。
2020-6-15 19:27 上传 点击文件名下载附件 |
|
发表于2020年06月02日 12:35:26
直达本楼层的链接
地板
显示全部楼层
|
|
发表于2020年06月02日 16:34:25
直达本楼层的链接
5#
显示全部楼层
请问大佬这个错误需要如何修改 TypeError: aggregate() missing 1 required positional argument: 'func_or_funcs' 我是在本地跑的,第一次参加,希望大佬可以解答下我的疑惑,谢谢啦 |
|
发表于2020年06月04日 20:02:31
直达本楼层的链接
7#
显示全部楼层
你好,我想问一下baseline这个错误怎么处理呢,谢谢
评论
版本问题 if mode=='train': group_df = df.groupby('loadingOrder')['timestamp'].agg({"mmax":'max', "count":'count', "mmin":'min'}).reset_index() # 读取数据的最大值-最小值,即确认时间间隔为label group_df['label'] = (group_df['mmax'] - group_df['mmin']).dt.total_seconds() elif mode=='test': group_df = df.groupby('loadingOrder')['timestamp'].agg({"count":'count'}).reset_index() ... 查看全部 |
|
您发表的内容存在敏感词汇
如点击继续发布,文章中的敏感词将以*代替。
手机扫码分享给好友
不到5分钟,毕竟只用了很少数据与特征
... 查看全部