建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

ModelArts开发者社区

发帖: 8粉丝: 3

级别 : 新手上路

发消息 + 关注

发表于2020年04月06日 16:53:37 5173 5
直达本楼层的链接
楼主
显示全部楼层
[技术分享] 【“防疫课堂观后感生成器 2.0 版本”动手实操教程】

三月初,全国的大学生同时都上了同一堂网课。

网课开始没多久

直播页面就陷入了崩溃

除了一部分幸运同学挤进网课外

许多同学都被卡在载入页面…

一时间

#和易烊千玺王俊凯刘昊然吴磊上课# 

#人民智云崩了#

纷纷登上热搜榜!


防疫课程结束后,全国大学都要写一份“观后感”并提交!江南大学陈俊榕同学收到伙伴们的需求后,第一时间开发了“防疫课程观后感生成器”,满足大家的学习需求!


同学们用了“防疫课程观后感生成器”之后

纷纷表示“很赞”

如果你不满意这篇文章的话

还可以再次点击一下“再来一篇”

这样一篇全新的观后感文章又生成了。

我试了一下,点击了大概十几次“再来一篇”

部分段落可能有重复,但基本能保证每篇文章都不重样。


项目上线仅一天,就达到了24万+的浏览量,目前已有70 万+大学生通过使用过陈俊榕同学开发的“防疫课程观后感生成器”!


那么,如何在华为云 ModelArts上运行本项目呢?


1. 首先在ModelArts里,创建一个基于Python3GPU EVSNotebook


2. 上传GPT2的代码,以及语料库。这里要注意一点,如果语料库超过100mb,是不能直接上传的,要从桶里同步过来。具体同步代码如下:


from modelarts.session import Session

session = Session()

session.download_data(bucket_path="/bucket-name/dir1/sdk.txt", path="/home/user/sdk/obs.txt")


当然这是python的代码,可以写个程序,也可以直接打开python输入。


3. 语料库是json格式的,具体格式如下

[“第一篇文章”, ”第二篇文章”]

4. 切换到项目目录,在work文件夹下。


5. 安装GPT2需要的库。因为我找到的GPT2框架用的是pytorch1.4,而且还需要很多其他的包,所以这里直接用pip install -r requirements.txt 把所有要用到的包安装一下就好了,安装过程大概1分钟这样。



6. 进入cache目录,使用make_vocab.py生成分词表。

image.png

需要修改图中的两个路径。



7. 修改config目录下的model_config.json文件中vocab_size的值。
具体值为上面输出文件的行数。


8. 修改train.py中的参数,把这三个路径改成我们刚刚修改的配置文件路径、词表路径、语料库路径。

image.png


9. 运行命令进行训练
python train.py –raw


10. 修改generate.py中的参数,把这三个路径改成我们刚刚修改的配置文件路径、词表路径、语料库路径。
image.png


11. 接着,运行generate.py,测试训练成果。
python ./generate.py --length=100 --nsamples=3 --prefix=
爱国 --fast_pattern --save_samples --save_samples_path=./output

其中,length是生成的文本长度,prefix是开头的主题,save_samples_path是输出路径

如果生成的文章没什么问题,那就说明成功啦!


项目代码可参考:

江南大学陈俊榕

链接:https://pan.baidu.com/s/18k-huDwn3RgPZ02meCQd5Q

提取码:zxie


AI 创新 开发者

举报
分享

分享文章到朋友圈

分享文章到微博

付豪之家

发帖: 4粉丝: 2

级别 : 注册会员

发消息 + 关注

发表于2020年04月07日 14:53:53
直达本楼层的链接
沙发
显示全部楼层

点赞 评论 引用 举报

郑永祥

发帖: 43粉丝: 8

级别 : 中级会员

发消息 + 关注

发表于2020年04月07日 16:08:15
直达本楼层的链接
板凳
显示全部楼层

第9点命令有误哦,python train.py –raw,

应该是--raw

点赞 评论 引用 举报

郑永祥

发帖: 43粉丝: 8

级别 : 中级会员

发消息 + 关注

发表于2020年04月07日 16:11:48
直达本楼层的链接
地板
显示全部楼层

平台notebook对中文文件的支持不好,命名还希望尽量为英文,说明性的文件一般使用markdown文件README.md

点赞 评论 引用 举报

郑永祥

发帖: 43粉丝: 8

级别 : 中级会员

发消息 + 关注

发表于2020年04月08日 10:33:19
直达本楼层的链接
5#
显示全部楼层

其实这种分享方式不够程序员,推荐的是直接给一个ipynb文件,什么都搞定了

点赞 评论 引用 举报

极客潇

发帖: 319粉丝: 23

级别 : 外部版主

发消息 + 关注

发表于2020年04月24日 10:56:47
直达本楼层的链接
6#
显示全部楼层

感谢分享

点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册