华为云2020 AI实战营 第八章 语音识别 打卡指南(完结篇)

举报
张辉 发表于 2020/08/25 15:14:32 2020/08/25
【摘要】 走向拥有GT手表之路(完结篇)

其实最后一周的打卡略显简单,写一篇博客好像有点注水的味道,但是毕竟2篇写下来了,就勉为其难将领手表的活动进行到底吧!毕竟七夕来了,总要结束AI实战训练营这一光辉的旅程,走向atlas 200DK或者HiLens或者AIoT这些更精准的AI应用。。。


安利一下前几次打卡指南:


华为云2020 AI实战营 第六章 视频分析 打卡指南 https://bbs.huaweicloud.com/blogs/191703

华为云2020 AI实战营 第七章 NLP 打卡指南 https://bbs.huaweicloud.com/blogs/194290


一、课程打卡

课程内容为《8.4 课程打卡》,打卡的方法如下:

下载课程中提供的pdf文件。点击每个章节后,将右边红色的下载文档按钮都按一下。

image.png

将会得到以下的pdf:

image.png


课程打卡就打开  8.4 课程打卡.pdf 文件看说明吧:


惯例打开 https://nbviewer.jupyter.org/  然后在URL输入:https://nbviewer.jupyter.org/github/huaweicloud/ModelArts-Lab/blob/master/notebook/DL_speech_recognition/DFCNN和Transformer模型完成中文语音识别.ipynb

然而这次并不行,因为如果你真这样输入,你就会得到以下画面:

image.png

你要做的事情就是直接在浏览器输入这个地址,打开这个页面:


image.png


下面的事情就是一步步的按照手册来。记得有几点需要注意的:


选Notebook参数的时候,可以直接选择那个 8核64G的,别选免费的,这样你的命令执行会快很多。(记得选择一小时后停止)


image.png


另外,创建的是TensorFlow 1.13.1开发环境。(这点跟第二个实验有区别,需重点注意!!!


然后一般情况下,你从头做到尾,也不会出啥问题。直接就到结果了。


image.png


记得把Notebook的标题改为你的 华为云用户名,就可以截图回帖拿积分了。


二、作业1打卡


作业 1的打卡是在8.1节的基础上,所以你需要打开 8.5和8.1两个pdf文件。你可以先根据8.1的要求将案例跑完,然后再做打卡实践作业。


具体方法如下:

打开 https://nbviewer.jupyter.org/ 在url栏输入地址:https://github.com/huaweicloud/ModelArts-Lab/blob/master/notebook/DL_sound_introduction/语音和语音识别介绍.ipynb


放心,这次可以直接打开

image.png

然后你继续创建Notebook(方式跟课程一样)(记得选择一小时后停止)

image.png


注意这里,创建的是TensorFlow 1.8的开发环境。(手工加红加粗)


接着也只有12个语句,复制粘贴执行即可。这个不需要没多少时间。


这些语句运行完之后,你可以看 8.5的作业说明了:

image.png



你可以选择test1.wav文件。然而,作为一个想挑战自己的你,应该自己录个文件上传。


你可以选择用手机或者电脑的录音机录制好WAV文件,如果录制的是MP3格式的,还可以选择用格式工厂将其转换为WAV格式的。


image.png

然后,你在Notebook页面中选择上传,将wav文件传到Notebook:

image.png


继续在提供的界面上执行以下语句:


image.png

记得把文件名改为你自己定的文件名:news.wav


源文件15秒,目的文件19秒。果然是变声了。。。(笔者会传上附件)


好了,简单吧。你就拿着这个界面截图回帖就可以拿到2个积分了。记得将Notebook名称改为你的华为云ID.


image.png



三、作业2打卡


作业 2的打卡是在8.2节的基础上,所以你需要打开 8.5和8.2两个pdf文件。


你可以按照8.2的链接打开RL :

https://github.com/huaweicloud/ModelArts-Lab/tree/master/ExeML/ExeML_Sound_Classification


然而你会发现很多图片都无法显示,像这样:

image.png


你也可以试下nbviewer,

image.png


但是你也会遇到这样:

image.png

你再点开readme,就会变成这样:

image.png

是的,它又回去了。

当你手足无措的时候,你会发现,你该好好看视频了。。。(对了,听说好多人都是直接打卡不看视频的,好像不看视频也能打卡,这个学习好像有点水。。。。)


视频上拥有你想知道的一切。。。。。按照视频来吧:点击自动学习,创建声音分类项目。。。

image.png

选择数据集来源:obs的train文件夹:


image.png


选择输出目录:obs的trainout文件夹

image.png

开始创建:

image.png


准备音频文件:


根据那个打不开图片的github提供的链接:

image.png


下载 猫狗虎鸟叫的音频文件:

https://modelarts-labs-bj4.obs.cn-north-4.myhuaweicloud.com/ExeML/ExeML_Sound_Classification/sound_classification.zip


根据 8.5文档的链接

image.png


下载小猪叫的音频文件: 

https://modelarts-labs-bj4.obs.cn-north-4.myhuaweicloud.com/ExeML/ExeML_Sound_Classification/pig.zip


下载完之后记得解压。

image.png

image.png


image.png


在项目内添加各类音频:记住前4类只需要添加 train下的文件即可。test目录下用于测试,不要在这个时候上传。


image.png

另外记住由于系统限制,每次传输不能大于8M,所以如果文件多了,你就先删掉几个,下次再传。


然后对音频进行标注,简单点,就是将各名称开头的文件标注成那个名称的标签,如birdxxx标注为bird等等。


标注完毕后,点击右上角的红色按钮:开始训练。


你可以选择免费的

image.png

也可以选择收费的:

image.png

感觉都差不多。


确定后,也许训练作业会排队:

image.png

当训练完成之后,

image.png

你可以点击左上角方框中的部署按钮:


image.png


然后耐心等待部署结束:

image.png

当版本为运行中时,你就可以在中间的页面上传 猪叫的音频。然后点击预测,右边就会显示pig的结果。如上图所示。

拿着这张图片回帖,就可以拿到最后的2分了。


好了,终于到了2020 AI实战营的终了,让我们感谢实战营的 01老师,倪老师以及AI相关的各类小助手在实战营期间给予我们的帮助。


另外希望GT手表能够早日到手。


(全文完,谢谢阅读!)


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。