托业听力测试一招过,CodeArts代码智能体来帮忙

举报
deli007 发表于 2026/02/04 21:38:19 2026/02/04
【摘要】      近期准备考一下托业英语,自己英语水平一般,最大的障碍是听力,很多单词看着认识,但听着不知道讲的是啥。因此我一直希望能开发一个工具,可以在播放听力时,实时显示英文字幕。为此,我先后尝试用 Trae、Qoder、Lingma、GitHub Copilot、Lovable、Cursor 等多个AI Coding工具来开发这一功能,但始终没有成功,国外工具超额就要收费,国内工具代码生成后正...

     近期准备考一下托业英语,自己英语水平一般,最大的障碍是听力,很多单词看着认识,但听着不知道讲的是啥。因此我一直希望能开发一个工具,可以在播放听力时,实时显示英文字幕。为此,我先后尝试用 Trae、Qoder、Lingma、GitHub Copilot、Lovable、Cursor 等多个AI Coding工具来开发这一功能,但始终没有成功,国外工具超额就要收费,国内工具代码生成后正确率不高。最后,在CodeArts代码智能体的帮助下(CodeArts代码智能体官网),用token不限量的GLM4.7,连续跑了1小时,大约10个交互来回,终于实现了,请看界面:


       当然,这个过程并不是一帆风顺。起初CodeArts代码智能体IDE走的方向是用云厂商的实时语音识别,我按照md的提示去云厂商开通了实时语音识别云服务,也预充值了一些钱,申请了AK/SK和APPID。但是IDE并不能很好的理解各家云厂商的API调用方式,来回交互几次,换了几个云厂商的API,不是鉴权失败,就是传参错误,最终不得不放弃了这条路。这也说明当前 AI Coding工具还处于野蛮生长阶段,与云厂商的API/SDK还没有做很深的结合,此处未来会是各家工具一个有力竞争点。

       后来,我通过Prompt引导IDE走本地离线Whisper模型解析语音路线,IDE可以很聪明迅速的重构了整个工程,自动修改为下载fast-whisper大模型,通过本地cpu算力推理的方式,来把mp3文件里的语音转成文字,并带有时间戳,其实就是生成了字幕文件。然后在音频播放时,用了时间同步技术,实现字幕实时显示。这个方向,IDE走的比较顺利,基本上三四个交互就OK了,当实时字幕出现的那一刻,我内心涌起了一股对AI由衷的敬意。作为一个十年程序员老兵,如果是在两年前,我手敲代码实现这个应用,估计要三天以上的时间,而现在1小时不到、一行代码不看,只是对着 AI IDE 打字聊天,它就自动完成了,这个改变是软件生产力的巨变。

      巨浪来临时,我们拿上冲浪板,迎头赶上吧!


附件是IDE帮忙总结的全过程复现提示词:请根据“AI_CODING_GUIDE.md”文件里的要求,完整开发出应用

依赖的语音识别模型:whisper-base,英译中模型:opus-mt-en-zh,如果无法访问huggine face,可以从modelscope手工下载,保存到 models/base/ 下,及models/translation/opus-mt-en-zh目录下。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。