- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

托业听力测试一招过，CodeArts代码智能体来帮忙

deli007 发表于 2026/02/04 21:38:19 2026/02/04

【摘要】近期准备考一下托业英语，自己英语水平一般，最大的障碍是听力，很多单词看着认识，但听着不知道讲的是啥。因此我一直希望能开发一个工具，可以在播放听力时，实时显示英文字幕。为此，我先后尝试用 Trae、Qoder、Lingma、GitHub Copilot、Lovable、Cursor 等多个AI Coding工具来开发这一功能，但始终没有成功，国外工具超额就要收费，国内工具代码生成后正...

近期准备考一下托业英语，自己英语水平一般，最大的障碍是听力，很多单词看着认识，但听着不知道讲的是啥。因此我一直希望能开发一个工具，可以在播放听力时，实时显示英文字幕。为此，我先后尝试用 Trae、Qoder、Lingma、GitHub Copilot、Lovable、Cursor 等多个AI Coding工具来开发这一功能，但始终没有成功，国外工具超额就要收费，国内工具代码生成后正确率不高。最后，在CodeArts代码智能体的帮助下（CodeArts代码智能体官网），用token不限量的GLM4.7，连续跑了1小时，大约10个交互来回，终于实现了，请看界面：

当然，这个过程并不是一帆风顺。起初CodeArts代码智能体IDE走的方向是用云厂商的实时语音识别，我按照md的提示去云厂商开通了实时语音识别云服务，也预充值了一些钱，申请了AK/SK和APPID。但是IDE并不能很好的理解各家云厂商的API调用方式，来回交互几次，换了几个云厂商的API，不是鉴权失败，就是传参错误，最终不得不放弃了这条路。这也说明当前 AI Coding工具还处于野蛮生长阶段，与云厂商的API/SDK还没有做很深的结合，此处未来会是各家工具一个有力竞争点。

后来，我通过Prompt引导IDE走本地离线Whisper模型解析语音路线，IDE可以很聪明迅速的重构了整个工程，自动修改为下载fast-whisper大模型，通过本地cpu算力推理的方式，来把mp3文件里的语音转成文字，并带有时间戳，其实就是生成了字幕文件。然后在音频播放时，用了时间同步技术，实现字幕实时显示。这个方向，IDE走的比较顺利，基本上三四个交互就OK了，当实时字幕出现的那一刻，我内心涌起了一股对AI由衷的敬意。作为一个十年程序员老兵，如果是在两年前，我手敲代码实现这个应用，估计要三天以上的时间，而现在1小时不到、一行代码不看，只是对着 AI IDE 打字聊天，它就自动完成了，这个改变是软件生产力的巨变。

巨浪来临时，我们拿上冲浪板，迎头赶上吧！

附件是IDE帮忙总结的全过程复现提示词：请根据“AI_CODING_GUIDE.md”文件里的要求，完整开发出应用

依赖的语音识别模型：whisper-base，英译中模型：opus-mt-en-zh，如果无法访问huggine face，可以从modelscope手工下载，保存到 models/base/ 下，及models/translation/opus-mt-en-zh目录下。

AI_CODING_GUIDE.txt

26.98KB 下载次数：18次

附件下载

AI_CODING_GUIDE.txt 26.98KB 下载次数：18次

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

托业听力测试一招过，CodeArts代码智能体来帮忙

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品