托业听力测试一招过,CodeArts代码智能体来帮忙
近期准备考一下托业英语,自己英语水平一般,最大的障碍是听力,很多单词看着认识,但听着不知道讲的是啥。因此我一直希望能开发一个工具,可以在播放听力时,实时显示英文字幕。为此,我先后尝试用 Trae、Qoder、Lingma、GitHub Copilot、Lovable、Cursor 等多个AI Coding工具来开发这一功能,但始终没有成功,国外工具超额就要收费,国内工具代码生成后正确率不高。最后,在CodeArts代码智能体的帮助下(CodeArts代码智能体官网),用token不限量的GLM4.7,连续跑了1小时,大约10个交互来回,终于实现了,请看界面:

当然,这个过程并不是一帆风顺。起初CodeArts代码智能体IDE走的方向是用云厂商的实时语音识别,我按照md的提示去云厂商开通了实时语音识别云服务,也预充值了一些钱,申请了AK/SK和APPID。但是IDE并不能很好的理解各家云厂商的API调用方式,来回交互几次,换了几个云厂商的API,不是鉴权失败,就是传参错误,最终不得不放弃了这条路。这也说明当前 AI Coding工具还处于野蛮生长阶段,与云厂商的API/SDK还没有做很深的结合,此处未来会是各家工具一个有力竞争点。
后来,我通过Prompt引导IDE走本地离线Whisper模型解析语音路线,IDE可以很聪明迅速的重构了整个工程,自动修改为下载fast-whisper大模型,通过本地cpu算力推理的方式,来把mp3文件里的语音转成文字,并带有时间戳,其实就是生成了字幕文件。然后在音频播放时,用了时间同步技术,实现字幕实时显示。这个方向,IDE走的比较顺利,基本上三四个交互就OK了,当实时字幕出现的那一刻,我内心涌起了一股对AI由衷的敬意。作为一个十年程序员老兵,如果是在两年前,我手敲代码实现这个应用,估计要三天以上的时间,而现在1小时不到、一行代码不看,只是对着 AI IDE 打字聊天,它就自动完成了,这个改变是软件生产力的巨变。
巨浪来临时,我们拿上冲浪板,迎头赶上吧!
附件是IDE帮忙总结的全过程复现提示词:请根据“AI_CODING_GUIDE.md”文件里的要求,完整开发出应用
依赖的语音识别模型:whisper-base,英译中模型:opus-mt-en-zh,如果无法访问huggine face,可以从modelscope手工下载,保存到 models/base/ 下,及models/translation/opus-mt-en-zh目录下。
- 点赞
- 收藏
- 关注作者
评论(0)