自进化智能监控系统 with ModelArts:从“误报烦人”到“系统自己变聪明”的进化之路
起因:一个“戴没戴口罩”的小问题,牵出一堆大麻烦
客户厂区是制药洁净区,要求非常严格:口罩、帽子、手套、工服,缺一不可。原本装了不少摄像头,想着用传统视频监控+人工巡查来管控。
结果呢?
人工巡查太慢,漏掉了不少违规;
视频回看太费时间,几百个小时没人愿意翻;
想用AI识别,但按我们之前的经验结果误报一堆,戴了口罩也报警,闹个不停,搞得员工天天申诉。按之前的简单的AI识别模式没法用在生产环境。
痛点到底在哪?
我们不是没试过AI,但问题太多:
误报太多:浅色口罩、侧脸、反光,模型一律判“未戴”。
行为识别难:抽烟、玩手机、坐着、躺着……不是静态图能搞定的。
摄像头角度不同:同一个人,正面看像戴了,侧面看像没戴。
数据不能乱传:洁净区视频不能上传云端,隐私和合规压力大。
环境变化快:白天光线强,晚上偏暗,模型一到夜里就“瞎了”。
解决思路:边云协同 + 轻训练 + 联合决策
我们重新设计了整个系统架构,分三层:
端侧(摄像头附近的小设备)
用廉价芯片(RK3566、Movidius)跑轻量 YOLO 模型。
只做初步识别,比如“有没有人”、“有没有戴口罩”。
不传视频,只上传结构化事件(比如“疑似未戴口罩”)。
边缘侧(厂区内的昇腾310设备)
跑更强的模型(YOLOv5s、ResNet、TSM),做稳判。
加入时间窗机制,只有“持续违规”才报警,防止误报。
多个摄像头一起投票,避免角度误判。
夜间做轻训练,系统自己学习现场数据,变得更聪明。
云端(ModelArts平台)
汇总各边缘设备的训练成果,做联邦聚合和知识蒸馏。
每周产出一个“周版本”模型,灰度下发到边缘。
用 AOM 平台监控模型效果,指标不达标自动回滚。
系统怎么“自己变聪明”?
举个例子:
白天系统发现浅色口罩经常被误判。
晚上边缘设备自动收集这些片段,生成伪标签。
用这些伪标签做轻训练,只微调口罩分类头。
第二天模型更新,浅色口罩识别准确率提升30%。
我们叫它“边缘轻训练”,不需要人工标注,不需要上传视频,系统自己搞定。
为什么我们选了 ModelArts,而不是自己搭平台?
这个系统是不是很复杂啊?
其实没有,我们用的是华为云的 ModelArts,它帮我们省了不少事,尤其是在训练、部署、管理这几块。
一键训练,省掉环境搭建的麻烦
以前我们自己搭训练环境,要装驱动、配显卡、调框架,光是搞定分布式训练就能折腾好几天。
ModelArts直接选框架(PyTorch、TensorFlow、MindSpore),选算力(GPU/昇腾),点一下就能跑,还支持断点续训和自动调参。
节省了至少两周的环境搭建时间。
模型部署不用写脚本,直接推到边缘
我们边缘设备用的是昇腾310,部署模型本来要自己转格式、写适配脚本。
ModelArts训练完直接部署为在线推理服务,配合 IEF 平台一键下发到边缘设备,版本回滚也自动支持。
每个模型部署周期至少节省3–5天。
模型版本和指标自动管理
以前我们靠文件夹命名来管模型版本,指标靠人工记录,回滚靠手动替换,容易出错。
ModelArts每次训练自动生成版本记录,还能配合 AOM 平台实时监控推理效果,模型用了多久、在哪些设备上跑,一目了然。
降低了大量人工管理成本,系统更稳定。
总的来说,ModelArts就像一个“AI工具箱”,把训练、部署、版本管理、监控都打包好了。我们只需要专注在业务逻辑和模型设计上,其他的都交给平台来搞定。
最后谈谈
该架构思考源自于几年前的一个项目,当时我们获得了一个社区智慧安防大单,相当于龙华区那么大,对资产相当敏感的老板就来了个想法,AI能力源自于数据,数据本身也是非常重要的资产,但社区和个人的隐私数据也是敏感的,如何在合规情况下利用脱敏数据通过项目去进化自己的能力。当时的做法还是相对粗暴的把特征值提交到云端训练,但老板的这个想法一直在我脑海潜伏,经过几年的发展,关于AI的架构也完善不少,所以利用现在能力做一次翻盘吧。
AI不是万能的,但架构设计能让它“用得其所”。我们不是靠烧钱堆模型,而是靠合理分工、边云协同、持续学习,让系统真正落地、稳定、可持续。
如果你也在做类似的项目,记住一句话:
“别让AI替你思考,要让它跟你一起成长。”
- 点赞
- 收藏
- 关注作者
评论(0)