深源恒际与太平洋保险达成合作 医疗票据智能识别助力保险理赔驶入快车道
日前,AI科技公司深源恒际宣布与太平洋保险签订合作协议,就医疗票据智能识别达成合作。
根据合作协议,深源恒际将为太平洋保险提供基于计算机视觉技术的医疗票据智能识别与结构化提取解决方案,帮助太平洋保险实现医疗票据信息数字化,提升健康险核赔理算作业效率,助⼒保险理赔服务优化升级,让保险理赔驶入快车道。
切中要害,直击痛点
出于政策监管因素,商业医保机构在处理理赔案件时无法直接调用或实时共享到投保人的医疗信息。在核赔理算时,通常需要理算人员基于用户提交的医疗票据获取理算相关数据,将票据上的核心信息手工录入理算系统,而单一案件涉及的理算信息多达百余项。
人工录入的作业方式相对不够经济、高效。一是人工作业难免疏漏、发生错误,影响理算准确性,容易带来理赔渗漏;二是投入大量人力从事机械重复的事务性工作,耗时费力、效率低下,在人力资源配置上不够经济。
基于保险机构在核赔理算中存在的这些痛点问题,深源恒际为太平洋保险提供了医疗票据智能识别与结构化提取解决方案。基于OCR识别技术,结合专项训练+自适应提取方法,自动从各类医疗票据图像中识别、提取出理算所需的核心信息,快速、高效地完成理算信息录入。目前,支持识别提取的票据类型包含门诊发票、住院发票及费用清单。
医疗票据OCR的应用,帮助保险机构实现了局部作业流程自动化,初步预测可减少大约80%的人力投入。被释放的劳动力可投入到对脑力依赖更强的工作,换言之,保险机构获得了更大的优化资源配置的空间;同时,计算机提取 vs 人工录入,大幅缩短了理算用时,让理赔服务效率指数级提升,用户体验得以明显改善。
对症下药,攻破难点
事实上,医疗票据OCR在实际落地中需要应对诸多技术难点,如票面信息模糊、发票折叠畸变、内容重叠、信息串行等,这些因素会对识别准确率造成干扰。为降低或消弭噪音,深源恒际在训练算法模型时结合了多种图像处理技术排除干扰因素,让医疗票据专用识别模型具备很好的抗干扰能力和鲁棒性。
首先,当前医疗票据在全国范围内还未完全统一式样,面对各地式样迥异的情形,通用OCR算法的识别稳定性差,无法切实满足业务需求。
在为太平洋保险提供服务时,深源恒际采用针对性强化法在模型训练中增强特征提取细粒度,依据不同模版上的启发性信息辅助文字区域的定位和切分,弱化式样差异带来的不良影响。目前,已完成针对性强化训练的模型包括北京、天津、上海、浙江、山东、广东、江苏、河南,8省市及部队医疗系统模版。
其次,各地医疗票据多采用数据与格式分离的套打方式,在OCR识别中会带来两方面困扰:一是套打发票大多采用针式打印技术,图像分辨率低、打印字迹模糊,影响识别准确率;二是机打信息与印刷信息容易套打错位,造成内容重叠或串行——重叠时信息被覆盖或遮挡,这在文本检测中易被漏检,在文本识别中易被误识,而串行则增加了信息提取难度,影响数据结构化。
深源恒际基于深度学习算法,通过图层分离技术突破了套打方式带来的技术难题,使识别准确率大幅提升——
l 图层分离:
基于大量数据分析,提取机打部分与印刷部分的差异化特征,增强特征提取细粒度,搭建像素级图层分离模型,实现机打信息与印刷信息分层剥离。
l 坐标定位:
图层分离后,基于图像识别技术定位各文本条目的坐标信息,通过传统匹配算法完成印刷条目坐标与机打条目坐标的匹配,实现印刷字段与机打字段的关联,破解信息串行对识别准确率的影响。
l 双识别模型:
针对机打文本和印刷文本训练双识别模型,基于两种文本的差异化特征增强二者的区分度,进而提升图层分离精确度,降低信息重叠带来的干扰。
再次,为确保理算信息完整无误,深源恒际基于交叉校验规则引擎,提供“机器校验为主、人工复核为辅”的数据补录工具。基于字段间的逻辑关联关系,自动识别定位到置信度较低的字段信息,通过交叉校验对存疑数据进行启发式纠正;同时,基于医疗词典库对模糊字段进行智能校准,综合多种校验方式辅助人工完成信息复核与补录。
太平洋保险业务负责人表示,“本质上,医疗票据OCR的应用是以信息数字化的方式将理算信息采集环节自动化,所以,结合平台现有的智能理算规则引擎,理论上健康险的核赔理算业务就可以实现从信息采集到结果输出的全面自动化。”
- 点赞
- 收藏
- 关注作者
评论(0)