华为大咖说丨什么是大模型“MRC”?
本文作者:袁泉(华为AI数据工程专家)全文约2545字,阅读约需8分钟
人们在讨论与大模型有关的业务场景或方案时,经常提到MRC,MRC到底是啥?今天我们就来聊一聊这个话题。
首先来看一下MRC的定义:Machine Reading Comprehension, 简称MRC,中文翻译为“机器阅读理解”,是一种利用算法使计算机理解文章语义并回答相关问题的技术。
为什么大模型来临,要这么强调MRC?人类基于“物理世界”的阅读理解和机器基于“数字世界”的阅读理解,差异到底有多大?
我们来做个小测验,请你快速阅读下图中的文字。
图1:一段顺序错乱的汉字
汉字顺序不影响阅读,与人脑的阅读习惯有关。人用眼睛看文字时,不是像机器一样,将汉字逐个扫描,而是对一排文字进行区域扫视。人的大脑在理解一些事情时,会下意识地根据已捕捉到的信息进行理解。这就是为什么人在汉字顺序错乱时,仍可以正确地理解句子的意思。
01 人类对“物理世界”的感知和理解
智人所感知的“物理世界”是全方位的、丰富多样的,包含图、文、声音、视频以及所处环境等。
经过几百万年的进化,智人的感官(视觉、听觉等)系统有很强的信息捕捉能力。通常肉眼扫过去,捕捉到的信息不仅仅是内容本身,还包含表达者所使用的文字、符号、图片、表格、加粗、颜色、字体、段落、主次等等,当然,人比机器更容易捕捉到信息,同时也更容易遗忘所捕捉到的信息。
智人会基于直观感受对信息进行过滤、重组、聚焦,甚至人在阅读过程中还会自动纠偏(如图1所示),来确保对知识的理解。
除此之外,智人会在阅读过程中不断脑补内容的历史背景、前因后果等上下文信息。
综上,多模态的信息处理能力,是高等生物在文明进程中天然衍生出来的,对于人类来说是更容易被理解的。
02 机器对“数字世界”的感知和理解
机器所面临的“数字世界”,是单一的进制符,因此首先需要转换格式。
我们给到大模型的语料,是一大坨的longtext或者token,是个大单体。只体现了字符的先后,仍然是一种相对无序且不够清晰的状态。Longtext is longtext , token just token 。
我们给到大模型的语料,其中有很多方便人理解的元素,非常容易被忽略掉。
综上,多模态的信息,在给到机器时是无序且部分缺失的,这造成了“数字世界”的信息差,从而带来了理解偏差。于是我们觉得大模型在玩找规律、概率统计的文字接龙时,有时候表现得很笨,甚至越学越笨。
因此,MRC的重心是Comprehension,即如何更好地被机器理解。
03 MRC的定义
在回答MRC是什么之前,我们先来谈谈MRC不是什么?
1.MRC不是多模态数据解析。多模态数据解析,主要关注数据的完整性(不包含上下文)和一致性。例如如何从多模统一到单模,如何还原内容确保信息不丢失(包括表格识别、标题分级、内容、段落层级、格式等)。
2.MRC不是数据结构化。结构化数据更方便机器阅读理解,但并不意味着就能被理解。
MRC是AI工程的数据建模过程,是“知识FOR人”到“知识FOR机器”的书同文,目的是提供高质量语料。
MRC的本质是AI像人类一样先有本能学习,而不是直接跳到大人看到的文字和影视。我们以前谈到的企业数据要“书同文”,是人在不同领域、不同语种之间进行书写、阅读、理解上的统一化、规范化;而MRC要面对的,则是人与机器之间在阅读理解上如何“书同文”,是AI数据建模的过程,难度和挑战很大。例如:SORA学习物理世界是无根之水,因为人类的视频,并不是人眼的双目裸眼3D的连续学习的,而是平面的片段,然后根据裸眼3D的学习建模经验,去理解现有的影视。而这种裸眼3D格式的的学习数据是极其匮乏的。
说了这么多,MRC到底是什么?我们可以从以下5个方面来尝试理解:
1.数据的可理解,包括完整性(含上下文)、一致性、丰富度、可理解性、标准的统一。因此针对原文,除了继承,也有一定的延伸和扩充。这些扩充包括但不限于技术上的元数据补充,业务语义的扩充,上下文的扩充。
2.流畅、连续的文本不等于信息能够被AI所完全理解和有效对齐。
3.计算机视觉、语音转文字、llamaindex、华为云文档koopage等都是可供调用的原子能力。(llamaindex 是一个利用大型语言模型(LLMs)构建具备情境增强功能的生成式人工智能应用程序的框架)
4.部分结构化数据的补充,对增强AI阅读理解,效果通常比较显著。
5.研发、财经、营销、采购、供应链、制造等领域其实都在思考和实践MRC,只是说法不同。例如制造提到的“知识表示”。
04 MRC的建模过程
接下来我们通过输出会议纪要场景的例子来说明MRC的建模过程。
图2:借助AI工具输出会议纪要的场景
对于汇报人来说,想要输出高质量的会议纪要,哪些环节可以借助AI工具呢?
个人认为可以从以下几个方面获得AI的助力:
1.两个小时的会议助听内容仅仅是“数据”,10分钟的领导点评才是“信息”。即两个小时的会议里,可能被写入纪要的是大领导和周边领导点评的那些信息,自己陈述的部分基本上是可以PASS掉的。所以领导声纹的识别以及密集讲话段落的整理,可能是关键。
2.长时间投屏的PPT,往往是讨论的焦点。以华为的会议为例,通常一个汇报会议,汇报人都会在线投屏播放PPT。PPT通常10页起步,给到每页PPT的陈述时间不足3分钟。因此在纪要信息抽取和提炼环节,要能够识别出该议题中PPT页播放时长远多于其他页的助听时段,抽取关键信息。
3.以高质量的AI数据集作为输入。
……
前面两点总结起来就是,会议过程的语音、视频、文字如何变成机器可理解的MRC,以及对应的元数据、标签。例如哪部分是陈述,哪部分是周边主管建议,哪部分是激烈讨论,哪部分是领导发言,哪部分偏结论,哪部分偏遗留任务,领导建议中提到的关键词都是哪些?哪一段落讨论的特别激烈,大家的语音语调明显提升......
05 谁来定义MRC?
关于谁来定义MRC这个问题,当前有没有组织/流程/IT支持?我认为可以从以下几个方面来解释:
1.业务专家很熟悉具体的业务,但是大模型所需要的知识,应该如何让AI更好地理解,他们不一定清楚。AI算法专家,只清楚AI工程或者数据工程,又不懂业务。因此需要既懂业务又懂AI的专家,来主导AI数据建模,即MRC模板定义。
2.MRC模板,应沿着TOP场景+关键对象来做设计。同一份文档在不同的场景,侧重略有不同。整体来说,应该是基于一个业务对象已有MRC模板,对元素进行针对性的增加和删减,以达到被正确理解和使用的目的。
3.针对MRC定义的流程,仍在持续讨论中。新兴事物的出现,通常都需要一个达成共识的过程。
以上是我对MRC的一些理解,小伙伴们有不同的想法,欢迎在评论区补充与交流。
- 点赞
- 收藏
- 关注作者
评论(0)