华为大咖说丨什么是大模型“MRC”?

举报
华为云PaaS服务小智 发表于 2024/10/21 11:34:32 2024/10/21
【摘要】 本文作者:袁泉(华为AI数据工程专家)全文约2545字,阅读约需8分钟人们在讨论与大模型有关的业务场景或方案时,经常提到MRC,MRC到底是啥?今天我们就来聊一聊这个话题。首先来看一下MRC的定义:Machine Reading Comprehension, 简称MRC,中文翻译为“机器阅读理解”,是一种利用算法使计算机理解文章语义并回答相关问题的技术。为什么大模型来临,要这么强调MRC?人...

本文作者:袁泉(华为AI数据工程专家)全文约2545字,阅读约需8分钟


人们在讨论与大模型有关的业务场景或方案时,经常提到MRCMRC到底是啥?今天我们就来聊一聊这个话题。

首先来看一下MRC的定义Machine Reading Comprehension, 简称MRC,中文翻译为“机器阅读理解”,是一种利用算法使计算机理解文章语义并回答相关问题的技术。

为什么大模型来临,要这么强调MRC?人类基于“物理世界”的阅读理解和机器基于“数字世界”的阅读理解,差异到底有多大?

我们来做个小测验,请你快速阅读下图中的文字。


1:一段顺序错乱的汉字

汉字顺序不影响阅读,与人脑的阅读习惯有关。人用眼睛看文字时,不是像机器一样,将汉字逐个扫描,而是对一排文字进行区域扫视。人的大脑在理解一些事情时,会下意识地根据已捕捉到的信息进行理解。这就是为什么人在汉字顺序错乱时,仍可以正确地理解句子的意思。

 

01  人类对“物理世界”的感知和理解

智人所感知的“物理世界”是全方位的、丰富多样的,包含图、文、声音、视频以及所处环境等。

 

经过几百万年的进化,智人的感官(视觉、听觉等)系统有很强的信息捕捉能力。通常肉眼扫过去,捕捉到的信息不仅仅是内容本身,还包含表达者所使用的文字、符号、图片、表格、加粗、颜色、字体、段落、主次等等,当然,人比机器更容易捕捉到信息,同时也更容易遗忘所捕捉到的信息。

智人会基于直观感受对信息进行过滤、重组、聚焦,甚至人在阅读过程中还会自动纠偏(如图1所示),来确保对知识的理解。

除此之外,智人会在阅读过程中不断脑补内容的历史背景、前因后果等上下文信息。

综上,多模态的信息处理能力,是高等生物在文明进程中天然衍生出来的,对于人类来说是更容易被理解的。

 

02 机器对“数字世界”的感知和理解

机器所面临的“数字世界”,是单一的进制符,因此首先需要转换格式。

我们给到大模型的语料,是一大坨的longtext或者token,是个大单体。只体现了字符的先后,仍然是一种相对无序且不够清晰的状态。Longtext is longtext , token just token

 

我们给到大模型的语料,其中有很多方便人理解的元素,非常容易被忽略掉。

综上,多模态的信息,在给到机器时是无序且部分缺失的,这造成了“数字世界”的信息差,从而带来了理解偏差。于是我们觉得大模型在玩找规律、概率统计的文字接龙时,有时候表现得很笨,甚至越学越笨。

因此,MRC的重心是Comprehension,即如何更好地被机器理解。

 

03 MRC的定义

在回答MRC是什么之前,我们先来谈谈MRC不是什么?

1.MRC不是多模态数据解析。多模态数据解析,主要关注数据的完整性(不包含上下文)和一致性。例如如何从多模统一到单模,如何还原内容确保信息不丢失(包括表格识别、标题分级、内容、段落层级、格式等)

 

2.MRC不是数据结构化。结构化数据更方便机器阅读理解,但并不意味着就能被理解。

MRCAI工程的数据建模过程,是“知识FOR人”到“知识FOR机器”的书同文,目的是提供高质量语料。

MRC的本质是AI像人类一样先有本能学习,而不是直接跳到大人看到的文字和影视。我们以前谈到的企业数据要“书同文”,是人在不同领域、不同语种之间进行书写、阅读、理解上的统一化、规范化;而MRC要面对的,则是人与机器之间在阅读理解上如何“书同文”,是AI数据建模的过程,难度和挑战很大。例如:SORA学习物理世界是无根之水,因为人类的视频,并不是人眼的双目裸眼3D的连续学习的,而是平面的片段,然后根据裸眼3D的学习建模经验,去理解现有的影视。而这种裸眼3D格式的的学习数据是极其匮乏的。

说了这么多,MRC到底是什么?我们可以从以下5个方面来尝试理解:

1.数据的可理解,包括完整性(含上下文)、一致性、丰富度、可理解性、标准的统一。因此针对原文,除了继承,也有一定的延伸和扩充。这些扩充包括但不限于技术上的元数据补充,业务语义的扩充,上下文的扩充。

 

2.流畅、连续的文本不等于信息能够被AI完全理解和有效对齐。

3.计算机视觉、语音转文字、llamaindex、华为云文档koopage等都是可供调用的原子能力。llamaindex 是一个利用大型语言模型(LLMs)构建具备情境增强功能的生成式人工智能应用程序的框架)

4.部分结构化数据的补充,对增强AI阅读理解,效果通常比较显著。

5.研发、财经、营销、采购、供应链、制造等领域其实都在思考和实践MRC,只是说法不同。例如制造提到的“知识表示”。

 

04 MRC的建模过程

接下来我们通过输出会议纪要场景的例子来说明MRC的建模过程。


2:借助AI工具输出会议纪要的场景

 

对于汇报人来说,想要输出高质量的会议纪要,哪些环节可以借助AI工具呢?

个人认为可以从以下几个方面获得AI的助力:

1.两个小时的会议助听内容仅仅是“数据”,10分钟的领导点评才是“信息”。即两个小时的会议里,可能被写入纪要的是大领导和周边领导点评的那些信息,自己陈述的部分基本上是可以PASS掉的。所以领导声纹的识别以及密集讲话段落的整理,可能是关键。

2.长时间投屏的PPT,往往是讨论的焦点。以华为的会议为例,通常一个汇报会议,汇报人都会在线投屏播放PPTPPT通常10页起步,给到每页PPT的陈述时间不足3分钟。因此在纪要信息抽取和提炼环节,要能够识别出该议题中PPT页播放时长远多于其他页的助听时段,抽取关键信息。

3.以高质量的AI数据集作为输入。

……

前面两点总结起来就是,会议过程的语音、视频、文字如何变成机器可理解的MRC,以及对应的元数据、标签。例如哪部分是陈述,哪部分是周边主管建议,哪部分是激烈讨论,哪部分是领导发言,哪部分偏结论,哪部分偏遗留任务,领导建议中提到的关键词都是哪些?哪一段落讨论的特别激烈,大家的语音语调明显提升......

 

05 谁来定义MRC

关于谁来定义MRC这个问题,当前有没有组织/流程/IT支持?我认为可以从以下几个方面来解释:

 

1.业务专家很熟悉具体的业务,但是大模型所需要的知识,应该如何让AI更好地理解,他们不一定清楚。AI算法专家,只清楚AI工程或者数据工程,又不懂业务。因此需要既懂业务又懂AI的专家,来主导AI数据建模,即MRC模板定义。

2.MRC模板,应沿着TOP场景+关键对象来做设计同一份文档在不同的场景,侧重略有不同。整体来说,应该是基于一个业务对象已有MRC模板,对元素进行针对性的增加和删减,以达到被正确理解和使用的目的。

3.针对MRC定义的流程,仍在持续讨论中。新兴事物的出现,通常都需要一个达成共识的过程。

以上是我对MRC的一些理解,小伙伴们有不同的想法,欢迎在评论区补充与交流。

阅读原文

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。