- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

华为大咖说丨什么是大模型“MRC”？

华为云软件工具链发表于 2024/10/21 11:34:32 2024/10/21

【摘要】本文作者：袁泉（华为AI数据工程专家）全文约2545字，阅读约需8分钟人们在讨论与大模型有关的业务场景或方案时，经常提到MRC，MRC到底是啥？今天我们就来聊一聊这个话题。首先来看一下MRC的定义：Machine Reading Comprehension, 简称MRC，中文翻译为“机器阅读理解”，是一种利用算法使计算机理解文章语义并回答相关问题的技术。为什么大模型来临，要这么强调MRC？人...

本文作者：袁泉（华为AI数据工程专家）全文约2545字，阅读约需8分钟

人们在讨论与大模型有关的业务场景或方案时，经常提到MRC，MRC到底是啥？今天我们就来聊一聊这个话题。

首先来看一下MRC的定义：Machine Reading Comprehension, 简称MRC，中文翻译为“机器阅读理解”，是一种利用算法使计算机理解文章语义并回答相关问题的技术。

为什么大模型来临，要这么强调MRC？人类基于“物理世界”的阅读理解和机器基于“数字世界”的阅读理解，差异到底有多大？

我们来做个小测验，请你快速阅读下图中的文字。

图1：一段顺序错乱的汉字

汉字顺序不影响阅读，与人脑的阅读习惯有关。人用眼睛看文字时，不是像机器一样，将汉字逐个扫描，而是对一排文字进行区域扫视。人的大脑在理解一些事情时，会下意识地根据已捕捉到的信息进行理解。这就是为什么人在汉字顺序错乱时，仍可以正确地理解句子的意思。

01 人类对“物理世界”的感知和理解

智人所感知的“物理世界”是全方位的、丰富多样的，包含图、文、声音、视频以及所处环境等。

经过几百万年的进化，智人的感官（视觉、听觉等）系统有很强的信息捕捉能力。通常肉眼扫过去，捕捉到的信息不仅仅是内容本身，还包含表达者所使用的文字、符号、图片、表格、加粗、颜色、字体、段落、主次等等，当然，人比机器更容易捕捉到信息，同时也更容易遗忘所捕捉到的信息。

智人会基于直观感受对信息进行过滤、重组、聚焦，甚至人在阅读过程中还会自动纠偏（如图1所示），来确保对知识的理解。

除此之外，智人会在阅读过程中不断脑补内容的历史背景、前因后果等上下文信息。

综上，多模态的信息处理能力，是高等生物在文明进程中天然衍生出来的，对于人类来说是更容易被理解的。

02 机器对“数字世界”的感知和理解

机器所面临的“数字世界”，是单一的进制符，因此首先需要转换格式。

我们给到大模型的语料，是一大坨的longtext或者token，是个大单体。只体现了字符的先后，仍然是一种相对无序且不够清晰的状态。Longtext is longtext , token just token 。

我们给到大模型的语料，其中有很多方便人理解的元素，非常容易被忽略掉。

综上，多模态的信息，在给到机器时是无序且部分缺失的，这造成了“数字世界”的信息差，从而带来了理解偏差。于是我们觉得大模型在玩找规律、概率统计的文字接龙时，有时候表现得很笨，甚至越学越笨。

因此，MRC的重心是Comprehension，即如何更好地被机器理解。

03 MRC的定义

在回答MRC是什么之前，我们先来谈谈MRC不是什么？

1.MRC不是多模态数据解析。多模态数据解析，主要关注数据的完整性(不包含上下文)和一致性。例如如何从多模统一到单模，如何还原内容确保信息不丢失(包括表格识别、标题分级、内容、段落层级、格式等)。

2.MRC不是数据结构化。结构化数据更方便机器阅读理解，但并不意味着就能被理解。

MRC是AI工程的数据建模过程，是“知识FOR人”到“知识FOR机器”的书同文，目的是提供高质量语料。

MRC的本质是AI像人类一样先有本能学习，而不是直接跳到大人看到的文字和影视。我们以前谈到的企业数据要“书同文”，是人在不同领域、不同语种之间进行书写、阅读、理解上的统一化、规范化；而MRC要面对的，则是人与机器之间在阅读理解上如何“书同文”，是AI数据建模的过程，难度和挑战很大。例如：SORA学习物理世界是无根之水，因为人类的视频，并不是人眼的双目裸眼3D的连续学习的，而是平面的片段，然后根据裸眼3D的学习建模经验，去理解现有的影视。而这种裸眼3D格式的的学习数据是极其匮乏的。

说了这么多，MRC到底是什么？我们可以从以下5个方面来尝试理解：

1.数据的可理解，包括完整性(含上下文)、一致性、丰富度、可理解性、标准的统一。因此针对原文，除了继承，也有一定的延伸和扩充。这些扩充包括但不限于技术上的元数据补充，业务语义的扩充，上下文的扩充。

2.流畅、连续的文本不等于信息能够被AI所完全理解和有效对齐。

3.计算机视觉、语音转文字、llamaindex、华为云文档koopage等都是可供调用的原子能力。（llamaindex 是一个利用大型语言模型（LLMs）构建具备情境增强功能的生成式人工智能应用程序的框架）

4.部分结构化数据的补充，对增强AI阅读理解，效果通常比较显著。

5.研发、财经、营销、采购、供应链、制造等领域其实都在思考和实践MRC，只是说法不同。例如制造提到的“知识表示”。

04 MRC的建模过程

接下来我们通过输出会议纪要场景的例子来说明MRC的建模过程。

图2：借助AI工具输出会议纪要的场景

对于汇报人来说，想要输出高质量的会议纪要，哪些环节可以借助AI工具呢？

个人认为可以从以下几个方面获得AI的助力：

1.两个小时的会议助听内容仅仅是“数据”，10分钟的领导点评才是“信息”。即两个小时的会议里，可能被写入纪要的是大领导和周边领导点评的那些信息，自己陈述的部分基本上是可以PASS掉的。所以领导声纹的识别以及密集讲话段落的整理，可能是关键。

2.长时间投屏的PPT，往往是讨论的焦点。以华为的会议为例，通常一个汇报会议，汇报人都会在线投屏播放PPT。PPT通常10页起步，给到每页PPT的陈述时间不足3分钟。因此在纪要信息抽取和提炼环节，要能够识别出该议题中PPT页播放时长远多于其他页的助听时段，抽取关键信息。

3.以高质量的AI数据集作为输入。

……

前面两点总结起来就是，会议过程的语音、视频、文字如何变成机器可理解的MRC，以及对应的元数据、标签。例如哪部分是陈述，哪部分是周边主管建议，哪部分是激烈讨论，哪部分是领导发言，哪部分偏结论，哪部分偏遗留任务，领导建议中提到的关键词都是哪些？哪一段落讨论的特别激烈，大家的语音语调明显提升......

05 谁来定义MRC？

关于谁来定义MRC这个问题，当前有没有组织/流程/IT支持？我认为可以从以下几个方面来解释：

1.业务专家很熟悉具体的业务，但是大模型所需要的知识，应该如何让AI更好地理解，他们不一定清楚。AI算法专家，只清楚AI工程或者数据工程，又不懂业务。因此需要既懂业务又懂AI的专家，来主导AI数据建模，即MRC模板定义。

2.MRC模板，应沿着TOP场景+关键对象来做设计。同一份文档在不同的场景，侧重略有不同。整体来说，应该是基于一个业务对象已有MRC模板，对元素进行针对性的增加和删减，以达到被正确理解和使用的目的。

3.针对MRC定义的流程，仍在持续讨论中。新兴事物的出现，通常都需要一个达成共识的过程。

以上是我对MRC的一些理解，小伙伴们有不同的想法，欢迎在评论区补充与交流。

阅读原文

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

华为大咖说丨什么是大模型“MRC”？

01 人类对“物理世界”的感知和理解

02 机器对“数字世界”的感知和理解

03 MRC的定义

04 MRC的建模过程

05 谁来定义MRC？

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

华为大咖说丨什么是大模型“MRC”？

01 人类对“物理世界”的感知和理解

02 机器对“数字世界”的感知和理解

03 MRC的定义

04 MRC的建模过程

05 谁来定义MRC？

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品