又上央视了,华为云为中国考古做贡献

举报
华为云头条 发表于 2022/02/28 20:34:06 2022/02/28
【摘要】 这次是央视纪录频道,感觉超有文化的样子

最近总上央视,从CCTV2到CCTV9~~

这次上央视,云宝可没空着手回来,给各位带来了一个暴富小技巧!

 

CCTV-9纪录频道近日隆重推出人文历史系列纪录片《甲骨王朝》,揭开商王朝的神秘面纱,还原商王朝的历史面貌。

在第六集,华为云AI团队携手首都师范大学甲骨文研究中心莫伯峰教授,基于华为云ModelArts一站式AI开发平台等服务,发起了一场文化跨界科技的标杆性实验。双方共同打造了甲骨文字形匹配甲骨文语义推理两个AI模型,为甲骨文的研究工作插上科技的翅膀。

微信图片_20220228202616.png

▲央视纪录片《甲骨王朝》截图

要知道,中国文字博物馆曾发布天价悬赏求“认字”,“破译一个甲骨文字奖励10万元”!云宝有了这AI模型,真的要暴富啦!

奖励10万.png

▲央视纪录片《甲骨王朝》截图

不开玩笑了,认真说。甲骨文字的识别对于中国考古的重大意义不言而喻,但距离甲骨文被创造已三千余年,每个文字的形体、意义、读音都发生了剧烈变化,且“一字多形、一字多义”,辨识难度极大,工作十分繁重。

微信图片_20220228202631.png

▲出自《汉语词典》(黄扬主编) 它们都是“龟”字,侧面俯视就算了 第四个六条腿是怎么回事

那么,为了帮助甲骨文的破解,华为云做了些什么呢?

字形匹配模型

洞悉文字变迁的规律

图片1.png

▲央视纪录片《甲骨王朝》视频画面

为帮助未考释的甲骨文揭开神秘面纱,华为云AI团队首先为莫伯峰教授打造了字形匹配模型,“推演”是该模型的主要任务代号。在早期,文字的变迁主要是基于字形逐渐演变的。相邻朝代中,字形的变化通常有迹可循。沿着文字发展的脉络进行字形对比,是甲骨学家重要的破译方法。华为云的字形匹配模型正是基于这种规律,通过检索与单个甲骨文字符字形相似的金文字符,来帮助实现甲骨文的破译。

图片2.png

▲央视纪录片《甲骨王朝》视频画面

将大量甲骨文与金文录入到计算机系统后,华为云AI工程师利用神经网络等技术,训练出帮助识别甲骨文的字形匹配模型,让AI掌握从甲骨文到金文再到现代文的文字发展规律,并模拟专家的破译思路。“机器识别与人的识别效果非常接近”,莫伯峰教授这样说道。同时,模型推理出的关于甲骨文-金文的匹配结果,往往能给甲骨学家们一些关于字形演变的新的思考。

微信图片_20220228202655.png

▲首都师范大学甲骨文研究中心莫伯峰教授

然而,对甲骨文考释而言,能够从文字相似度的角度来破译的未释字数量相对有限,字形匹配模型的应用能解决的问题仅为冰山一角。剩余的“文化密码”,也许需要一个全新的破解思路。

语义推理模型

帮助推理文字的AI界福尔摩斯

让AI学习专家在古文字考释中常见的“辞例归纳法”,是华为云AI团队在该项目中的另一项创新。所谓“辞例归纳”,意即根据上下文语境推理出某个字或某词组的含义。比如当我们使用计算机和手机的联想输入法,只要输入一些内容,就能自动预测接下来可能会搭配的文字,这种预测其实就是根据之前的语境和辞例归纳出来的,也就是机器的“辞例归纳”。

为让AI与人类一样具备识文断句、上下文理解及推理能力,在模型构建环节,华为云AI团队以8亿字的《四库全书》作为语料结合通假字、同音字等古文规则,培养人工智能的语感,同时也能让人工智能系统化地学习汉朝至清乾隆时期的中国古典文化。

团队以已经具有成熟释文文本的战国楚竹书《上博简》(1-9)中的2103个字作为测试对象,随机遮蔽某个文字,并让模型预测遮蔽处的文字含义。语义推理模型可以在备选字符中为遮蔽处推选出五个可能的正确选项,有效地帮助专家缩窄探索范围。

图片3.png

▲央视纪录片《甲骨王朝》截图

正确理解一片甲骨刻辞,并不仅取决于所有文字是否可识,更重要的是能否读懂刻辞内容。接下来,团队一方面计划引入华为云盘古大模型,基于其优秀的泛化能力,解决甲骨文研究领域知识和数据不足的瓶颈。另一方面,团队计划构建关于甲骨文的知识图谱,承载既有的研究成果,用图网络的形式展示甲骨拓片所蕴藏的丰富信息,从更高维度的视角来推动甲骨文的研究。

贾永利.png

▲华为云人工智能领域总裁贾永利

华为云人工智能领域总裁贾永利表示,新兴技术让学界专家得以将人类经验与计算机自然语言相结合。通过AI对甲骨文研究的赋能,早期文明史的探索步伐将迈上新的台阶,蕴含在珍贵文物中的优秀传统文化将能更好地实现创新性发展。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。