事理图谱:概念与技术
事理图谱是知识图谱的进阶,承载事理逻辑知识的精髓,以事理知识为核心,涵盖事件之间的逻辑关系,从事理图谱的构建、推理,到表示、应用,内容层层递进,哈工大教授团队多年深耕事理图谱之研究成果,支撑事件推演、根因分析等高阶认知智能研究,构建动态知识库,挖掘人工智能新潜能,从案例到技术,探索事理图谱的无限可能,深度学习与智能推理,开启认知智能新篇章,可作为知识图谱相关课程教材,也可作为事理图谱入门读物
内容简介
知识图谱已在多个领域深耕多年,然而,现有的典型知识图谱主要以实体及其属性和关系为研究核心,缺乏对事理逻辑这一重要人类知识的刻画。为了弥补这一不足,事理图谱应运而生,它能够揭示事件的演化规律和发展逻辑,刻画和记录人类的行为活动。事理图谱是较为典型的多学科交叉领域,涉及知识工程、自然语言处理、机器学习、图数据库等多个领域。
本书系统地介绍了事理图谱涉及的概念和关键技术,如事理图谱概述、事理知识表示、事件抽取、事件模式的自动归纳、事件关系抽取、事件表示学习、事件泛化及事理归纳、事理知识存储和检索、基于事理图谱的认知推理与预测、基于事理图谱的问答与对话等。此外,本书还尝试将前沿的学术理论和实战结合,让读者在掌握实际应用能力的同时对前沿技术发展有所了解。
本书主要面向高年级本科生和研究生,可以作为知识图谱相关课程的教材,也可以作为对事理图谱感兴趣的读者的入门读物。
作者简介
丁效,哈尔滨工业大学教授、博士生导师、社会计算与信息检索研究中心副主任。主要研究方向为人工智能、自然语言处理、事理图谱、因果推理。在TKDE、ACL、AAAI、IJCAI等人工智能领域的顶级国际期刊和会议上发表相关论文80余篇,承担国家部委项目、科技部科技创新2030—“新一代人工智能”重大项目课题、国家自然科学基金重点项目课题、面上项目、黑龙江省优青项目等多项省部级以上项目。获国家级教学成果二等奖,黑龙江省科学技术一等奖,黑龙江省科学技术二等奖,ACL 2024杰出论文奖,SemEval 2020国际语义评测“检测反事实陈述”任务第一名,入选2022年AI 2000全球人工智能最具影响力学者、华为云AI名师奖等,担任中国中文信息学会社会媒体处理专委会秘书长、黑龙江省中文信息处理重点实验室副主任等职务。
刘挺,哈尔滨工业大学教授、博士生导师、副校长,国家高层次人才。工业和信息化部高新技术司“智能机器人”专家组专家、电子信息科学技术委员会信息服务组副组长,教育部人工智能科技创新专家组成员,国家人工智能产教融合创新平台负责人,认知智能与内容安全教育部重点实验室主任,中文信息处理黑龙江省重点实验室主任,中国计算机学会会士,中国中文信息学会副理事长,黑龙江省“人工智能”头雁团队带头人。曾主持国家重点研发计划项目、国家973课题、基金重点项目。获国家科技进步二等奖(排名第4)、黑龙江省科技进步一等奖(排名第1)。
秦兵,哈尔滨工业大学教授、博士生导师、社会计算与信息检索研究中心主任。国家重点研发课题、国家自然科学基金重点项目负责人。科技部科技创新2030—“新一代人工智能”重大项目管理专家组专家,中国中文信息学会常务理事、语言与知识计算专委会副主任、情感计算专委会主任,黑龙江省计算机学会自然语言处理专委会主任。主持多项国家及省部级项目,获中文信息学会钱伟长中文信息处理科学技术奖一等奖、黑龙江省科学技术一等奖、黑龙江省科学技术二等奖。入选“2020年度人工智能全球女性及AI 2000最具影响力学者榜单”和“福布斯中国2020科技女性榜”,连续四年(2020-2023)入选爱思唯尔高被引学者榜单。
内容展示
人类迈入人工智能时代,技术的发展使得机器可以从大数据中提取信息,将其串联成知识,学习模仿人类的智慧,从而可以应用到各行各业,辅助人类处理知识业务型工作。知识图谱作为认知智能的核心技术已在金融、电商、医疗等各个领域深耕细作多年,逐渐显现出巨大的应用价值。随着深度学习的兴起,人工智能迎来了新的发展高潮。人工智能的一个发展瓶颈在于,如何让机器掌握人类知识。例如,人类都知道兔子有四条腿而鸡有两条腿,但是机器却很难获取到这样的常识知识,因此机器自动解答“鸡兔同笼”等类型的数学问题仍然十分困难。人类能够轻易理解“吃过饭”后就“不饿”这样的事理常识知识,而让机器理解并掌握大量这样的知识是一件极其困难的事情,但这是通往强人工智能的必由之路。在众多类型的人类知识中,事理逻辑是一种非常重要且普遍存在的知识。
人工智能的很多应用都依赖于对事理逻辑知识的深刻理解。在通用领域,以隐式消费意图识别为例,只有让机器知道“结婚”事件伴随着后续一系列消费事件,例如“买房子”、“买汽车”和“去旅行”,才能使其在观察到“结婚”事件的时候,准确地识别出用户潜在的隐式消费意图,进而向目标用户做出精准的产品推荐。而在特定领域,如金融领域,股市一般伴随着短期内随机事件产生的小波动,以及长期内重大事件驱动的大波动。例如,近来随着人工智能迎来发展高潮,以及我国将人工智能列为国家发展战略,人工智能企业的股价迎来了一波大涨。事件驱动的股市预测悄然兴起。从金融文本中挖掘“粮食减产”导致“农产品价格上涨”,再导致“通货膨胀”,进而导致“股市下跌”这样的远距离事件依赖,对于事件驱动的股市涨跌预测非常有价值。事理逻辑知识的挖掘与知识库构建迫在眉睫,这将极大地推动多项人工智能应用的发展。
事件是人类社会的核心特征之一,人们的社会活动往往是由事件驱动的。事件之间在时间维度上相继发生的演化规律和模式是一种十分有价值的知识,挖掘这种事理逻辑知识对认识人类行为和社会发展变化规律非常有意义。然而,当前无论是知识图谱还是语义网络等知识库,其核心研究对象——主体都不是事件。尽管传统知识图谱在现代搜索引擎(例如Google、Bing、Baidu等商业搜索引擎)中得到了广泛应用,但是其聚焦于实体和实体之间的关系,缺乏对事理逻辑知识的挖掘。事理逻辑知识,包括事件之间的顺承、因果、条件和上下位等关系,对于人工智能领域的多种任务都具有非常巨大的价值。为了揭示事件的演化规律和发展模式,本书提出了事理图谱的概念,旨在将文本中对事件及其关系的描述抽取并抽象出来,构建一个有向图形式的事理知识库。
2016年7月,哈尔滨工业大学(以下简称“哈工大”)社会计算与信息检索研究中心(HIT-SCIR)开始启动事理图谱的研究工作。2017年10月,研究中心在中国计算机大会上正式提出事理图谱的概念;2018年9月推出中文金融领域事理图谱1.0版本;2019年7月在哈工大举办首届事理图谱研讨会并发布中文金融领域事理图谱2.0版本。2021年12月,在中国计算机大会上举办了第二届事理图谱研讨会,并发布了通用域事理图谱1.0版本(事理永动机,可以实时获取数据并自动更新事理图谱中的知识)。2022年3月,“事理图谱”作为专业术语由中国计算机学会发布。经过近8年的发展,事理图谱的概念逐渐被学术界和产业界所接受并认可,事理图谱的第一篇论文Deep Learning for Stock Prediction已被引用900余次,并且被多位国内外知名学者引用。基于事理知识迁移进行认知推理的论文Story Ending Prediction by Transferable BERT被OpenAI实验室GPT-3论文Language Models are Few-Shot Learners引用并对比,在故事结尾预测认知推理任务上的准确率比我们提出的模型低4.1%!
在GPT-3.5时代以前,可以说以知识图谱和事理图谱为代表的知识库在自然语言处理任务中发挥了重要作用,尤其在推理任务上可以提供可解释性的推理证据,在问答或人机对话任务上可以提供丰富的背景知识和对话逻辑。然而,随着以ChatGPT为代表的大语言模型横空出世,在自然语言处理任务中是否还有必要使用知识图谱成了热门话题。从最开始的知识无用论到现在,越来越多的学者聚焦于如何利用知识改变大语言模型的幻觉问题,以及知识增强的常识知识问题、可解释性推理问题等。
因此,本书系统性地梳理了事理图谱的相关研究内容:事理图谱概述、事理知识表示、事件抽取、事件模式自动归纳、事件关系抽取、事件表示学习、事件泛化及事理归纳、事理知识存储和检索、基于事理图谱的认知推理、基于事理图谱的应用。事理区别于事件最大的特点在于,事理是对事件的归纳和泛化,具体的事件每天都在发生,而能够积累成知识的是事件的演化规律和模式,这被我们称为“事理”。通过本书的介绍,读者能够对事理图谱有一个系统全面的了解。同时,本书也在最后两章试图去回答大语言模型时代事理图谱还有什么用,以及如何使用事理图谱。当然,这项工作还在不断的探索之中,后续的研究成果会不断地更新并补充进来。
本书主要面向高年级本科生和研究生,可以作为知识图谱相关课程的教材,也可以作为对事理图谱感兴趣的读者的入门读物。在撰写本书的过程中,作者尽量平衡学生的知识储备水平与内容完备性之间的关系。在内容选择上,尽量系统性地介绍事理图谱的相关概念。有志于从事事理图谱研究的读者,可以进一步拓展阅读事理图谱相关领域的论文。由于事理图谱涉及很多机器学习、自然语言处理的相关知识,因此建议读者在阅读本书前系统地学习机器学习、深度学习、自然语言处理的相关课程。
本书的写作过程得到了众多专家和同学的大力支持与帮助。特别感谢李忠阳博士、石继豪博士、吴婷婷博士、杜理博士、蔡碧波博士、熊凯博士、高靖龙博士等为本书的撰写提供帮助。尽管从本书的提纲结构讨论开始,我们就保持着最严肃认真的态度,但越是临近本书付梓之际,我们越是惶恐不安。事理图谱是一个新兴研究方向,很多内容还需要进一步探索挖掘,研究内容纷繁复杂,受限于认知水平和所从事的研究工作的局限性,我们对其中一些任务和工作的细节理解可能存在偏差,也恳请专家、读者批评指正,你们的意见对我们非常重要。
最后,衷心地感谢一直在支持、关注并投入事理图谱相关研究工作的同人,是大家的持续攻关才使得事理图谱能够成为一个研究方向,本书才能够成体系地梳理相关研究内容及研究成果。感谢我的家人给予我他们所能做到的一切,对我的工作提供支持与帮助;是他们承担了几乎全部的家务,才使我能够专注于科研及书稿撰写工作,感谢我的两个孩子丁彦兮、丁泽熙,他们总能够在我疲惫时给予我纯真的微笑,使我重新充满力量,继续带领学生去探索更多的未知领域,感谢家人的默默付出!
- 点赞
- 收藏
- 关注作者
评论(0)