即使是AI界“网红” 知识图谱也曾经历40年的生不逢时
Knowing yourself is the beginning of all wisdom.
智者始于自知
——亚里士多德
当人工智能再次火热之后, 却因缺乏“知识”面临冷启动。
知识图谱的本质是知识关联, 基于已有的经验和知识,“告知”计算机,并让它利用这些知识解决问题。
可以说, 人工智能先有“人工”(知识和经验),后“智能”
也怪不得知识图谱成为了人工智能领域
当之无愧的“网红”
“网红“修炼史
实际上,从 1956 年人工智能这个概念提出开始,脑洞大开的学者们相继提出了三个研究学派,分别是:符号主义、连接主义和行为主义。初衷都是希望机器模拟人的思维来思考。
其中一大流派是符号主义,主要技术是AI知识工程中的知识表示理论。它研究的是如何将人类的知识用计算机可以理解的语言表达出来,以及如何让计算机在这些知识上进行推理。
在这一派学者孜孜不倦的努力研究下,知识表示也在不停地换名字:
从60年代从语义网络兴起
到上世纪70年代的“专家系统(ExpertSystem)”
尤其是70年代中期以来,知识表示领域专家
认识到知识的获取乃是构建强大AI系统的关键所在,
利用哲学领域的本体论创建计算机模型并不断演进
……
1990年代的贝叶斯网络
到万维网之父Berners-Lee提出“语义网(SemanticWeb)”
再到他后来提出的“链接数据(LinkedData)”
……
都是“知识图谱”的前身。
BUT——生不逢时
经历40多年的发展,走出实验室并不容易。
受限于:
· 数据没有公开,即On the web;
· 技术不成熟,需要知识表示与推理、数据库、信息检索、自然语言处理等多种技术发展的融合;
· 数据标准问题,Machine-readable,很多数据格式不同或各家定义不同,导致机器不能识别;
解决这些问题,最后才是让数据产生互联。
更为重要的是,太超前的技术往往找不到大规模应用领域……
最常用的如Dublin Core系统,解决了电子资源的标准问题,并利用XML和RDF进行了技术实现,解决图书馆(图书)和医院(医药)繁复的编目问题,非常具有实用性。
直到2010年,发生了一件事情,
Google收购了一家名为MetaWeb的公司。
这家公司的目标是创建世界的数据库,一个能够容纳世界全部信息的地方。
收购确确实实影响了如今搜索领域中很多重大的改进:
在曾经简单的「十行蓝色链接」之上附加了丰富的类似于卷宗档案一样的内容,涉及人物、地点、物品等等,一应俱全。
通用型知识图谱诞生
2012年谷歌做搜索正式发布被称为一大战略性意义的产品:知识图谱(Knowledge Graph)
这也是我们现在称作的基于互联网上的文本数据建立关系的“通用型知识图谱”。
举个栗子:如果你要查一首诗词,如果按照关键词,就只能查出诗词的内容,但是知识图谱技术却可以告诉你作者、年代、背景、释义。
这款产品打开了知识图谱的一大应用——搜索,知识图谱技术终于从实验室走出来并深入到真实业务中。
各个机构也开始着手打造各种知识库:
甚至,
LinkedOpen Data这个组织开放出欧洲和美国的一部分做出了互联数据云。
当然,Open KG(中国开放知识图谱联盟)的目标也要做一个中国版本的开放数据云。
那么,为什么大家不遗余力的做这件事呢?
人类走过了农业社会、工业社会、信息社会,进入到用智能社会,主要区别于在于生产资料和生产工具的变化。
如今,劳动工具转向了基于数据、信息、知识、价值的智能工具,典型如AlphaGo,成功将连接主义学派的深度学习被大众重新认知;
但即使演进到AlphaGo、AlphaZero,仍无法在规则知识缺位的情况下对弈。
这是因为:
人类的先验经验和知识:
理学的数学、物理学、生物学、心理学……
工学的计算机科学与技术……
文学的应用语言学……
所组成的知识图谱
将会是智能社会的重要生产资料。
事实型知识图谱
近年来知识图谱愈发受人关注不仅仅是因为这些互联网数据互链,而是在真实世界又发生了一件大事:
Platantir建立了通过线下刷卡、银行转账、犯罪记录等数据建立了实体关系,我们称之为了“事实型知识图谱”。
基于此:
它最传奇的战绩是发现麦道夫“庞氏骗局”。美国证监会旗下某组织曾爆料称,他们使用Palantir的软件,整合了40年的记录及海量数据,在进行复杂的大数据分析之后,发现了纳斯达克前主席麦道夫(Bernie Madoff)的“庞氏骗局”。Palantir帮助多家银行追回了麦道夫隐藏起来的数十亿美元巨款。
对了,其中一个创始人,就是《从0到1》这本轰动全球的作者。
随着Palantir公司财务数据指数型增长,针对各个行业的企业级知识图谱服务变成了网红。
从1到∞,行业知识图谱……
如今,在智能客服、金融、公安、航空、医疗等“知识密集型”领域被广泛应用。
智能客服:比如百分点为“青年之声”搭建的自动问答平台,对用户提出的问题进行智能分析和分类,建立内部体系,并通过深度学习对词语进行训练,为全国8000万团员提供专业解答。
金融领域:通过知识图谱能够查询到用户的二度、三度好友,建立关系网络,通过一定的指标规则来实现对用户的风险识别,为金控反欺诈预警提供业务支持。
医疗领域:利用知识图谱区分疾病扩散人群
影响传染病发传播的因素非常多,不仅包含传染病发作、收治、诊疗、传播、致死等防控数据,还涉及人口基本数据、经济发展情况、气候与自然地理数据,乃至火车站等人口密集地点的交通基础数据和流动人口数据,采集并整理这些数据门槛非常高,通过构建知识图谱将人群进行关联,就可以发现疾病扩散人群。
公安领域:预防犯罪分析
利用知识图谱搭建百分点异常聚集模型,可以随时掌握调查人员之间的通讯、位置、事件、社交关系等信息,验证犯罪线索,及时发现热点事件的发展、传播与关键点,提早做出感知和准确识别。
航空领域:突发事件决策支持
2014年法航公司发生的飞行员为期10天以上的大规模罢工事件中,多次航班因此取消。借助知识图谱,建立事件知识图谱、行程知识图谱、航班知识图谱,实时了解航空公司航班动态和航班号等信息,从而为航空公司决策做辅助。
行业业务中的先验经验和知识是万分宝贵的,在跨界应用过程中,也会逐步形成行业甚至世界范围内的数据标准。
可以预料到,人工智能的进一步发展一定会依赖于各行各业知识图谱的建设。
最后
行业知识图谱是AI进步的阶梯。
- 点赞
- 收藏
- 关注作者
评论(0)