建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
论坛首页 版块 云生态云享专家 ​【云享专家·微话题】Mr.FangYang与您探讨图数据和图...

云享专家

发帖: 18粉丝: 4

级别 : 版主

Rank: 7Rank: 7Rank: 7

发消息 + 关注

发表于2018-8-26 17:41:20 187810 楼主 显示全部楼层
​【云享专家·微话题】Mr.FangYang与您探讨图数据和图计算,赢《图论》书籍

880x350.jpg


本期【云享专家·微话题】由云享专家 Mr.FangYang 与大家一起探讨“图数据和图计算”,希望大家能够畅所欲言。如果大家有其他相关的问题,也可以在本帖回复直接咨询云享专家 Mr.FangYang 。


=======【云享专家·微话题】图数据和图计算 =======


“六度空间”理论或许很多人都听说过,即最多通过5个中间人你就能够认识世界上任何一个陌生人,或许觉得不可思议,但却越来越被证明其正确性。如今,随着5G和IOT的飞速发展,万物互联的智能世界正在逐渐的形成中,一个个的信息孤岛被打破,数据得以汇聚,并得到爆发性增长,万物之间的关联关系越来越紧密,也越来越复杂。如何从海量关系数据中挖掘中更有价值的信息,从“万物互联”到“万物感知”,再到“万物智能”,是图计算一直以来研究的方向。图计算可以从海量的社交关系、丰富的信息传播、庞大的通讯网络、年年破记录的订购记录里,找到属于你心中的那个“陌生人”。

 

其实很多人在生活中无时不刻的在接触图(关系)数据和图计算,今天我们一起来讨论,希望看到大家精彩的评论:

1、讲讲你生活中有哪些数据是典型的图(关系)数据结构?

2、讲讲你所接触过的或听说过的图计算的典型应用场景?

3、讲讲你所知道的,相比于关系型数据库,图计算技术在处理关系数据上的优点。

4、讲讲你所用过的图数据库或者图引擎,以及对TA不满意的地方?


微话题活动:参与本次微话题讨论,有机会获得优质评论奖

活动时间:2018年8月27日-9月9日

参与方式:直接在本帖回复你关于以上4个问题的理解或评论

获奖方式:活动结束后,将由云享专家 Mr.FangYang 选取出3名优质评论奖,各送出《图论》书籍1本。


image.png


回复 举报
分享

分享文章到朋友圈

分享文章到微博

ecstatic

发帖: 6粉丝: 2

级别 : 版主

Rank: 7Rank: 7Rank: 7

发消息 + 关注

发表于2018-8-27 15:08:26 沙发 显示全部楼层

1、讲讲你生活中有哪些数据是典型的图(关系)数据结构?

      a.延禧攻略中乾隆皇帝和他的后宫

      b.地铁环线

      c.初中的小灯泡电池开关电路

2、讲讲你所接触过的或听说过的图计算的典型应用场景?

      金融行业应用
      反欺诈多维关联分析场景
通过图分析可以清楚地知道洗钱网络及相关嫌疑,例如对用户所使用的帐号、发生交易时的IP地址、MAC地址、手机IMEI号等进行关联分析。

      社交网络图谱
      在社交网络中,公司、员工、技能的信息,这些都是节点,它们之间的关系和朋友之间的关系都是边,在这里面图数据库可以做一些非常复杂的公司之间关系的查询。比如说公司到员工、员工到其他公司,从中找类似的公司、相似的公司,都可以在这个系统内完成。

     企业关系图谱
图数据库可以对各种企业进行信息图谱的建立,包括最基本的工商信息,包括何时注册、谁注册、注册资本、在何处办公、经营范围、高管架构。围绕企业的经营范围,继续细化去查询企业究竟有哪些产品或服务,例如通过企业名称查询到企业的自媒体,从而给予其更多关注和了解。另外也包括对企业的产品和服务的数据关联,查看该企业有没有令人信服的自主知识产权和相关资质来支撑业务的开展。

企业在日常经营中,与客户、合作伙伴、渠道方、投资者都会打交道,这也决定了企业对社会各个领域都广有涉猎,呈现面错综复杂,因此可以通过企业数据图谱来查询,层层挖掘信息。基于图数据的企业信息查询可以真正了解企业的方方面面,而不再是传统单一的工商信息查询。


3、讲讲你所知道的,相比于关系型数据库,图计算技术在处理关系数据上的优点。

       1.图数据库不仅可以导入传统关系型数据库中的结构化数据,也可以是文本数据、社交数据、机器日志数据、实时流数据等。          2.计算结果可以通过标准的可视化界面展现出来,商业化的图数据库产品还应该能将图数据库中的数据进一步导出至第三方数据分析平台做进一步的数据分析。
      3.目前图数据库的巨大用途得到了认可,它跟不同领域的很多问题都有关联。最常用的图论算法包括各种类型的最短路径计算、测地线(Geodesic Path)、集中度测量(如PageRank、特征向量集中度、亲密度、关系度、HITS等)。

4、讲讲你所用过的图数据库或者图引擎,以及对TA不满意的地方?

    流行的图数据库有Neo4J、InfiniteGraph、GraphSQL这些,他们也有存在一些缺点的:

  1. 记录大量基于事件的数据(例如日志条目或传感器数据);

  2. 对大规模分布式数据进行处理,类似于Hadoop;

  3. 二进制数据存储;

  4. 适合于保存在关系型数据库中的结构化数据。


点评

顶你: 5.0
顶你: 5
  发表于 2018-9-3 23:46
点赞2 回复 举报

建赟

发帖: 56粉丝: 3

级别 : 版主

Rank: 7Rank: 7Rank: 7

发消息 + 关注

发表于2018-8-28 22:48:15 板凳 显示全部楼层

一、讲讲你生活中有哪些数据是典型的图(关系)数据结构?


生活中常见的图数据结构像Facebook和Twitter这样的社交网络,其数据天生就适合于图表示法。诸多典型的大数据应用易于通过图来进行建模,如交通网络、CDR通话图、用户与产品之间的二分图、论文中作者之间的合作关系网、文章之间的索引关系、金融交易网络等等。


二、讲讲你所接触过的或听说过的图计算的典型应用场景?


图计算的英文名为Graph Computing,主要通过对于海量数据的关联和关系分析,形成知识及知识图谱Knowledge Graph。简单来说,人工智能想要理解世界,就要对整个现实世界有一个客观、完整、全面的认识,图计算能够把任何事物之间的所有关系全部刻画出来,形成完整的描述,这就是知识。例如在金融欺诈预测中,通过每个人的金融交易信息,构建和分析其交易关系网络和社交网络等关系网络,再根据这些资金交易关系网络发现个体或者群体是否存在异常的交易行为,这样一来就能轻松检测出这个人有没有参与洗钱的活动。

       图计算技术的应用场景

1、互联网应用

场景特点:数据量大,增长迅速,数据类型丰富,实时性要求高

典型应用:好友/商品/资讯推荐、异常行为分析、舆情/社会化聆听

11.png

2、知识图谱应用

场景特点:基于知识实体的多跳查询,同义词/近义词较多,同时需要具备较好的可解释性。

典型应用:智能问答、知识消岐、学习路径推荐

12.png

3、金融风控应用

场景特点:数据类型丰富,但不完整,需要具备一定的推理分析能力

典型应用:实时欺诈检测、失联人员追踪

13.png

4、城市工业应用

场景特点:数据量相对较小且实体、关系数较为稳定,但数据更新频繁,侧重于全局分析。

典型应用:管道压力调节、城市路网调控

14.png

5、企业IT应用

场景特点:连接层次较多,环境约束复杂,分析过程需要自动化,同时需要一定的可视化能力。

典型应用:路径规划、根因关联分析、基础设施管理

15.png


三、讲讲你所知道的,相比于关系型数据库,图计算技术在处理关系数据上的优点。


   几十年来,人们都是利用关系型数据库进行数据存储和数据处理的,但是面对如今的大数据时代,数据之间的复杂度大幅度增加,数据之间高度关联,数据具有极强的动态性,对这种大体量、关联复杂的数据的洞察需求也日益迫切,数据之间的关联洞察成为探查数据价值的重要方面和未来赢得竞争的优势。图计算技术就是应对这样纷繁复杂时间的有效技术:图由节点(即实体)和边(即实体之间的关系)组成,目前在物联网、通信、互联网、金融以及社交网络等领域已经积累了庞大的图数据,并且还在不断增长。传统的基于关系型数据库来处理关联关系的技术手段和计算模式都无法满足这样的需求:关联查询效率低下,代价高昂。我们需要的是在一个问题域中的关系的完整刻画,并且具备丰富的、高效的和敏捷的数据分析能力。因此,基于节点和边的方式存储和计算的图数据库,能够建构任意复杂的网络和模型,完整形象地映射我们的问题域。

  图数据库由于采用原生图存储,因此在处理关联数据方面具有很强的性能优势,可以从“分钟级”达到“毫秒级”。另外由于图数据的结构是完全动态的,因此数据的添加和删除,即数据的变更将变得异常灵活和简单。第三,图数据是schema-free(免模式)的,可以依赖图来断言和检验之前的数据建模和业务规则。


四、讲讲你所用过的图数据库或者图引擎,以及对TA不满意的地方?


未来的世界是数据驱动的世界,而数据潜力的发掘在过去仅仅是发生在表层。图数据库和基于图的认知技术可以帮助人们了解数据之间的关联、洞察数据背后的含义、进而充分发挥数据的价值。无论是应用在社交、互联网还是金融行业,图数据都可以帮助我们解决复杂的商业问题,构建企业在未来大数据和人工智能时代的核心竞争力。

 对整个图计算领域可进一步细分为查询分析、计算引擎、存储管理、可视化等子方向。目前并没有一种涵盖所有子方向的图引擎。例如图数据库Neo4j、Titan等擅长于图数据的实时查询,但并不能高效地对图数据进行离线分析;分析引擎Turi、GraphX侧重图数据的离线分析和挖掘,却不能对属性图进行管理,且不支持实时查询。

       同时,图计算领域也面临大数据环境下带来的巨大挑战。就当前的社交网络而言,对全网做查询分析就意味着对数十亿节点(人物)数百亿边(关系)的大图进行操作。而规模更大的互联网、物联网可达到百亿节点千亿边甚至以上。在如此巨大数据量的情况下,实现高效高并发的查询是当前一大难点。

        一方面,鉴于图数据结构的稀疏性,并不能通过GPU等硬件手段上取得很好的加速。

       另一方面,图的局部性也有别于传统机器学习系统的数据组织形式。

比如:社交网络中一个人的平均好友数达到数百,那他的2度好友就会达到数十万之多,于是探索一个人ego-net(对图中某节点做扩线查询得到的子图)往往会遍历上千万甚至更多条边。

        在多机环境下,这些边往往分布在不同的机器上,进一步增大了遍历的难度。此外,随着数据复杂性的增加,节点和边往往带有属性信息。这些信息既可以是固有属性(如年龄、性别等),也可以是计算得到的结果(如介数中心度、pagerank值等),这些计算结果往往又是下一次查询的输入。属性管理与交互式计算查询,是图领域的另一大挑战。


点评

顶你: 5.0
顶你: 5
  发表于 2018-9-3 23:47
点赞2 回复 举报

zenstar

发帖: 0粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-8-31 22:22:10 地板 显示全部楼层

1、讲讲你生活中有哪些数据是典型的图(关系)数据结构?

    地图、互联网(节点是网页,连接是超链接)、电路、任务调度(工序的先后)、商业交易(买卖信息)、高考填志愿(匹配配对)、有线/无线网络通信、社交网络。

 

2、讲讲你所接触过的或听说过的图计算的典型应用场景?

    1)优先级限制下的任务调度问题(选课)

    给定一组任务并安排它们的执行顺序,限制条件是这些任务的执行方法、起始时间、耗时、消耗的资源等一个或几个,其中最重要的限制是优先级限制,它指明了哪些任务必须在哪些任务之前完成,不同类型的限制条件会产生不同类型不同难度的调度问题。

    比如对于一位大学生,专业有培养计划,培养计划中的课程为该大学生毕业所需要修读完的,其中某些课程是其他课程的先导课程,比如《微积分》是《常微分方程》的先导课程。为了毕业,就要合理安排课程。

    这里可以用有向图来建模这个问题。顶点对应任务,有向边对应优先级顺序,并且把课程名称用整数的顶点编号表示。那么这时候优先级限制下的调度问题就等效为了拓扑排序问题。先检测是否有有向环,若有,则无法进行拓扑排序(如果有两门课互相作为彼此的前置课程,那这两门课都别想学了...),再使用拓扑排序算法解决问题。

    *拓扑排序:给定一个有向图,将所有顶点排序,使所有有向边均从排在前面的元素指向排在后面的元素(或做不到)。

    

    2)从汇率市场中套取利润

    每个货币看做是一个顶点,边对应汇率,边的权重认为是具体的汇率值,比如美元兑人民币的汇率目前是6.8321,对应权重为6.8321。如果要执行人民币换美元的操作,最直接的就是通过人民币/美元汇率兑换相应的美元,也可以先将人民币兑换成欧元,再兑换成美元,当然中间可以增加更多环节,也许其中的某一种兑换流程可以获得比其他流程更多的美元。对于汇率市场这个加权有向图来说,找到最优的兑换路径相当于找到从人民币到美元路径中哪条路径对应边的权重之积最大。手持1000人民币,直接换美元能拿到146.37美元,但也许存在一条换汇路径,可以获得147美元,这样就获得了最大的收益。

    当然有一种特殊情况,就是将起点和终点设置为同一点,如果存在一条路径,所有边的权重之积大于1,那么就能通过这样的操作获得获得更多的人民币。假设权重积为1.003,那么1000人民币变成了1003人民币,如果本金大、快速多次进行这样的操作,那么获得的收益非常可观。当然这里简化了很多诸如手续费、交易金额上限等限制,实际中的操盘者在建模中会充分考虑到各种因素,进行套汇计算。套汇在国内是违法的。

    参考资料:Robert Sedgewick, Kevin Wayne, Algorigthms (4th **).


3、讲讲你所知道的,相比于关系型数据库,图计算技术在处理关系数据上的优点。

    1)图计算技术表达能力强,适合表达多种复杂关系、支持丰富语义。传统的关系型数据库,在处理1对1或者1对多的数据问题上较得心应手,但在当前大数据的背景下,多对多的数据非常常见,这个时候图计算就体现出了表达丰富、扩展性强的优势。

    2)图计算在大数据量下能够更快速高效地挖掘数据间的潜在关系。首先针对快速的多跳关系查询,关系型数据库随着跳数增加,查询性能大幅下降,甚至无法完成给定任务。而基于图引擎的技术,可以在跳数增大后仍保持较好的查询性能。另外在并行计算能力上,图的并行也更优于传统的数据并行。


4、讲讲你所用过的图数据库或者图引擎,以及对TA不满意的地方?

    很遗憾,我只用过华为云GES图引擎服务。由于自己是一个电气工程的研究生,对图计算仅停留在算法学习中涉及到的浅层的图知识上,只能从一个业余者的角度来评价一下GES。首先整个GES界面非常清爽干净,功能齐全且布局合理,在我执行Gremlin示例语句的时候,这种可视化、可互动的数据呈现让我大开眼界,心旷神怡。当然,也有一些美中不足的地方:

    1)图例显示不全,每个条目的下部都有少量被遮挡,可能是由于浏览器兼容的问题。对于初学者可能看的时候会费劲些,对于一些商业用户来说就会影响到他们的使用体验。

    2)算法运行过程中较容易出现卡在“等待运行”的问题。也许是因为本人浏览器和电脑性能的缘故,但是还是希望能够优化一下平台,或者提供一个浏览器或者配置的建议供用户参考。


谢谢,还请各位前辈多多指教!

点评

顶你: 5.0
顶你: 5
  发表于 2018-9-3 23:47
顶你: 5
几个应用场景非常有意思,值得考虑 你提到的GES服务的第二个问题是个bug,已经修复。第一个问题我们再研究下给个解决建议。 非常感谢你的回复  发表于 2018-9-4 21:50
点赞1 回复 举报

zenstar

发帖: 0粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-9-6 17:58:53 5# 显示全部楼层

谢谢各位前辈,关于第4点不满意的地方中的(1)经过我实际使用发现,可能是显示屏分辨率的问题导致图例显示出错,用1920x1080时会看到,但是用笔记本的1366x768就不存在这个问题了。

点赞 回复 举报

aKi

发帖: 0粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-9-7 17:50:39 6# 显示全部楼层

1、讲讲你生活中有哪些数据是典型的图(关系)数据结构?

微信朋友圈,冰与火之歌中各个势力和人物之间的关系,淘宝店铺收藏,微博关注和转发。


2、讲讲你所接触过的或听说过的图计算的典型应用场景?

寻找我和名人之间最近的关系以及间隔的中间人。


通过图上算法做商品、资讯、好友的推荐,具有很强的解释性。


3、讲讲你所知道的,相比于关系型数据库,图计算技术在处理关系数据上的优点。

1.多跳关系查询相比于关系型数据库有极大的优势。


2.作为知识图谱的底层基座,图计算算法可以支持知识推理,知识融合,知识消歧等功能,这是传统关系型数据库做不到的。


4、讲讲你所用过的图数据库或者图引擎,以及对TA不满意的地方?

希望图引擎可以对一些典型应用场景做一些demo或使用指导,帮助使用者更好的理解和使用服务。


点赞1 回复 举报

Pingoo

发帖: 0粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-9-9 14:46:18 7# 显示全部楼层

1. 讲讲你生活中有哪些数据是典型的图(关系)数据结构?

除了生活中常见的社交、链路引用关系、知识图谱、路网管网、组织结构等,另外

生物中:生物谱系、亲缘关系

医学中:大脑连接、病理病因因果图,蛋白质相互作用图

化学中:高分子结构等等

这些都是图数据结构。

图.png注,图片来源网络

 

2. 讲讲你所接触过的或听说过的图计算的典型应用场景?

节点分析:网页、人物、论文等重要性排名,

关系分析:社交、电商等场景下:层次关系查询, 好友、商品推荐

                 故障诊断、根因分析

                 知识图谱中:知识推理、知识消歧

图层面的分析:社群分析、蛋白质高分子分类、3D视觉分类等等

 

同时,由于图的本身强大的表达能力、高效快速的计算模式,对于现实生活存在的数据高纬稀疏、数据异构、数据量庞大、数据动态变化等场景,相较于一般常用分析技术手段具有天然强大的优势,同时可解释型强

图片1.png引用自MIT林肯实验室论文

注: BLAS:Basic Linear Algebra Set基本线性代数集

        GraphBLAS:基于图的Basic Linear Algebra Set

 

3. 讲讲你所知道的,相比于关系型数据库,图计算技术在处理关系数据上的优点。

 表达能力上:图计算  (N:N的关系表达) VS关系数据库 (1:1或1:N的关系表达)

                         图计算擅长表达多种复杂关系、支持丰富语义,支持异构、稀疏型、时空等复杂性数据表达,表达能力强,使用场景丰富

分析能力上:图计算(多层潜在关系查询、关系推理、时空分析、知识图谱,具备节点、关系、图等多层面上的分析能力)  VS 关系数据库(简单的查询...)                    

数据更新能力上:图计算(实时增减点边关系能力)VS 传统关系数据库(多表的Join,新增类型重新设计)

                                图计算更新便捷、支持实时的数据更新          

性能上:图计算具备快速的多层潜在关联关系查询能力、图形并行计算能力,在大数据量下可以做到实时分析,快速高效


4. 讲讲你所用过的图数据库或者图引擎,以及对TA不满意的地方?

 

本人使用比较多的图计算工具,如PowerGraph、igraph等,只能进行单纯的计算,不支持属性图查询管理,采用“一次load图进行一次分析”的离线式分析方法,无法进行在线分析,不具备查询分析一体化能力,交互能力弱。

华为图引擎服务GES提供的EYWA图计算引擎是目前少有的能够同时支持图查询与图计算分析、支持标准查询接口和gremlin标准查询语言,具备比较好的可视化、交互能力,大规模图计算性能较好的图计算引擎(如果你正在纠结选择哪一种图计算产品,华为的Eywa图计算引擎道是不错的选择)

图计算领域专家夏应龙曾经在”从图引擎平台技术,看华为云EI的决心和野心”一文中,结合华为图引擎平台EYWA的选型诞生历程,从多角度客观分析了目前主流的图计算优劣,这里摘选部分,整理如下:


Neo4j、Titan等:擅长于图数据的实时查询,但并不能高效地对图数据进行离线分析;

                             具备数据持久化能力,但在数据量大的情况下性能剧烈退化且分析功能较弱

Turi、GraphX:侧重图数据的离线分析和挖掘,却不能对属性图进行管理,且不支持实时查询

Pregel、Powergraph和GraphX:不能有效支持在线分析和查询扩展。

 

华为云图引擎在技术上做了如下创新及优化:

  • 分布式优化Parallel Sliding Window(PSW)的图计算框架,高效加载图数据,以满足业务大规模的计算需要;

  • 兼顾图计算与点查询效率,开发基于边集流(edge-set)的块状数据组织以合理组织数据;

  • 通过边集合的prefetch策略来隐藏磁盘的IO操作以及松弛的BSP模型来隐藏通信IO,从而提升性能;

 

同时,夏应龙专家指出“技术演进层面上,EYWA下一步的努力方向是提供更好的图切分、更快的数据加载等;优化任务并行和任务调度;进行系统性能优化和架构升级以及探索GPU、FPGA对计算加速的帮助”,值得期待!!!

 

 

 

 

点赞 回复 举报

游客

您需要登录后才可以回帖 登录 | 立即注册