【每日一读】Community preserving mapping for network hyperbolic embedd
@TOC
简介
Hello!
非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~
ଘ(੭ˊᵕˋ)੭
昵称:海轰
标签:程序猿|C++选手|学生
简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖…已保研
学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!
唯有努力💪
【每日一读】每天浅读一篇论文,了解专业前沿知识,培养阅读习惯(阅读记录 仅供参考)
论文简介
原文链接:https://www.sciencedirect.com/science/article/pii/S0950705122003227?via%3Dihub
期刊:Knowledge-Based Systems (CCF C类)
年度:2022年4月1日(发表日期)
Abstract
双曲线嵌入旨在通过捕获在真实网络中观察到的大部分属性来揭示隐藏空间。
大多数现有的双曲线嵌入模型映射以学习表示向量,同时保留微观邻接,这不能准确地表示介观社区结构。
为此,本研究提出了社区保留双曲嵌入模型(CPHE)。
具体来说
- 我们通过添加社区共现关系 (CCR) 来规范双曲线嵌入的似然函数。
- 然后,我们构建了一个用于节点嵌入和社区检测的闭环。因此,表示向量和 CCR 交替更新。
- 最后,为了避免表示社区的失真,对数值解实现了基于线性比率规划之和的等价大化。
应用实验在合成网络和真实网络上进行,以评估嵌入性能。社区检测的准确率和归一化互信息(NMI)分别提高了约 3% 和 2.4%,链路预测的接收者操作特征曲线下面积(AUROC)提高了约 1.3%,证明了所提出的优势模型。
1. Introduction
网络作为复杂关系的通用表示,已被广泛用于描述生物、社会和信息系统[1]。最近,隐藏空间中的网络分析由于其直观且可解释的几何构造而引起了越来越多的关注[2-4]。遵循这些研究路线,使用随机双曲图 (RHG) 理论生成的网络再现了稀疏性、自相似性、无标度度分布、强聚类和小世界特性,这些特性对于大多数复杂网络 [5-7 ]。因此,基于 RHG 的嵌入网络的逆过程,称为双曲线嵌入,已广泛应用于社区检测 [8-10]、可导航性 [11-13] 和网络重整化 [2] 等领域。与欧几里得空间中的嵌入相比,研究表明双曲线嵌入导致下游任务的失真和复杂性更低[14]。
在这些双曲线嵌入方法中,一个常见的假设是空间向量之间的测地距离反映了相应节点之间的亲和力[15]。在这个方向上,大多数双曲线嵌入方法,例如 HyperMap [16,17]、基于拉普拉斯算子的网络嵌入 (LaBNE) [18] 和 Coalescent [19],对邻接进行编码。以这个为基础,Efficient Embedding (EE) [20] 和 Mercator [21] 方法被扩展为从共同的邻居中捕获额外的信息,以获得更精确的向量表示。然而,所有这些方法都主要关注网络的微观结构,而忽略了细观描述。
社区,直观地定义为一组密集连接的节点,是一个突出的介观特征,它揭示了网络的组织结构和功能组件[22]。例如,社交网络社区的特征,包括最大组件的大小、可达聚类的大小和平均聚类系数,对感染和避免 COVID-19 等疾病的相对成功率有显着影响[23] .根据同质性原则[24],社区内的节点比属于不同社区的节点彼此更亲和。因此,即使来自社区的两个节点由于网络稀疏性而连接较弱,它们的潜在亲和力也会很强。因为社区检测、相似性搜索和节点分类等下游应用程序强烈依赖这些亲和性。嵌入而不保留社区会导致不完整的几何表示并导致不确定的错误 [24]。因此,社区保护对于双曲线嵌入至关重要。
为了在双曲线嵌入期间保留社区,将潜在亲和力合并到邻接中以指导链接可能性的编码似乎是一个有前途的解决方案。在此之后,最先进的双曲线嵌入,即社区和双曲线映射 (CHM) [25] 和带有社区结构的链接预测 (LPCS) [26],首先确定每个社区的扇区范围双曲平面。然后,他们通过最大化局部可能性将节点插入扇区。这种管道方法通过在嵌入空间中分配区域来描述社区;然而,它们的社区整合规则很大程度上受到上游算法的社区检测结果的影响。此外,他们的模型的解决方案是次优且无法解释的,因为没有统一的目标函数来制定社区和邻接。然后,诸如 [27,28] 之类的模型直接将社区检测的可能性与一阶和二阶近似的可能性结合起来。因此,可以统一潜在的亲和力和邻接关系,以使用黎曼随机梯度下降 [29] 对表示向量进行编码。然而,从这些方法获得的表示向量在描述网络的局部特征方面受到限制。缺乏编码全局特征,尤其是度分布,使得它们在贪婪路由 [30] 和网络重整化 [2] 中的应用变得复杂
因此,我们的目标是构建一个由社区规范化的基于 RGH 的映射,其中潜在的亲和力和邻接关系都在全局框架下得到保留。此映射需要注意三个主要问题:社区正则化、无监督嵌入和优化。首先,社区所描述的关系是介观的、多元的,与微观的、二元的邻接有很大的不同[31]。因此,为了构造正则化,将多元关系转换为二元关系是必要的。其次,由于大多数网络无法直接给出先验社区结构,例如成员矩阵和社区标签,因此社区检测和节点嵌入的耦合至关重要。最后,CPHE 的优化可以根据半径进行分析,但不能根据角度 [16]。已经提出了许多近似方法来实现具有低复杂度的非凹角坐标主要化的数值解 [17,20,32,33]。然而,他们的策略,本质上是均匀采样,会使表示向量的簇结构同质化。
为了克服这些问题,本文提出了一种社区保留双曲嵌入模型,称为 CPHE
- 首先,类比计算语言学 [34]、计算机视觉 [35] 和社区生态学 [36,37] 中的共现,将多元社区关系分解为双变量共现关系,并使用节点对的社区共现。
- 随后,考虑到社区与表示向量的空间簇[32,38,39]有显着重叠,CPHE 拟合角坐标的混合分布来检测社区,并将社区保留嵌入与社区检测相结合以实现对齐表示.
- 最后,我们提出了一种与 CPHE 的目标函数等效的新的专业化,其数值解是基于线性比率规划 (SLR) [40] 的总和来实现的。
我们的贡献可以总结如下:
- 我们将社区结构转换为 CCR 以规范双曲线距离。据我们所知,我们是第一个对隐藏在社区中的潜在亲和力进行分析建模的双曲线嵌入。
- 我们提出了 CPHE,它通过 CCR 正则化扩展了双曲线嵌入,并在嵌入的同时实现了社区保留。
- 我们在CPHE中使用线性比率规划的和来解决似然最大化问题,有效避免了均匀采样导致的表示社区的失真。
- 我们在六个合成数据集和十二个真实世界网络上使用三种类型的下游应用程序评估嵌入。平均而言,所提出的 CPHE 提高了大约 3% 的准确度,社区检测的 NMI 提高了 2.4%,节点分类的准确度提高了 0.7%,链路预测的 AUROC 提高了 1.3%。在此基础上,我们分析了三个模型参数对社区保护性能的影响。
2. Related works
如前所述,双曲线嵌入旨在将网络的节点表示到双曲线空间中,同时保留网络结构。在本节中,我们回顾了相关的双曲线嵌入方法并总结了它们的特点。随后,我们介绍了在嵌入期间保留社区结构的现有方法,包括基于欧几里德空间的嵌入和双曲线嵌入。
表 1 从类别、参考、嵌入空间、保留结构、基础理论和应用方面说明了这些相关研究。
2.1. Hyperbolic embedding
双曲几何源于松弛欧几里得几何平行公设,具有均匀负曲率的空间称为双曲。根据 Kleinberg 在 [47] 中的著名结果,每个连通的有限图在双曲平面(2D 双曲空间)中都有一个贪心嵌入,而许多复杂的真实网络,如互联网、通信网络和社交网络,都不承认这样的嵌入欧几里得平面。
为了在双曲线平面中表示具有空间向量的网络,嵌入方法大致分为两组。
- 首先,像 [28,42,48] 这样的文献使用邻近关系和双曲线距离之间的隐函数来设计嵌入损失。因此,可以使用黎曼随机梯度下降 (R-SGD) [29] 或黎曼多维缩放 (R-MDS) [49] 自然地解决优化问题。然而,通过这些方法获得的嵌入向量在可解释性上是有限的。
- 其次,基于称为随机双曲线图 (RHG) [16,32,50,51] 的各种生成模型,许多双曲线嵌入通过最大化连接的显式似然性来推断表示向量 [18,20,52]。由于获得的表示向量足以重建直径 [53]、组件结构 [54]、团大小 [55] 和分离特性 [56],因此这些嵌入能够在数学上分析双曲线中原始网络的物理特性飞机。相应地,RHG 的显式公式也导致非凸嵌入目标函数,这使角坐标的优化变得复杂。
流形学习和候选抽样从不同的角度解决了基于 RHG 的嵌入优化。前一个受保形属性 [52] 的启发,通过将网络嵌入到一般流形而不是双曲空间中来估计角坐标。例如,拉普拉斯算子在 LaBNE [18] 中构建网络的 2D 流形表示,并且使用前两个非零特征向量的比率计算相位的切线。然而,在未加权的邻接矩阵上近似距离会导致这种嵌入的表示能力有限。因此,通过使用方便的策略对网络链接进行预加权,可以明显提高嵌入性能。 Coalescent Embedding [19] 结合了信息的程度,并使用结构规则为边缘分配权重,例如公共邻居和最短路径。为了嵌入上述加权图,它们为各种流形学习方法提供了接口。类似地,墨卡托 [21] 在 S1 中使用拉普拉斯特征图推断角坐标。在该模型中,从角度分离的期望推导出的权重量化了隐藏度和嵌入距离之间的关系,并使度数较大的节点相互接近。流形学习技术避免了 RHG 模型中的非凸优化,但缺乏对隐藏空间的显式量化。如果流形与双曲空间有明显的架构差异,则将网络嵌入到一般流形中会产生表示错误。自然,这种方法的复杂性容易受到特征分解算法的影响。
另一种方法是从可行区域中采样候选并在这些候选中搜索近似解。 HyperMap [16,17] 推断出与从连续区间均匀采样的候选对象内的最大似然相对应的角度位置。嵌入适用于 World Trade Atlas 1870-2013 几何分析 [32],该分析将国际贸易系统映射为 Poincaré 圆盘,并将贸易联系解释为测地距离。高效嵌入 (EE) [20] 使用弹簧嵌入器生成核心节点的绘图,并按公共邻居排序其他节点。为了重现网络的边缘权重,[43] 通过结合节点强度和邻接性来嵌入网络。通过最大化链接和权重的可能性来获得表示向量。此外,混合方法,如 LaBNE+HM [33],旨在聚合 LaBNE 和 HyperMap 的优势,以实现高效和准确的网络嵌入。他们首先使用 LaBNE 绘制给定网络的几何配置,然后将草案传递给 HyperMap 以完善最终映射到双曲空间。由于这些嵌入是基于 RHG 理论构建的,因此可以解析得到它们的表示向量,并用于表示边缘的形成机制。
2.2. Community embedding
尽管如此,上述所有方法都仅通过微观亲和力来检查嵌入距离,例如邻接和共同邻居。这导致对细观社区的量化较弱,并导致网络分析的偏差不可忽略。诸如 [25,26] 中的双曲线嵌入使用两步方法保留社区结构:社区检测和网络嵌入。然而,这两个步骤是独立实现的,并且基于不同的基本理论,这使得表示向量次优且无法解释。在基于 RHG 的嵌入模型中,根据最大熵原理解析推导出的映射是非线性的,表示向量之间的复杂耦合使得直接结合社区正则化变得复杂。
显然,大多数现有的社区保留嵌入模型都位于欧几里得空间中,并且映射的构建不需要满足网络生成模型。模块化非负矩阵分解[31]采用模块化矩阵对社区成员指标进行建模。表示向量是通过线性嵌入和模块化近似获得的。在[44]中,重叠社区结构是在随机游走期间使用条件概率建模的。高等人。 [45] 将主题模型引入顶点序列以捕获网络的社区信息,他们设计了一种面向社区的随机游走策略来自适应地控制随机游走的范围。此外,桑德罗等人。 [24]将每个社区视为多元高斯分布并闭环学习表示向量。在学习过程中,社区和节点嵌入同时在欧几里得空间中实现。其他人,例如[46],依靠图卷积网络架构来最大化补丁表示和相应的高级图摘要之间的互信息,以尽可能地保留网络信息。然而,在不满足网络生成模型的情况下,这些模型的嵌入空间缺乏物理意义,表示向量的空间结构不能用度分布和小世界等网络的自然特征来解释。这使得选择具有适当几何特征(尤其是维度)的嵌入空间变得复杂。
与上述研究不同,我们提出了一种扩展的基于 PSO 模型的嵌入来映射网络,同时保留社区。使用所提出的模型,可以保持隐藏在社区和邻接中的潜在亲和力,以获得失真较小的表示。更重要的是,由于嵌入是根据几何生成模型提出的,表示向量是可解释的,可以指导下游网络分析模型的构建。
3. Definitions and preliminaries
本节首先提供了几个与 Palash 等人类似定义的基本定义。 [57]。然后,简要介绍了基本的双曲线动态生成模型[58]和相应的双曲线增长嵌入模型[16]。
3.1. Fundamental definitions
定义 3.1(网络 [59])。网络 G(V , E) 是一个顶点集 V = {V1, V2, . . . , Vn} 和一个边集 E ⊆ V × V 。
边可以表示为邻接矩阵{aij}n×n,如果在Vi和Vj之间存在边,则aij = 1,否则aij = 0。显然,{aij}n×n 在无向网络中是对称的。
定义 3.2(双曲线嵌入)。给定一个网络 G(V , E),网络的双曲嵌入是从顶点集到双曲空间向量的映射,并且该映射保留了网络 G 中定义的邻近度度量。
与 [57] 中的图嵌入类似,双曲线嵌入将网络转换为低维向量,并使用对应点的测地距离来量化邻接。在双曲空间中,相邻对的节点映射为近,非相邻对的节点映射为远。
定义 3.3(社区 [22])。社区是满足连通性的顶点集的子集。社区中的顶点必须比将社区的顶点与网络的其余部分连接起来的边具有更多的边。
社区 C = {C1, C2, . . . , CL} 可以通过隶属度矩阵 {wil}n×L 进行量化,其中 wil ∈ [0, 1] 衡量节点 Vi 和社区 Cl 之间的隶属度。 wil 的大值对应于强隶属度,并且(1)中所示的约束被定义为规范化。
3.2. Hyperbolic dynamic generation model
网络生成旨在使用几何测量再现网络属性。流行度相似度优化(PSO)[58] 是一个基本的双曲线动态生成模型,它在 RHG 框架下描述了嵌入向量的两个维度,即流行度和相似度。在这个模型中,每次新节点出现在 Poincaré 圆盘上时,边都是使用基于 Poincaré 度量 [61,62] 的 Boltzmann 分布 [60] 随机创建的。
令 G {G; P(G)} 是网络的规范集成 [63],对于任何图 G ∈ G 具有概率测度 P(G)。 {Jξ }ξ ∈Ξ 是集合的一组期望值 ⟨Jξ ⟩ 的观测函数。因此,P(G) 的概率分布可以通过在观测约束下最大化集合 Gibbs 熵作为优化 (2) 来导出。
使用拉格朗日乘子法,P(G) 可以表示为以下玻尔兹曼分布:
其中 H(G) = ∑ξ ∈Ξ αξ Jξ (G) 是通过将拉格朗日乘子 {αξ } 耦合到观察约束而形成的,是图哈密顿量。此外,Z = ∑G∈G e−H(G) 是保持 ∑G∈G P(G) = 1 的配分函数。
对于上述几何随机图的规范系综,两个基本观测约束表示系统的费米子数和能量,产生 [7]
其中 aij 是网络邻接矩阵第 i 行第 j 列的元素,xij 是庞加莱盘中的测地线距离,定义为 (5)
其中 ζ = √−K 是使用双曲空间的曲率 K 构造的空间参数,并且 rj = 2ζ ln j 和 θij =π - |π-| θi - θj ∥ 分别是时间 j 的径向坐标和相位差。此外,在条件 θij > 2√e−2ζ ri + e−2ζ rj 下,xij 可以近似为 (6),
代入方程式。 (4) 在观测约束 (3) 中,我们可以将拉格朗日乘数表示为 α1 = - ζ Rj2T 和 α2 = ζ2T。然后,
因此,
连接概率的形式可以简化为公式(9)为 pij = P(aij = 1)。
一旦采用这种形式,参数 T 被解释为控制网络聚类的温度,它几乎随着 T ∈ [0, 1) 线性下降,并在 T > 1 时渐近为零。此外,阈值 Rj 可以从平均节点度 2m 和幂律度分布 P(k) ∝ k-(1+1/β) 的模型假设,其中 β ∈ (0, 1]。
3.3. Hyperbolic growth embedding model
在 PSO 模型框架下,HyperMap [16] 回放边缘的最大似然增长,将给定的网络嵌入到双曲线平面中。使用贝叶斯规则,从模型参数中获取的坐标 {rj, θj}j×2 的概率使用条件概率公式如下:
由于 ri(j) 的密度函数基于模型假设可以表示为 P (ri(j)) =ζ2β e ζ2β (ri (j)−rj ),因此推导出式 (11) 中分子的第一项使用独立原则如下:
第二部分的具体形式是用公式(7)中的概率P(G)构造的,它量化了相邻矩阵与集合的图分布之间的相关性。
将(12)和(13)都代入原始条件概率(11),似然函数可以简化为:
其中 C = j(ln ζ4π β − ζ2β)− ln P ({aij}⏐ ⏐ζ , β, m, T ) 是独立于 {rj, θj}j×2 的常数
因此,坐标可使用 (14) 的最大化来推断。根据似然函数的驻点解析计算径向坐标如下:
将 (15) 设置为零,我们有 rj = 2ζ ln j。关于角坐标,由于不可微和非凸的性质,通过在 [0, 2π ] 中以间隔 1j 分隔的 θj 的不同值处采样似然度 L 在数值上获得推断。
4. Methodology
本节介绍了提议的 CPHE 的详细信息。首先,对隐藏在社区中的潜在亲和力进行建模,以使用共现关系规范双曲线嵌入的目标函数。接下来,提出了一种具有社区拟合的无监督嵌入框架,以同时检测社区和嵌入节点。最后,提出了一个与CPHE等效的majorization,并实现了相应的解决方案来搜索嵌入坐标。
5. Experiments and analysis
6. Conclusions
在这项研究中,提出了一种新的双曲线嵌入模型来重现网络的双曲线增长,同时保留社区结构
与现有的双曲线嵌入模型相比,我们使用共现关系的转换将隐藏在社区中的潜在亲和力合并到双变量邻接关系中。
在嵌入过程中保留了社区和邻接关系。
接下来,我们结合社区拟合和节点嵌入来构建混合似然目标函数。基于此函数的无监督嵌入学习表示向量在社区结构的约束下。
最后,为了避免经典数值解中均匀采样导致的坐标分布平滑,实现了线性比率和规划。
使用所提出的模型,社区分布和节点表示分别沿着拟合梯度和嵌入梯度更新到最佳状态。
网络的社区拓扑以空间集群的形式很好地保存下来,用于下游分析。通过在 6 个合成数据集和 11 个真实世界网络上进行的节点分类和社区检测的广泛实验,验证了所提出方法的效率。分析了所提出模型中社区量化的基本参数,并提出了选择参数的建议策略。
我们通过重申扩展潜力来结束本文。回想一下,我们首先使用 CCR 正则化研究了双曲线嵌入中的社区保存。正则化揭示了许多网络挖掘应用程序中的潜在亲和力,特别是链接预测。此外,由于提出的 CCR 正则化角度度量是可微的,双曲线嵌入的解决方案也可以使用其他方法来实现,例如梯度下降。此外,根据实验结果,所提出的 CPHE 可以通过适当的参数很好地处理具有可区分和数字已知社区的网络。因此,这可能使我们能够评估无监督网络的社区数量。
结语
文章仅作为个人学习笔记记录,记录从0到1的一个过程
希望对您有一点点帮助,如有错误欢迎小伙伴指正
- 点赞
- 收藏
- 关注作者
评论(0)