ICDE'25 顶会前沿研究洞察

举报
云数据库创新Lab 发表于 2025/06/05 09:50:57 2025/06/05
【摘要】 本期为大家分享ICDE‘25的前沿研究洞察

image.png

ICDE是数据库三大顶级会议之一,在全球轮流举办,此次会议将于5月19日-23日在香港举办,继2019年在澳门举行之后再次来到中国,积极构建全球学术社区。此次会议接收到1518份投稿,共有300篇论文被接收发表,此外还包括10场Tutorials,11场workshop和28篇工业与应用论文研讨。此次会议讨论的议题涵盖了传统数据的查询优化、面向新硬件的软硬协同、大模型时代的数据管理、安全隐私保护等多个方向,共有来自美国、欧洲、亚太的800多名专家注册。

议题洞察

Keynote1: Beyond Embeddings: Data Management for LLMs in the Era of RAG and Personal AI

研究观点:香港科技大学Xiaofang Zhou教授分享了他们团队在向量检索领域的进展。他认为,向量十大模型时代的语言。向量检索具有超常历史,但是在这个历史当中,L2的计算常常占据主导地位,但是很少关注IP距离。首先介绍了在IP距离向量相似性检索中特有的加速的方法。其次介绍的DB-LSH工作, 通过LSH找到一个好的起点,可以加速图索引的遍历。介绍了DiskANN在处理超长维度数据时,会由于一个向量超过SSD访问的单位粒度而造成性能下降的问题,以及相应的解决办法。

Keynote 2 :Beyond Text: Graph-Enhanced LLMs for Reasoning and Mixed-Type Data Imputation

研究观点:可以使用图结构数据来增强大模型能力。大模型有极强能力,但也有参数重,推理慢的特点。利用多样化的思维链,可以增强大模型的思考能力,而与知识图谱结合,能够丰富大模型对于结构化信息的掌握。研究者提出了Paths-Over-Graph的结合范式,将LLM作为Agent进行管理,使用多链路RAG范式将关键词链接,从而边走图,边进行知识向大模型的链接,从而实现图知识增强大模型思考的能力

Keynote 3:Time Series Foundation Models

研究观点:作者介绍了多个时序基础模型相关工作,主要用于支持几个不同任务:预测(ROSE/LightGTS)、异常检测(DADA)、分类(AimTS),其中LightGTS提供了更小的参数规模,以适用于资源受限或者成本受限的场景,同时开源了一个时序基准测试库 OpenTS,与现有基准测试工具相比,主要进行了如下:支持了更多种类的时序分析算法(基于LLM构建的基础模型,基于时序数据预训练的基础模型),提供了更解耦的测试框架,以便更容易集成新的时序分析算法。

对于多变量的分类,提出了如下标准:

  1. 多变量之间完全无关
  2. 多变量之间完全相关
  3. 多变量聚类,聚类内相关,聚类间无关
  4. 多标量中,每个变量都选出若干个与其最相关的变量,不一定是相互最相关的

针对特定领域,如果有足够多的数据,那么可以考虑专用的小模型,更实用一些,针对缺乏数据的场景,可以考虑基于时序基础模型加上少量数据的 few shot learning 或者直接采用基础模型进行分析。同时未来会考虑如何基于一个模型来支持不同的任务,真正提供一个统一的时序基础模型。

Keynote 4:Data+AI: An LLM-Powered Data Analytics System

研究观点:李国良老师在Keynote分享了Data怎么跟AI结合的更好,引入了Data Agent的概念,并且需要不同种类/类型的Agent,同时以他们团队最近的一些工作来举例说明如何实现数据分析Agent。基本框架主要包括:Data Plane, Engine Plane, Orchestration Plane, Applications,该架构类似一个数据库系统,包括存储、调度、优化、执行等,李国良老师认为,将LLM视为数据系统的一种资源,来支持更复杂的计算,尤其是各种语义算子/函数。

对Data Agent的展开工作在论文Unify: An Unstructured Data Analytics System中有更详细的介绍。

Industry Talk1:Connecting Academic Research and Enterprises, Sharing Experience of Cooperation in the Field of Vector Search

研究观点:华为专家肖世海老师分享他在与高校合作期间产生的向量检索工作。向量检索领域的检索方法的常见目标在于更快的搜索,更快的构建,更小的资源消耗,这是常见的索引与系统优化的目标,主要分享了RNN-Descent算法从而加速构建,FusionANNS算法利用GPU-CPU co-work的方法加速向量查询,DF-GAS工作利用FPGA硬件加速相似检索并提供相应框架。

Industry Talk2: Bridging Humans and Databases: Democratizing Database Interfaces with Reasoning Agents

研究观点:Yuyu Luo老师介绍了他们针对text到SQL查询利用大模型Agent自动转化的新研究框架,使用text-to-sql可以将人类语言与数据库更加紧密的链接,但是NL2SQL在工业界落地具有相当大的困难。例如,对于用户身份的不同,自然语言的本质含义也会不同,在他的例子中,不同国别的用户对于国庆节的定义不同,一个NL2SQL的服务必须能够快速识别信息上的不同并快速自适应。提出了CHASE-SQL Agent框架,利用Agent链接用户查询与对应数据表格Schema, LLM设计SQL逻辑,LLM构造SQL内容,最后使用模型检查SQL是否合法,如果不合法则重新构建。

Industry Talk3: The Challenges of Personal Data Management System for Agentic AI on AIphones

研究观点:由华为的技术专家Zhou Minqi老师分享了在端侧AI Agent部署过程中遇到的数据管理挑战。端侧数据存储包含了大量丰富的高价值信息,如何利用这些信息打造个人化定制的Agent面临诸多挑战。

  1. 在应用信息互相隔离的基础机制下,如何设计高效安全的应用信息间信息传递的机制,使能数据处理与融合。
  2. 如何构建一个统一的范式,将模糊的,低质量的,碎片化的用户信息分析与管理起来,构建针对用户特性的ai助手。
  3. 在给定一个统一范式后,如何高效,高精度的将现有的碎片化个人数据整合为高质量的数据。
  4. 在空间与时间上识别连续的用户行为。如地域的变化,时间的变化,与不同时间空间下的用户特性的识别。要设计算法,来高效与精准的识别用户的context。
  5. 低storage overhead,低电量损耗的新向量索引。现有的向量搜索算法很难兼顾端侧硬件的性能,如何设计适合。

Future Technology:Training Data Distribution Estimation for Optimized Pre-Training Data Management

研究观点:当前有很多的开源大模型,但实际上也仅仅是开放了模型结构与模型参数,真正用于训练的数据实际上都没有公开,而数据对于模型的质量其实至关重要,本文主要解决的问题是,如何通过大模型的输出来估计一个预训练所用数据的分布,提供了理论上的分析、给出了具体的实现,并进行了一些初步的测试。从测试结果来看,当前的实现已经有一定的效果,但还有提升空间。总体来看,这个工作还是很有意思,可以对如何选择数据用于预训练提供一些参考。

Future Technology:Beyond Bandwidth Doubling: Embrace Bit-Flips and Unlock Processing-in-NAND

研究观点:该工作的背景是SSD/NAND的容量与带宽越来越大,但是其内部功耗与发热也面临巨大挑战,因此NAND也面临着性能与容量无法同步提升的问题,NAND的大部分功耗来自于数据传输,因此本文作者主张采用以数据为中心的PiN(Processing-in-NAND)。但是,也不是所有计算都适合下沉到NAND中,重点是下沉的计算不应该频繁移动数据,同时PiN也带来了诸多挑战,比需要功能受限、需要应对位翻转错误等。同时NAND内部自身的校验或者错误处理也会极大的影响NANA的性能,如果在数据库层面考虑这类错误处理,可能会更好发挥存储介质本身的性能。论文实现了一个PiM(Processing-in-Memory)的原型,以及如何在bloom filter、binary sketch中实现基本的容错处理能力。

Uncertain Databases, Graphs and Streaming:HourglassSketch: An Efficient and Scalable Framework for Graph Stream Summarization

研究观点:本文面向的场景是对 graph stream 进行草图计算或者某种summarization,可能的应用场景包括cyber security、社交网络、金融欺诈检测等。现有的解决方案主要分为两大类:Data Stream Algorithm、Graph Stream Algorithm,这两类算法各有优缺点,该项工作对两类方法进行了整合,将graph按照边权重的大小拆分为两部分,分别使用两类算法进行处理,同时还引入了Error Funnel提升整体效果。

Uncertain Databases, Graphs and Streaming:Effective and General Distance Computation for Approximate Nearest Neighbor Search

研究观点:本文主要面向的场景是ANN计算,主要涉及其中的距离计算部分,距离的近似计算算法ADSampling存在精度和通用性的问题,该工作是在 ADSampling 的基础上,通过结合数据分布特征,同时引入一种数据驱动的方法来校正距离,以缓解前面所提到的问题。相比ADSampling 效果有较显著的提升。

Graph Structure Analytics:CuckooGraph: A Scalable and Space-Time Efficient Data Structure for Large-Scale Dynamic Graphs

研究观点:论文提出了一种面向动态图的数据结构,应对的场景是随时间频繁变化的graph,对于这类场景,其难点包括更新操作频繁、数据量大、查询复杂度高等,现有工作很难完全应对这些挑战,该工作所提出的方法主要包括两个技术:TRANSFORMATION、DENYLIST,其中TRANSFORMATION 通过灵活的空间变换规则实现内存的动态扩容/收缩,支持根据实际图数据规模自动调整数据结构容量;DENYLIST作为插入失败处理机制,避免重复尝试插入带来的性能损耗,通过这两个技术提升内存利用率以及性能。

Modern Hardware and In-Memory Database Systems:HC-SpMM: Accelerating Sparse Matrix-Matrix Multiplication for Graphs with Hybrid GPU Cores

研究观点:论文主要提出了一种稀疏矩阵乘法计算的方法,可以应用在GNN模型训练中,或者其他涉及稀疏矩阵计算的场景。该方法主要考虑了稀疏矩阵计算在现有GPU架构下,采用CUDA Core或者Tensor Core都存在一定的优缺点,核心想法是根据矩阵本身的特点,尽量发挥CUDA Core、Tensor Core的优势,充分利用计算资源,提升计算效率。

Modern Hardware and In-Memory Database Systems:BL-Tree: The Best of Both Worlds by Combining B±Tree on Top and LSM-Tree on Bottom

研究观点:本文主要是结合B±Tree、LSM-Tree各自的优势,将二者进行融合,将原本LSM的L0层采用B±Tree来存储,同时为了实现B±Tree的快速本地更新,引入了PM(Intel Optane盘)来存储B±Tree的叶子节点,根节点/内部节点则放在内存中,以此来减少读放大,提升读性能。

PhD Symposium:Explore the Disentanglement Mechanism for Deep Learning

研究观点:该工作围绕深度学习中“可解释性”和“效率”的双重挑战,系统性地研究了解耦机制(disentanglement mechanisms)在模型表现力、优化范式与解释能力三大核心维度的作用。

首先,研究揭示了图神经网络(GNN)通过表示解耦学习逻辑规则的能力,为其模型表达力提供了理论基础。
其次,提出了一种高效的参数融合方法,利用网络参数的特征分解来实现无需数据的模型快速调优。
最后,本文构建了与符号公式一致的神经网络架构,用以模拟复杂网络动态,从而提升网络结构本身的可解释性。
整体研究构建了一个从理论到实践相融合的解耦机制框架,既提升了模型性能,又增强了模型的透明度和控制能力。未来工作将继续在表达能力精准分析、语义感知参数优化、跨领域应用等方向推进。本文为实现高效、可控、可解释的下一代人工智能系统奠定了理论与方法基础。

Session 1:Scaling and Hardening XLOG: the SQL Azure Hyperscale Log Service

研究观点:本篇论文主要围绕微软的XLOG,介绍如何解决V1版本的三大问题:

Long-Polling and Thread Starvation

I/O Scalability Problems

Corruptions protection, Data Integrity

主要解法是:日志请求异步化处理,以此消除IO等待;将请求聚合处理,避免不同client访问相同数据时,重复拉取数据;添加校验,底层存储问题不会扩散到上层数据库侧。

Session 2:Bridging the Gap: LLM-Powered Transfer Learning for Log Anomaly Detection in New Software Systems

研究观点:在实际的生产系统中,经常会有新的软件系统上线,与现有成熟系统相比,即便是描述相同的问题,新的系统也可能引入新的日志风格、结构等,从而导致现有系统的日志异常检测模型失效。该工作主要借助LLM检测异常日志,通过LLM将日志做标准化,这样可以基于在已有的检测模型基础上,处理新上线系统的日志。由于只处理错误、异常日志,数据量相对就没那么大,有一定的可操作性,当前该技术已在中国移动的某些应用中落地。

Session 3:A Storage Model with Fine-Grained In-Storage Query Processing for Spatio-Temporal Data

研究观点:该工作涉及时空数据的存储,主要解决存储读放大问题,采用一种存储布局难以应对不同的查询,比如有些查询是时间优先的,有些查询是空间优先的,特定的存储布局可能是面向时间友好的,但在处理空间优先的查询时,可能就会有大量的读放大。

本文给出了一个计算下推/下沉的方法,将数据过滤下沉到存储介质中,以减少读放大。具体来说,包括提供细粒度的layout以及相应的剪枝策略,同时配合代价评估模型,以决定是否下沉计算到某个block中。当然,下推并不是简单将所以过滤操作全部卸载到存储层,而是仅选择率较低的block,下推过滤操作,减少整体的数据流转,同时也保证整体的计算性能。

Session 4:DiffODE: Neural ODE with Differentiable Hidden State for Irregular Time Series Analysis

研究观点:在现代复杂数据生成系统中,不规则时间序列分析变得越来越重要。传统的时序模型如RNN及其变体和Transformer在处理不规则时间序列时面临挑战,难以捕捉持续的时间动态。基于ODE的方法虽然理论上有效,但在应用到不规则时间序列时依然存在较多不足。现有方法通常从初始值开始积分,忽略后续观测值,导致潜在的动态被不准确地表示。该工作提出了一种基于 Neural ODE 的增强方法,通过引入基于注意力机制的可微隐藏层,增强模型对上下文的理解,旨在更有效建模不规则时间序列,并解决传统方法在处理连续时间动态时遇到的挑战。

Session 5:OneRoundSTL: In-Database Seasonal-Trend Decomposition

研究观点:该工作提出了一种时序分解的方法,其核心思路是将序列分解的动作进行拆分,同时考虑如何解决数据乱序、缺失等问题,基于此,可能将其实现到数据库内部,查询时进行少量的后计算就可以得到完整的序列分解结果。

Session 6:SylphDB: An Active and Adaptive LSM Engine for Update-Intensive Workloads

研究观点:该论文面向数据频繁更新的场景,提出了一种针对LSM结构的优化方法,以提升compaction的效率,降低compaction对读写的影响。

该工作的主要贡献包括:提出了FastGC,一种主动且快速的垃圾回收机制,及时回收无效数据;引入了自适应存储模式,以实现在内存开销、读放大之间的均衡。

Session 7:Auto-TSF: Towards Proxy-Model-based Meta-learning for Automatic Time Series Forecasting Algorithm Selection

该论文解决的问题是如何自动选择预测算法与相应的参数。现有解决方案存在的问题包括:选出的最优算法比率较低、缺乏公平的性能评估指标、搜索空间较大导致效率较低;基于这样的背景,本文提出了基于代理模型的元学习、异步并行超参数优化等,从而显著提高了效率。

Session 8:Towards Lightweight Time Series Forecasting: a Patch-wise Transformer with Weak Data Enriching

该论文提出了一种时序预测方法,类似于Patch-TST方法采用patching策略来处理时序数据,提出了一种数据增强方法,以增强预测效果,同时去掉了transformer结构中的部分结构,在保持预测精度的前提下,大幅降低了计算开销。

本文的一个重点是引入数据相关的一些额外的属性,来增强预测效果,本文的一个应用场景是预测电力价格,而电力价格可能跟气温、工作日/非工作日等因素相关,将这类额外因素融合到模型后,可有效提升整体的预测效果。

Session 9:Timestamp Approximate Nearest Neighbor Search over High-Dimensional Vector Data

研究观点:该研究针对新兴AI应用(如检索增强生成)中,对高维向量进行语义相似且时间相关的查询需求,即时间戳近似最近邻搜索(TANNS)问题,提出了新的解决方案。现有方法为每个时间戳创建独立索引,虽能实现快速准确搜索,但更新延迟高且存储需求巨大。为此,论文引入了新颖的时间戳图(timestamp graph)结构,它利用有效向量变化的时间局部性,跨所有历史时间戳管理一个统一索引,从而显著减少存储开销并支持快速索引更新。此外,研究还设计了历史邻居树(historic neighbor tree),进一步将空间复杂度压缩到单个时间戳索引的水平。

结语

ICDE’25大会全部技术前沿研究洞察给大家分享到此!谢谢

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。