- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

ICDE'25 顶会前沿研究洞察

数据库创新实验室发表于 2025/06/05 09:50:57 2025/06/05

【摘要】本期为大家分享ICDE‘25的前沿研究洞察

ICDE是数据库三大顶级会议之一，在全球轮流举办，此次会议将于5月19日-23日在香港举办，继2019年在澳门举行之后再次来到中国，积极构建全球学术社区。此次会议接收到1518份投稿，共有300篇论文被接收发表，此外还包括10场Tutorials，11场workshop和28篇工业与应用论文研讨。此次会议讨论的议题涵盖了传统数据的查询优化、面向新硬件的软硬协同、大模型时代的数据管理、安全隐私保护等多个方向，共有来自美国、欧洲、亚太的800多名专家注册。

议题洞察

Keynote1: Beyond Embeddings: Data Management for LLMs in the Era of RAG and Personal AI

研究观点：香港科技大学Xiaofang Zhou教授分享了他们团队在向量检索领域的进展。他认为，向量十大模型时代的语言。向量检索具有超常历史，但是在这个历史当中，L2的计算常常占据主导地位，但是很少关注IP距离。首先介绍了在IP距离向量相似性检索中特有的加速的方法。其次介绍的DB-LSH工作, 通过LSH找到一个好的起点，可以加速图索引的遍历。介绍了DiskANN在处理超长维度数据时，会由于一个向量超过SSD访问的单位粒度而造成性能下降的问题，以及相应的解决办法。

Keynote 2 ：Beyond Text: Graph-Enhanced LLMs for Reasoning and Mixed-Type Data Imputation

研究观点：可以使用图结构数据来增强大模型能力。大模型有极强能力，但也有参数重，推理慢的特点。利用多样化的思维链，可以增强大模型的思考能力，而与知识图谱结合，能够丰富大模型对于结构化信息的掌握。研究者提出了Paths-Over-Graph的结合范式，将LLM作为Agent进行管理，使用多链路RAG范式将关键词链接，从而边走图，边进行知识向大模型的链接，从而实现图知识增强大模型思考的能力

Keynote 3：Time Series Foundation Models

研究观点：作者介绍了多个时序基础模型相关工作，主要用于支持几个不同任务：预测(ROSE/LightGTS)、异常检测(DADA)、分类(AimTS)，其中LightGTS提供了更小的参数规模，以适用于资源受限或者成本受限的场景，同时开源了一个时序基准测试库 OpenTS，与现有基准测试工具相比，主要进行了如下：支持了更多种类的时序分析算法(基于LLM构建的基础模型，基于时序数据预训练的基础模型)，提供了更解耦的测试框架，以便更容易集成新的时序分析算法。

对于多变量的分类，提出了如下标准：

多变量之间完全无关
多变量之间完全相关
多变量聚类，聚类内相关，聚类间无关
多标量中，每个变量都选出若干个与其最相关的变量，不一定是相互最相关的

针对特定领域，如果有足够多的数据，那么可以考虑专用的小模型，更实用一些，针对缺乏数据的场景，可以考虑基于时序基础模型加上少量数据的 few shot learning 或者直接采用基础模型进行分析。同时未来会考虑如何基于一个模型来支持不同的任务，真正提供一个统一的时序基础模型。

Keynote 4：Data+AI: An LLM-Powered Data Analytics System

研究观点：李国良老师在Keynote分享了Data怎么跟AI结合的更好，引入了Data Agent的概念，并且需要不同种类/类型的Agent，同时以他们团队最近的一些工作来举例说明如何实现数据分析Agent。基本框架主要包括：Data Plane, Engine Plane, Orchestration Plane, Applications，该架构类似一个数据库系统，包括存储、调度、优化、执行等，李国良老师认为，将LLM视为数据系统的一种资源，来支持更复杂的计算，尤其是各种语义算子/函数。

对Data Agent的展开工作在论文Unify: An Unstructured Data Analytics System中有更详细的介绍。

Industry Talk1：Connecting Academic Research and Enterprises, Sharing Experience of Cooperation in the Field of Vector Search

研究观点：华为专家肖世海老师分享他在与高校合作期间产生的向量检索工作。向量检索领域的检索方法的常见目标在于更快的搜索，更快的构建，更小的资源消耗，这是常见的索引与系统优化的目标，主要分享了RNN-Descent算法从而加速构建，FusionANNS算法利用GPU-CPU co-work的方法加速向量查询，DF-GAS工作利用FPGA硬件加速相似检索并提供相应框架。

Industry Talk2: Bridging Humans and Databases: Democratizing Database Interfaces with Reasoning Agents

研究观点：Yuyu Luo老师介绍了他们针对text到SQL查询利用大模型Agent自动转化的新研究框架，使用text-to-sql可以将人类语言与数据库更加紧密的链接，但是NL2SQL在工业界落地具有相当大的困难。例如，对于用户身份的不同，自然语言的本质含义也会不同，在他的例子中，不同国别的用户对于国庆节的定义不同，一个NL2SQL的服务必须能够快速识别信息上的不同并快速自适应。提出了CHASE-SQL Agent框架，利用Agent链接用户查询与对应数据表格Schema, LLM设计SQL逻辑，LLM构造SQL内容，最后使用模型检查SQL是否合法，如果不合法则重新构建。

Industry Talk3： The Challenges of Personal Data Management System for Agentic AI on AIphones

研究观点：由华为的技术专家Zhou Minqi老师分享了在端侧AI Agent部署过程中遇到的数据管理挑战。端侧数据存储包含了大量丰富的高价值信息，如何利用这些信息打造个人化定制的Agent面临诸多挑战。

在应用信息互相隔离的基础机制下，如何设计高效安全的应用信息间信息传递的机制，使能数据处理与融合。
如何构建一个统一的范式，将模糊的，低质量的，碎片化的用户信息分析与管理起来，构建针对用户特性的ai助手。
在给定一个统一范式后，如何高效，高精度的将现有的碎片化个人数据整合为高质量的数据。
在空间与时间上识别连续的用户行为。如地域的变化，时间的变化，与不同时间空间下的用户特性的识别。要设计算法，来高效与精准的识别用户的context。
低storage overhead，低电量损耗的新向量索引。现有的向量搜索算法很难兼顾端侧硬件的性能，如何设计适合。

Future Technology：Training Data Distribution Estimation for Optimized Pre-Training Data Management

研究观点：当前有很多的开源大模型，但实际上也仅仅是开放了模型结构与模型参数，真正用于训练的数据实际上都没有公开，而数据对于模型的质量其实至关重要，本文主要解决的问题是，如何通过大模型的输出来估计一个预训练所用数据的分布，提供了理论上的分析、给出了具体的实现，并进行了一些初步的测试。从测试结果来看，当前的实现已经有一定的效果，但还有提升空间。总体来看，这个工作还是很有意思，可以对如何选择数据用于预训练提供一些参考。

Future Technology：Beyond Bandwidth Doubling: Embrace Bit-Flips and Unlock Processing-in-NAND

研究观点：该工作的背景是SSD/NAND的容量与带宽越来越大，但是其内部功耗与发热也面临巨大挑战，因此NAND也面临着性能与容量无法同步提升的问题，NAND的大部分功耗来自于数据传输，因此本文作者主张采用以数据为中心的PiN(Processing-in-NAND)。但是，也不是所有计算都适合下沉到NAND中，重点是下沉的计算不应该频繁移动数据，同时PiN也带来了诸多挑战，比需要功能受限、需要应对位翻转错误等。同时NAND内部自身的校验或者错误处理也会极大的影响NANA的性能，如果在数据库层面考虑这类错误处理，可能会更好发挥存储介质本身的性能。论文实现了一个PiM(Processing-in-Memory)的原型，以及如何在bloom filter、binary sketch中实现基本的容错处理能力。

Uncertain Databases, Graphs and Streaming：HourglassSketch: An Efficient and Scalable Framework for Graph Stream Summarization

研究观点：本文面向的场景是对 graph stream 进行草图计算或者某种summarization，可能的应用场景包括cyber security、社交网络、金融欺诈检测等。现有的解决方案主要分为两大类：Data Stream Algorithm、Graph Stream Algorithm，这两类算法各有优缺点，该项工作对两类方法进行了整合，将graph按照边权重的大小拆分为两部分，分别使用两类算法进行处理，同时还引入了Error Funnel提升整体效果。

Uncertain Databases, Graphs and Streaming：Effective and General Distance Computation for Approximate Nearest Neighbor Search

研究观点：本文主要面向的场景是ANN计算，主要涉及其中的距离计算部分，距离的近似计算算法ADSampling存在精度和通用性的问题，该工作是在 ADSampling 的基础上，通过结合数据分布特征，同时引入一种数据驱动的方法来校正距离，以缓解前面所提到的问题。相比ADSampling 效果有较显著的提升。

Graph Structure Analytics：CuckooGraph: A Scalable and Space-Time Efficient Data Structure for Large-Scale Dynamic Graphs

研究观点：论文提出了一种面向动态图的数据结构，应对的场景是随时间频繁变化的graph，对于这类场景，其难点包括更新操作频繁、数据量大、查询复杂度高等，现有工作很难完全应对这些挑战，该工作所提出的方法主要包括两个技术：TRANSFORMATION、DENYLIST，其中TRANSFORMATION 通过灵活的空间变换规则实现内存的动态扩容/收缩，支持根据实际图数据规模自动调整数据结构容量；DENYLIST作为插入失败处理机制，避免重复尝试插入带来的性能损耗，通过这两个技术提升内存利用率以及性能。

Modern Hardware and In-Memory Database Systems：HC-SpMM: Accelerating Sparse Matrix-Matrix Multiplication for Graphs with Hybrid GPU Cores

研究观点：论文主要提出了一种稀疏矩阵乘法计算的方法，可以应用在GNN模型训练中，或者其他涉及稀疏矩阵计算的场景。该方法主要考虑了稀疏矩阵计算在现有GPU架构下，采用CUDA Core或者Tensor Core都存在一定的优缺点，核心想法是根据矩阵本身的特点，尽量发挥CUDA Core、Tensor Core的优势，充分利用计算资源，提升计算效率。

Modern Hardware and In-Memory Database Systems：BL-Tree: The Best of Both Worlds by Combining B±Tree on Top and LSM-Tree on Bottom

研究观点：本文主要是结合B±Tree、LSM-Tree各自的优势，将二者进行融合，将原本LSM的L0层采用B±Tree来存储，同时为了实现B±Tree的快速本地更新，引入了PM(Intel Optane盘)来存储B±Tree的叶子节点，根节点/内部节点则放在内存中，以此来减少读放大，提升读性能。

PhD Symposium：Explore the Disentanglement Mechanism for Deep Learning

研究观点：该工作围绕深度学习中“可解释性”和“效率”的双重挑战，系统性地研究了解耦机制（disentanglement mechanisms）在模型表现力、优化范式与解释能力三大核心维度的作用。

首先，研究揭示了图神经网络（GNN）通过表示解耦学习逻辑规则的能力，为其模型表达力提供了理论基础。
其次，提出了一种高效的参数融合方法，利用网络参数的特征分解来实现无需数据的模型快速调优。
最后，本文构建了与符号公式一致的神经网络架构，用以模拟复杂网络动态，从而提升网络结构本身的可解释性。
整体研究构建了一个从理论到实践相融合的解耦机制框架，既提升了模型性能，又增强了模型的透明度和控制能力。未来工作将继续在表达能力精准分析、语义感知参数优化、跨领域应用等方向推进。本文为实现高效、可控、可解释的下一代人工智能系统奠定了理论与方法基础。

Session 1：Scaling and Hardening XLOG: the SQL Azure Hyperscale Log Service

研究观点：本篇论文主要围绕微软的XLOG，介绍如何解决V1版本的三大问题：

Long-Polling and Thread Starvation

I/O Scalability Problems

Corruptions protection, Data Integrity

主要解法是：日志请求异步化处理，以此消除IO等待；将请求聚合处理，避免不同client访问相同数据时，重复拉取数据；添加校验，底层存储问题不会扩散到上层数据库侧。

Session 2：Bridging the Gap: LLM-Powered Transfer Learning for Log Anomaly Detection in New Software Systems

研究观点：在实际的生产系统中，经常会有新的软件系统上线，与现有成熟系统相比，即便是描述相同的问题，新的系统也可能引入新的日志风格、结构等，从而导致现有系统的日志异常检测模型失效。该工作主要借助LLM检测异常日志，通过LLM将日志做标准化，这样可以基于在已有的检测模型基础上，处理新上线系统的日志。由于只处理错误、异常日志，数据量相对就没那么大，有一定的可操作性，当前该技术已在中国移动的某些应用中落地。

Session 3：A Storage Model with Fine-Grained In-Storage Query Processing for Spatio-Temporal Data

研究观点：该工作涉及时空数据的存储，主要解决存储读放大问题，采用一种存储布局难以应对不同的查询，比如有些查询是时间优先的，有些查询是空间优先的，特定的存储布局可能是面向时间友好的，但在处理空间优先的查询时，可能就会有大量的读放大。

本文给出了一个计算下推/下沉的方法，将数据过滤下沉到存储介质中，以减少读放大。具体来说，包括提供细粒度的layout以及相应的剪枝策略，同时配合代价评估模型，以决定是否下沉计算到某个block中。当然，下推并不是简单将所以过滤操作全部卸载到存储层，而是仅选择率较低的block，下推过滤操作，减少整体的数据流转，同时也保证整体的计算性能。

Session 4：DiffODE: Neural ODE with Differentiable Hidden State for Irregular Time Series Analysis

研究观点：在现代复杂数据生成系统中，不规则时间序列分析变得越来越重要。传统的时序模型如RNN及其变体和Transformer在处理不规则时间序列时面临挑战，难以捕捉持续的时间动态。基于ODE的方法虽然理论上有效，但在应用到不规则时间序列时依然存在较多不足。现有方法通常从初始值开始积分，忽略后续观测值，导致潜在的动态被不准确地表示。该工作提出了一种基于 Neural ODE 的增强方法，通过引入基于注意力机制的可微隐藏层，增强模型对上下文的理解，旨在更有效建模不规则时间序列，并解决传统方法在处理连续时间动态时遇到的挑战。

Session 5：OneRoundSTL: In-Database Seasonal-Trend Decomposition

研究观点：该工作提出了一种时序分解的方法，其核心思路是将序列分解的动作进行拆分，同时考虑如何解决数据乱序、缺失等问题，基于此，可能将其实现到数据库内部，查询时进行少量的后计算就可以得到完整的序列分解结果。

Session 6：SylphDB: An Active and Adaptive LSM Engine for Update-Intensive Workloads

研究观点：该论文面向数据频繁更新的场景，提出了一种针对LSM结构的优化方法，以提升compaction的效率，降低compaction对读写的影响。

该工作的主要贡献包括：提出了FastGC，一种主动且快速的垃圾回收机制，及时回收无效数据；引入了自适应存储模式，以实现在内存开销、读放大之间的均衡。

Session 7：Auto-TSF: Towards Proxy-Model-based Meta-learning for Automatic Time Series Forecasting Algorithm Selection

该论文解决的问题是如何自动选择预测算法与相应的参数。现有解决方案存在的问题包括：选出的最优算法比率较低、缺乏公平的性能评估指标、搜索空间较大导致效率较低；基于这样的背景，本文提出了基于代理模型的元学习、异步并行超参数优化等，从而显著提高了效率。

Session 8：Towards Lightweight Time Series Forecasting: a Patch-wise Transformer with Weak Data Enriching

该论文提出了一种时序预测方法，类似于Patch-TST方法采用patching策略来处理时序数据，提出了一种数据增强方法，以增强预测效果，同时去掉了transformer结构中的部分结构，在保持预测精度的前提下，大幅降低了计算开销。

本文的一个重点是引入数据相关的一些额外的属性，来增强预测效果，本文的一个应用场景是预测电力价格，而电力价格可能跟气温、工作日/非工作日等因素相关，将这类额外因素融合到模型后，可有效提升整体的预测效果。

Session 9：Timestamp Approximate Nearest Neighbor Search over High-Dimensional Vector Data

研究观点：该研究针对新兴AI应用（如检索增强生成）中，对高维向量进行语义相似且时间相关的查询需求，即时间戳近似最近邻搜索（TANNS）问题，提出了新的解决方案。现有方法为每个时间戳创建独立索引，虽能实现快速准确搜索，但更新延迟高且存储需求巨大。为此，论文引入了新颖的时间戳图（timestamp graph）结构，它利用有效向量变化的时间局部性，跨所有历史时间戳管理一个统一索引，从而显著减少存储开销并支持快速索引更新。此外，研究还设计了历史邻居树（historic neighbor tree），进一步将空间复杂度压缩到单个时间戳索引的水平。

结语

ICDE’25大会全部技术前沿研究洞察给大家分享到此！谢谢

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

ICDE'25 顶会前沿研究洞察

议题洞察

Keynote1: Beyond Embeddings: Data Management for LLMs in the Era of RAG and Personal AI

Keynote 2 ：Beyond Text: Graph-Enhanced LLMs for Reasoning and Mixed-Type Data Imputation

Keynote 3：Time Series Foundation Models

Keynote 4：Data+AI: An LLM-Powered Data Analytics System

Industry Talk1：Connecting Academic Research and Enterprises, Sharing Experience of Cooperation in the Field of Vector Search

Industry Talk2: Bridging Humans and Databases: Democratizing Database Interfaces with Reasoning Agents

Industry Talk3： The Challenges of Personal Data Management System for Agentic AI on AIphones

Future Technology：Training Data Distribution Estimation for Optimized Pre-Training Data Management

Future Technology：Beyond Bandwidth Doubling: Embrace Bit-Flips and Unlock Processing-in-NAND

Uncertain Databases, Graphs and Streaming：HourglassSketch: An Efficient and Scalable Framework for Graph Stream Summarization

Uncertain Databases, Graphs and Streaming：Effective and General Distance Computation for Approximate Nearest Neighbor Search

Graph Structure Analytics：CuckooGraph: A Scalable and Space-Time Efficient Data Structure for Large-Scale Dynamic Graphs

Modern Hardware and In-Memory Database Systems：HC-SpMM: Accelerating Sparse Matrix-Matrix Multiplication for Graphs with Hybrid GPU Cores

Modern Hardware and In-Memory Database Systems：BL-Tree: The Best of Both Worlds by Combining B±Tree on Top and LSM-Tree on Bottom

PhD Symposium：Explore the Disentanglement Mechanism for Deep Learning

Session 1：Scaling and Hardening XLOG: the SQL Azure Hyperscale Log Service

Session 2：Bridging the Gap: LLM-Powered Transfer Learning for Log Anomaly Detection in New Software Systems

Session 3：A Storage Model with Fine-Grained In-Storage Query Processing for Spatio-Temporal Data

Session 4：DiffODE: Neural ODE with Differentiable Hidden State for Irregular Time Series Analysis

Session 5：OneRoundSTL: In-Database Seasonal-Trend Decomposition

Session 6：SylphDB: An Active and Adaptive LSM Engine for Update-Intensive Workloads

Session 7：Auto-TSF: Towards Proxy-Model-based Meta-learning for Automatic Time Series Forecasting Algorithm Selection

Session 8：Towards Lightweight Time Series Forecasting: a Patch-wise Transformer with Weak Data Enriching

Session 9：Timestamp Approximate Nearest Neighbor Search over High-Dimensional Vector Data

结语

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

ICDE'25 顶会前沿研究洞察

议题洞察

Keynote1: Beyond Embeddings: Data Management for LLMs in the Era of RAG and Personal AI

Keynote 2 ：Beyond Text: Graph-Enhanced LLMs for Reasoning and Mixed-Type Data Imputation

Keynote 3：Time Series Foundation Models

Keynote 4：Data+AI: An LLM-Powered Data Analytics System

Industry Talk1：Connecting Academic Research and Enterprises, Sharing Experience of Cooperation in the Field of Vector Search

Industry Talk2: Bridging Humans and Databases: Democratizing Database Interfaces with Reasoning Agents

Industry Talk3： The Challenges of Personal Data Management System for Agentic AI on AIphones

Future Technology：Training Data Distribution Estimation for Optimized Pre-Training Data Management

Future Technology：Beyond Bandwidth Doubling: Embrace Bit-Flips and Unlock Processing-in-NAND

Uncertain Databases, Graphs and Streaming：HourglassSketch: An Efficient and Scalable Framework for Graph Stream Summarization

Uncertain Databases, Graphs and Streaming：Effective and General Distance Computation for Approximate Nearest Neighbor Search

Graph Structure Analytics：CuckooGraph: A Scalable and Space-Time Efficient Data Structure for Large-Scale Dynamic Graphs

Modern Hardware and In-Memory Database Systems：HC-SpMM: Accelerating Sparse Matrix-Matrix Multiplication for Graphs with Hybrid GPU Cores

Modern Hardware and In-Memory Database Systems：BL-Tree: The Best of Both Worlds by Combining B±Tree on Top and LSM-Tree on Bottom

PhD Symposium：Explore the Disentanglement Mechanism for Deep Learning

Session 1：Scaling and Hardening XLOG: the SQL Azure Hyperscale Log Service

Session 2：Bridging the Gap: LLM-Powered Transfer Learning for Log Anomaly Detection in New Software Systems

Session 3：A Storage Model with Fine-Grained In-Storage Query Processing for Spatio-Temporal Data

Session 4：DiffODE: Neural ODE with Differentiable Hidden State for Irregular Time Series Analysis

Session 5：OneRoundSTL: In-Database Seasonal-Trend Decomposition

Session 6：SylphDB: An Active and Adaptive LSM Engine for Update-Intensive Workloads

Session 7：Auto-TSF: Towards Proxy-Model-based Meta-learning for Automatic Time Series Forecasting Algorithm Selection

Session 8：Towards Lightweight Time Series Forecasting: a Patch-wise Transformer with Weak Data Enriching

Session 9：Timestamp Approximate Nearest Neighbor Search over High-Dimensional Vector Data

结语

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品