专家实录|RAG席卷下,GaussDB如何构建企业级知识检索底座
本文根据华为数据库高级技术专家朱金伟在DTCC大会华为云数据库专场的分享内容整理而成。
具体视频见https://mp.weixin.qq.com/s/en-A8tpmlLbo7Ge8YShzsQ
当前,许多从业者都在探讨向量数据库在企业中的落地和应用。随着AI与各类应用的紧密融合,企业的一些核心需求也逐渐清晰,尤其是头部银行、金融或政企客户,普遍在推动大模型的部署,构建企业私有知识库。此外,模型微调、Agent智能体应用等需求也在快速增长。对企业而言,最重要的是将大模型和企业业务真正有机融合在一起,产生价值。
但在大模型的落地过程中,企业普遍面临着几个挑战:
成本挑战。部署大模型需要额外的IT基础设施,包括微调、真训在内需要很多算力,因此成本是一个很大的挑战。
集成挑战。AI和企业现有业务的融合具有一定的难度,AI基础设施与业务分离部署,增量AI能力无法快速集成至业务系统。
价值挑战。虽然企业对RAG的落地非常关注,但距离帮助企业真正挖掘潜在的数据价值仍有较大的差距。
大模型的应用和落地,需要把数据、模型、知识这三大工程有机融合到一起。
数据,定义了模型所能处理问题的边界,没有高质量的数据,大模型就如同无源之水、无本之木。
模型,企业从生产端到应用端,整个过程有很多应用行为,这些应用行为需要不同模型。这些模型沙盘的有效管理,也是需要解决的问题。
知识,对企业而言,最重要的是效率、成本问题,大模型如何把这些知识有机整合起来,同样需要考虑。
其中,知识工程是三者有机结合的核心,是把数据工程和模型工程有机连接起来的重要纽带,而其中的核心是向量数据库。
大模型如何落地?很多金融、互联网企业已经有成熟的数字化系统,很多时候是在外围搭建一个AI系统,解决成本的一个有效方法是通过平滑升移,以叠加的方式把AI语义系统沉淀到数据底座中,让模型和高质量数据更加有效地融合到一起。这种方式一方面能够继续支撑金融场景的核算、个人转汇等核心业务系统,另一方面能够提供智能决策、研发助手、编码助手等智能服务,使企业系统做到更快、更准、更易用。
1、GaussDB面向AI生产应用的内生融合向量检索能力
如今的向量数据库或向量检索能力不仅是针对RAG应用,也可以延展到推理加速、非结构化数据处理分析等AI应用场景。基于以上思路,GaussDB构建了面向AI生产应用的内生融合向量检索引擎,该引擎构建了大库容、高性能、高精度、高扩展四大竞争力。
2、基于CBO的动态向标混合检索算法,让系统融合更加高效
依托GaussDB本身已经非常完善的优化器,实现基于CBO的向标融合算法,依托标量数据选择率的多少来选择是后验计算还是先验计算,无需人为参数设置就能做到高效处理。
3、流式更新索引,知识库持续更新,知识检索精度不下降
GaussDB基于原有的In-place Update方式实现了对向量数据的流式更新,整个过程不需要任何的重建索引操作。在实际的互联网业务验证过程中,通过知识的流式更新,比如每天更新20%的知识量,系统查询精度能够保持不降低,也无需索引重建。
4、分布式向量检索,支持PB级大容量,让用户“存你所需”
GaussDB是一款具有高扩展性的分布式数据库,本身就支持标量的分布式能力,又引入了基于向量分布式扩展能力。为什么要构建基于向量的分布列?利用向量数据库创建索引天然具备的聚类特性,能够将语义相似的向量数据自动归到同一个节点集群中,可以提升整体的查询吞吐能力。GaussDB能够支持上百个节点,可以对百亿条向量数据实现百毫秒级的实时查询响应。
5、异构硬件加速,发挥算力优势,持续提升客户体验
不管是索引的构建还是检索,都涉及到大量的距离计算,通过软硬协同设计及三角不等式思想,距离计算量减少了90%,索引构建效率可以提升4~10倍。
6、融入周边生态,构筑完整的解决方案,让企业“快人一步”
任何技术都离不开生态的支持。GaussDB跟Dify平台、RAGFlow平台进行了有序整合,能更好地进行一些能力的扩展,通过这些生态的适配,可以使企业更加聚焦业务的发展。
7、构建GaussDB语义分析引擎,让向量语义“灵动”起来
但仅仅依托向量数据库,只能解决成本和效率等一些在AI应用落地过程中的初始问题,也就意味着仅仅拥有向量数据库是不够的,需要考虑多模数据,把知识表达成关系表、图谱数据、文本数据,同时对于多模态数据,如文档、图片、音频等信息,可以通过大模型生成知识图谱来解决结构化信息或非结构化信息之间的关联信息,以此来构建一个多项多模态数据源的多模存储底座。
此外,仅依靠向量检索引擎,无法做到主动推荐,如何从依托向量数据库所做的语义检索变为面向多模态数据的语义分析能力?这是GaussDB需要考虑的,希望把向量检索能力更进一步,把更多大模型能力和数据的潜在价值挖掘出来。这其中有很多挑战,一个是应用开发的复杂度,一个是性能调优。而GaussDB可以做到:
-
一站式智能应用解决方案:通过集成大小模型,支撑从数据存储、分析、检索到回答生成的全生命周期。
-
语义查询释放数据价值:添加语义过滤、语义聚合、语义匹配、大模型调用等语义查询算子,扩展语义分析场景,释放隐含数据价值。
-
查询优化自动性能调优:智能决策选择最优数据执行路径,避免冗余大模型调用。
-
数据不出库保障信息安全:数据在内核内智能流转不出库,保证数据全生命周期安全可靠。
通过统一的SQL接口将向量检索、AI全部集成到系统中,再叠加其他一些能力,对DBA来说可以通过一套接口就解决所有问题。这其中也有很多挑战:如何把关系的代价、向量的代价、多模AI模型的代价基于现有的优化器进行真正的融合,使得在数据库内部就能将不同计算需求放到一个执行流程中。GaussDB正在打造语义引擎,向下可以汇聚不同的数据信息,向上可以融合已有向量引擎,甚至外接AI模型。
8、未来:从AI-Native数据库内核,走向自主决策数据管理系统
在过去的几年,GaussDB持续践行AI-Native数据库理念,从底层硬件到上层存储引擎、SQL引擎、执行引擎做了大量的AI融合工作,并提供了很多传统的AI算子能力。基于这样一套AI-Native数据库,能够把向量能力、大语言能力融合起来,但这是远远不够的,能否进一步把系统解耦,做成Data Agent系统,通过Data Agent满足企业不同层级、不同力度的需求,这也是GaussDB当前以及未来会做的事。
- 点赞
- 收藏
- 关注作者
评论(0)