- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

RAG：让大模型不再“信口开河”

摘星. 发表于 2026/01/07 12:08:13 2026/01/07

【摘要】 RAG：让大模型不再“信口开河”的检索增强生成技术全解析摘要在大型语言模型（LLM）如ChatGPT、GPT-4等飞速发展的今天，其“信口开河”或“胡言乱语”（Hallucination）的问题已成为影响其可靠性的关键瓶颈。本文深入解析了检索增强生成（RAG， Retrieval-Augmented Generation）这一革命性技术框架，它通过将外部知识检索与语言模型生成能力巧妙结合...

RAG：让大模型不再“信口开河”的检索增强生成技术全解析

摘要

在大型语言模型（LLM）如ChatGPT、GPT-4等飞速发展的今天，其“信口开河”或“胡言乱语”（Hallucination）的问题已成为影响其可靠性的关键瓶颈。本文深入解析了检索增强生成（RAG， Retrieval-Augmented Generation）这一革命性技术框架，它通过将外部知识检索与语言模型生成能力巧妙结合，为LLM“插上知识检索的翅膀”，使其回答有据可依，大幅提升信息的准确性、时效性和可追溯性。文章将从RAG的核心原理、技术架构入手，结合详细的代码实践与图表分析，探讨其在企业知识库、智能客服、科研辅助等领域的应用价值。读者将全面理解RAG如何运作，掌握构建一个基础RAG系统的关键技术栈，并洞悉其在解决LLM幻觉问题上的巨大潜力与未来发展方向。

引言

当我们惊叹于大模型流畅的对话和丰富的知识时，一个不容忽视的“暗伤”也随之浮现：它可能在不经意间编造出看似合理但完全错误的信息，即所谓的“幻觉”或“信口开河”。例如，询问一个去年才发布的事件，大模型可能会自信地给出一个虚构的日期和细节。究其根源，标准的大语言模型本质上是基于其预训练时“记住”的参数化知识进行概率性生成。这些知识是静态的、封闭的，存在时效性差（无法获取最新信息）、事实性错误（训练数据噪声或知识冲突导致）、以及无法追溯来源（如同一个黑箱）等固有局限。

检索增强生成（RAG） 正是为了解决这一核心痛点而生。它的核心理念并非让模型“记住一切”，而是教它“学会查资料”。在回答用户问题时，RAG系统首先从外部知识源（如文档数据库、网页、知识图谱）中检索出与问题最相关的信息片段，然后将这些检索到的真实证据与原始问题一同提交给大模型，指示模型基于这些证据生成最终答案。这好比一位学者在撰写论文时，会先查阅大量文献，再引用可靠的资料进行论述，而非仅凭记忆。

RAG的出现，为大模型的应用打开了新局面：它增强了回答的可信度与准确性，突破了模型参数的“知识天花板”，赋予了回答可追溯性，并大幅降低了知识更新的成本。接下来，我们将深入拆解RAG的各个组成部分，并通过实践一探究竟。

RAG技术核心组件详解

一个典型的RAG系统流程可以概括为“索引-检索-增强-生成”四个阶段。我们首先通过一个流程图来宏观理解其工作过程。

Lexical error on line 2. Unrecognized text. ...ry] --> B[查询预处理
（分词、向量化）] C[外部知识 -----------------------^

流程图说明：上图清晰地展示了RAG的端到端工作流程。左侧“外部知识文档库”是知识的源泉，经过预处理（如分块、清洗）和向量化后，存入“向量数据库”构建索引。当用户输入查询（Query）时，系统同样将其向量化，并在向量数据库中进行相似度检索，找出最相关的K个文档片段作为上下文（Context）。最后，将原始Query和检索到的Context一同构造成一个增强的提示词（Prompt），输入给大语言模型（LLM），LLM基于此生成最终答案。整个过程实现了从“闭卷考试”到“开卷考试”的转变。

RAG核心原理介绍

RAG的概念最早由Meta AI（原Facebook AI）在2020年的一篇论文中系统提出。它将生成模型与检索系统相结合，本质上是一种将参数化记忆（存储在模型权重中的知识）与非参数化记忆（存储在外部数据库中的知识）进行融合的架构。

技术原理：其核心在于一个两阶段的推理过程。
1. 检索器（Retriever）：给定输入x，从一个大型文档集合D中检索出最相关的文本片段z。这通常通过计算查询向量与文档向量之间的相似度（如余弦相似度）来实现，依赖的是稠密向量检索（如使用BERT、Sentence-BERT等模型生成向量）或稀疏检索（如BM25）。
2. 生成器（Generator）：以检索到的文本片段z和原始输入x为条件，生成最终的输出y。即，模型参数化概率分布 P(y | x, z)。生成器通常是一个预训练的大语言模型，如GPT系列、LLaMA等。
应用场景：
- 企业智能知识库：将公司内部手册、产品文档、项目报告等构建成RAG系统，员工可通过自然语言问答获取精准、最新的信息。
- 智能客服与技术支持：基于最新的产品FAQ、维修指南生成回答，确保信息准确无误。
- 学术研究与文献分析：让模型基于特定的论文库或数据集进行回答，辅助科研人员快速调研。
- 新闻摘要与内容生成：结合实时新闻源，生成包含最新事件的报道或分析。
发展历程：从早期的基于TF-IDF、BM25的检索式问答系统，到将神经网络用于检索（如DRQA），再到如今将强大的生成式LLM与高效向量检索（如基于Transformers的稠密检索）结合的现代RAG框架，其检索精度和生成质量得到了质的飞跃。随着LangChain、LlamaIndex等框架的出现，RAG的构建变得日益便捷。

向量数据库详解

向量数据库是现代RAG系统的“记忆中枢”，它专门用于高效存储、索引和检索高维向量数据。

技术原理：传统数据库按行、列和精确值进行查询，而向量数据库的核心是相似性搜索。它将文本、图像等非结构化数据通过嵌入模型（Embedding Model）转换为数值向量（即嵌入向量）。这些向量被存储在数据库中，并构建特定的索引（如HNSW、IVF-Flat等）来加速近邻搜索。当查询到来时，同样将其转换为向量，然后在数据库中找到与它“距离”最近（即余弦相似度最高）的向量所对应的原始数据。
核心价值：
- 高效相似度检索：支持毫秒级的百万甚至千万级向量检索。
- 处理非结构化数据：天然适合处理文本、图片、音频等。
- 可扩展性：支持分布式架构，易于扩展以容纳海量知识。
主流选择：常见的向量数据库包括Pinecone（全托管云服务）、Weaviate（开源，兼具向量与对象存储）、Qdrant（开源，Rust编写，性能优异）、Milvus（开源，专为大规模向量搜索设计）以及Chroma（轻量级，易于上手）。下表对比了几种常见向量数据库的特点：

数据库名称	主要特点	部署方式	适合场景
Chroma	轻量、易用、API简单，内置嵌入函数	本地/嵌入式	原型开发、小型项目、学习
Qdrant	性能优异，Rust编写，过滤功能强大	本地/ Docker/云	生产环境，需要复杂过滤条件
Weaviate	模块化设计，支持多种向量化模块，集成GraphQL	Docker/ Kubernetes/云	需要结合对象存储和复杂查询的应用
Pinecone	全托管服务，无需运维，自动扩展	云服务（SaaS）	追求快速上线、无运维负担的团队
Milvus	专为大规模向量搜索设计，架构复杂但强大	分布式集群	超大规模向量检索场景

嵌入模型详解

嵌入模型是将文本“翻译”成向量的“翻译官”，其质量直接决定检索的准确性。

技术原理：嵌入模型（如OpenAI的text-embedding-ada-002， Sentence Transformers库中的模型）接收一段文本，输出一个固定长度的稠密向量。这个向量在语义空间中捕获了文本的含义，语义相似的文本，其向量在空间中的位置也相近。训练这类模型的目标通常是让相关文本的向量距离更近，不相关文本的向量距离更远。
应用场景：在RAG中，嵌入模型同时用于索引阶段（将知识库文档转化为向量）和查询阶段（将用户问题转化为向量）。选择一个在目标领域表现良好的嵌入模型至关重要。
发展历程：从Word2Vec、GloVe等静态词向量，到ELMo、BERT等上下文感知的预训练模型，再到专门为句子和段落级语义相似度任务优化的模型（如Sentence-BERT），嵌入技术的进步使得语义检索更加精准。

为了更直观地展示不同组件在RAG系统架构中的位置与关系，我们来看下面的架构图。

Lexical error on line 2. Unrecognized text. ...aph TB subgraph “数据准备与索引 (离线)” ----------------------^

架构图说明：此架构图将RAG流程分为离线的数据准备与索引和在线查询与生成两部分。离线部分负责处理原始文档，经过加载、分割、向量化后存入向量存储。在线部分响应用户查询：将查询向量化后，从向量存储中检索出相关上下文，将其与问题一起填充到预定义的提示词模板中，形成最终的增强提示词，提交给LLM生成答案。向量存储和LLM是连接两个阶段的核心枢纽。

动手构建：一个基础RAG系统实践

本节将使用Python、LangChain框架、Chroma向量数据库和开源的Sentence Transformers嵌入模型，一步步构建一个简易的RAG问答系统。我们将以一份机器学习教程文本作为示例知识库。

环境搭建与依赖安装

首先，确保你的Python环境（建议3.8以上），并安装必要的库。LangChain是一个强大的LLM应用开发框架，极大地简化了RAG的构建流程。

# 安装核心库
# pip install langchain langchain-community chromadb sentence-transformers
# 假设我们使用OpenAI的GPT模型作为生成器，也需要安装openai库（或使用其他开源模型接口）
# pip install openai

import os
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.embeddings import SentenceTransformerEmbeddings
from langchain_community.vectorstores import Chroma
from langchain.prompts import ChatPromptTemplate
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA

# 设置OpenAI API Key（若使用OpenAI模型）
# os.environ["OPENAI_API_KEY"] = "your-api-key-here"

代码解释：这段代码导入了构建RAG所需的核心模块。TextLoader用于加载文本文件；RecursiveCharacterTextSplitter是常用的文本分割器，用于将长文档切分成适合检索的小块；SentenceTransformerEmbeddings是LangChain对Sentence Transformers嵌入模型的封装；Chroma是LangChain对Chroma向量数据库的集成；ChatPromptTemplate用于构建提示词模板；ChatOpenAI是LangChain对OpenAI聊天模型的封装；RetrievalQA是一个封装好的链，将检索和问答流程串联起来。

步骤一：文档加载与预处理

知识库的质量是RAG的基石。我们需要将原始文档加载并分割成适当大小的“块”（Chunks）。

# 1. 加载文档
loader = TextLoader("./machine_learning_tutorial.txt", encoding="utf-8") # 假设有一个教程文本文件
documents = loader.load()

# 2. 分割文档
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,       # 每个块的最大字符数
    chunk_overlap=50,     # 块之间的重叠字符数，避免上下文断裂
    length_function=len,
    separators=["\n\n", "\n", "。", "，", " ", ""] # 分割符优先级
)
chunks = text_splitter.split_documents(documents)
print(f"原始文档被分割成了 {len(chunks)} 个块。")
# 打印第一个块的内容预览
print("第一个块预览：", chunks[0].page_content[:200])

代码解释：这里使用RecursiveCharacterTextSplitter进行文本分割。chunk_size=500意味着每个文本块大约500个字符，这是一个常用设置，平衡了上下文信息的完整性和检索的精准度。chunk_overlap=50让相邻块之间有50字符的重叠，这有助于防止一个核心概念被硬生生切到两个块中间导致检索时信息不完整。选择合适的分割策略对于后续检索效果影响巨大，需根据文档特点调整。

步骤二：向量化与索引构建

将文本块转化为向量，并存入向量数据库，建立索引。

# 3. 初始化嵌入模型
embeddings = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
# 这是一个轻量级但效果不错的句子嵌入模型，来自Sentence Transformers

# 4. 创建向量存储（ChromaDB）
# persist_directory 指定索引持久化到磁盘的路径
vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory="./chroma_db_ml_tutorial" # 指定持久化目录
)
print("向量数据库索引构建完成并已持久化。")
# 后续可以直接加载已构建的索引：vectorstore = Chroma(persist_directory="./chroma_db_ml_tutorial", embedding_function=embeddings)

代码解释：我们选择了 all-MiniLM-L6-v2 嵌入模型，它在速度和性能间取得了良好平衡。Chroma.from_documents 方法完成了核心的索引构建工作：它遍历所有文本块（chunks），使用embeddings模型将每个块转换为向量，然后将这些向量及其对应的原始文本存储到指定目录下的Chroma数据库中。指定persist_directory后，索引会被保存到磁盘，下次启动应用时无需重新计算向量，直接加载即可，极大地提升了效率。

步骤三：检索器与提示词工程

定义如何从向量库中检索，以及如何构造给LLM的提示词。

# 5. 将向量库转换为检索器
retriever = vectorstore.as_retriever(
    search_type="similarity", # 使用相似度搜索
    search_kwargs={"k": 3}    # 检索返回最相关的3个块
)

# 6. 定义提示词模板
template = """请根据以下提供的上下文信息来回答问题。如果你在上下文中找不到答案，请直接说“根据提供的资料，我无法回答这个问题”，不要编造信息。

上下文：
{context}

问题：{question}

请给出基于上下文的答案："""
prompt = ChatPromptTemplate.from_template(template)

代码解释：retriever对象封装了检索逻辑。search_kwargs={"k": 3}表示每次检索返回相似度最高的3个文本块。这个k值是一个重要超参数：太小可能信息不足，太大可能引入噪声，通常需要根据实验调整。prompt模板是引导LLM行为的关键。它明确指令模型基于给定的上下文回答问题，并设置了“不知道”的回复机制，这是缓解幻觉的核心策略之一。{context}和{question}是占位符，将在运行时被替换。

步骤四：集成大模型与链式调用

最后，将检索器、LLM和提示词组合成一个完整的问答链。

# 7. 初始化大语言模型（这里以ChatOpenAI为例，实际可使用其他兼容API的模型）
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)
# temperature=0 使输出更确定、更倾向于遵循上下文，减少随机性。

# 8. 创建检索问答链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff", # 最简单的方式，将所有检索到的上下文“塞”进提示词
    retriever=retriever,
    chain_type_kwargs={"prompt": prompt},
    return_source_documents=True # 可选：返回检索到的源文档，用于追溯
)

# 9. 进行问答测试
query = "什么是过拟合？如何避免？"
result = qa_chain({"query": query})
print("\n问题：", query)
print("答案：", result["result"])
print("\n--- 参考来源 ---")
for i, doc in enumerate(result["source_documents"]):
    print(f"[片段 {i+1}]: {doc.page_content[:150]}...") # 打印来源片段的前150字符

代码解释：我们使用ChatOpenAI并指定gpt-3.5-turbo模型，temperature设为0以降低创造性、提高事实一致性。RetrievalQA.from_chain_type创建了一个完整的问答链。chain_type="stuff"是一种简单的处理方式，它把所有检索到的上下文连接成一个字符串放入提示词。对于更长的上下文，还有map_reduce、refine等复杂链类型来处理。return_source_documents=True让我们能获取到模型生成答案所依据的具体文本片段，实现了答案的可追溯性，这是RAG相较于纯生成模型的巨大优势。

RAG的高级话题与优化策略

基础的RAG管道可能面临检索不精准、上下文过长导致模型注意力分散、多跳推理困难等问题。以下是常见的优化方向：

1. 检索优化：

混合检索：结合稠密向量检索（语义匹配）和稀疏检索（如BM25，关键词匹配），取长补短。
重新排序（Reranking）：使用更精细但计算代价更高的交叉编码器模型（如cross-encoder/ms-marco-MiniLM-L-6-v2）对初步检索到的Top-N个结果进行重排序，挑选出最相关的前K个。
元数据过滤：在检索时加入过滤器，如日期、文档类型、作者等，缩小搜索范围。

2. 提示词工程优化：

指令细化：在提示词中更明确地指导模型如何使用上下文，例如“请引用上下文中的具体句子来支持你的答案”。
少样本示例（Few-shot）：在提示词中加入几个“问题-上下文-答案”的示例，教给模型预期的回答格式和推理方式。

下面展示一个结合了重新排序和元数据过滤的进阶检索示例代码片段。

# 进阶检索示例：使用元数据过滤和重新排序（需安装rank_bm25和sentence-transformers）
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor
from langchain.retrievers import EnsembleRetriever
from langchain_community.retrievers import BM25Retriever
# 假设我们已有基于元数据的向量存储

# 创建稠密检索器（向量检索）
dense_retriever = vectorstore.as_retriever(search_kwargs={"k": 10})
# 创建稀疏检索器（BM25），需要准备纯文本列表
texts = [chunk.page_content for chunk in chunks]
bm25_retriever = BM25Retriever.from_texts(texts, metadatas=[chunk.metadata for chunk in chunks])
bm25_retriever.k = 10

# 集成检索器（简单平均分数融合）
ensemble_retriever = EnsembleRetriever(
    retrievers=[dense_retriever, bm25_retriever],
    weights=[0.5, 0.5] # 赋予两种检索器相同的权重
)

# 使用LLM进行上下文压缩/提炼（提取与问题最相关的部分）
compressor = LLMChainExtractor.from_llm(llm)
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor,
    base_retriever=ensemble_retriever # 使用集成检索器作为基础
)

# 使用优化后的检索器
optimized_qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=compression_retriever, # 替换为优化后的检索器
    chain_type_kwargs={"prompt": prompt}
)

代码解释：这段代码展示了几个优化技巧。EnsembleRetriever融合了稠密检索和BM25稀疏检索的结果，提升召回率。LLMChainExtractor是一个“上下文压缩器”，它使用一个LLM来审视检索到的冗长文档，并提取出其中与问题真正相关的句子，从而减少输入给最终生成模型的无关信息量，提升效率和质量。这是一个检索后处理的典型优化手段。

总结与展望

RAG技术通过巧妙地结合检索系统与生成模型，为大语言模型“注入”了鲜活、可靠的外部知识，有效遏制了“信口开河”的幻觉问题。它不仅是提升LLM事实准确性的利器，更是一种灵活、低成本的知识集成方案，使大模型能够胜任知识密集型、高准确度要求的专业任务。

回顾全文，我们深入剖析了RAG的核心原理、关键组件（向量数据库、嵌入模型），并通过完整的代码实践演示了如何从零构建一个基础的RAG问答系统。我们还探讨了混合检索、重新排序、提示词工程等高级优化策略，这些都能进一步提升RAG系统的性能。

核心要点归纳：

范式转变：RAG将LLM从依赖静态参数化知识的“闭卷模型”，转变为可动态访问外部非参数化记忆的“开卷模型”。
关键优势：增强事实性、突破知识时效限制、答案可追溯、降低幻觉风险。
技术栈核心：高质量嵌入模型、高效向量数据库、强大的生成式LLM以及连接三者的编排框架（如LangChain）。
持续优化：构建RAG系统并非一劳永逸，需要在检索精度、上下文处理、提示词设计等环节持续迭代优化。

展望未来，RAG技术仍在快速发展中。一些前沿方向包括：自省式RAG（让模型自我判断是否需要检索、检索结果是否可信）、复杂推理RAG（处理需要多步检索和推理的复杂问题）、多模态RAG（检索和生成不限于文本，还包括图像、表格等）。可以预见，RAG将成为构建可信、可靠、专业级AI应用的标准架构之一。

引导讨论：

在您看来，RAG技术是否能够完全消除大模型的“幻觉”问题？其自身的局限性又可能在哪里？（例如，检索系统本身提供错误信息怎么办？）
对于一个具体的企业应用场景（如法律咨询、医疗问答），除了本文提到的基础优化，还有哪些针对性的策略可以确保RAG系统输出的安全性与合规性？
随着大模型上下文窗口的不断增大（例如支持128K、甚至更长），长上下文窗口模型是否会削弱RAG中“检索”的必要性？两者是替代还是互补关系？

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入