- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

10 万文档干崩 RAG？这套架构救了我

HELLO程序员发表于 2025/12/13 13:32:53 2025/12/13

【摘要】为一家医药科技公司开发检索增强生成（RAG）系统刚满三个月，一切就全乱套了。一家手握 10 万份医疗文献、病例报告的医疗机构，结果整个搜索架构直接被数据量压垮。错误日志惨不忍睹：查询超时、内存暴毙、生成嵌入向量要整整 6 小时。那夜我从头重构了整个系统。这次踩坑让我对 RAG 系统的认知彻底颠覆，现在就把这套能支撑 10 万份医疗文档、响应时间不足一秒的架构原封不动分享给你 —— 连可直接...

为一家医药科技公司开发检索增强生成（RAG）系统刚满三个月，一切就全乱套了。一家手握 10 万份医疗文献、病例报告的医疗机构，结果整个搜索架构直接被数据量压垮。

错误日志惨不忍睹：查询超时、内存暴毙、生成嵌入向量要整整 6 小时。

那夜我从头重构了整个系统。这次踩坑让我对 RAG 系统的认知彻底颠覆，现在就把这套能支撑 10 万份医疗文档、响应时间不足一秒的架构原封不动分享给你 —— 连可直接跑的代码都准备好了。

没人敢说的真相：RAG 的扩容根本不是线性的

大部分 RAG 教程教你索引 100 个 PDF 就收手，说好听点是入门示例，说难听点就是生产环境完全用不上的花架子。

真正扩容时会发生什么？现实会教你做人：

1000 份文档： naive 向量搜索还能凑合用，检索 200 毫秒搞定，你直呼自己是天才；
10000 份文档：查询慢到 2 秒，嵌入向量的费用飙上天，你开始怀疑人生；
100000 份文档：全崩！查询超时、向量数据库占满 64GB 内存，AWS 账单能让你哭出声。

问题不只是数据量 —— RAG 系统有三个相互关联的瓶颈，而且会呈指数级叠加：数据摄入流水线、检索准确性、生成质量。一个优化不当，另外两个就会跟着崩盘。

真正能落地的架构方案

踩废五种方案后，这套架构终于在生产环境扛住了 10 万份医疗文档的压力：

第一层：智能文档处理

再像愣头青一样盲目切分文档可就太业余了。

我搭建了一套能理解医疗文档结构的语义切分流水线：临床指南和科研论文的切分逻辑完全不同，药品说明书要保留条款边界，病例报告得维持跨章节的诊疗上下文连贯性。

这是我正在用的切分核心代码：

from typing import List, Dict
import tiktoken

class SemanticChunker:
    def __init__(self, chunk_size: int = 300, overlap: int = 50):
        self.chunk_size = chunk_size
        self.overlap = overlap
        self.encoder = tiktoken.get_encoding("cl100k_base")
    
    def chunk_document(self, text: str, metadata: Dict) -> List[Dict]:
        # 检测文档结构
        sections = self._detect_sections(text)
        chunks = []
        
        for section in sections:
            # 尊重语义边界
            if self._is_atomic_section(section):
                chunks.append(self._create_chunk(section, metadata))
            else:
                # 带重叠的大章节拆分
                sub_chunks = self._split_with_overlap(
                    section, 
                    self.chunk_size, 
                    self.overlap
                )
                chunks.extend([
                    self._create_chunk(chunk, metadata) 
                    for chunk in sub_chunks
                ])
        
        return chunks
    
    def _split_with_overlap(self, text: str, size: int, overlap: int) -> List[str]:
        tokens = self.encoder.encode(text)
        chunks = []
        
        for i in range(0, len(tokens), size - overlap):
            chunk_tokens = tokens[i:i + size]
            chunks.append(self.encoder.decode(chunk_tokens))
        
        return chunks
    
    def _create_chunk(self, text: str, metadata: Dict) -> Dict:
        return {
            "text": text,
            "metadata": {
                **metadata,
                "chunk_size": len(self.encoder.encode(text)),
                "preview": text[:100] + "..."
            }
        }

就这一个改动，检索准确率直接提升 34%。原来医疗文档的上下文边界（如诊断结论与用药方案的关联性）比切分长度重要多了！

第二层：混合搜索架构

说个容易挨喷的结论：纯向量搜索被吹过头了。

我用了三种检索方式组合的混合系统，融合层是这么实现的：

from typing import List, Tuple
import numpy as np
from qdrant_client import QdrantClient
from rank_bm25 import BM25Okapi

class HybridRetriever:
    def __init__(self, qdrant_client: QdrantClient, collection_name: str):
        self.qdrant = qdrant_client
        self.collection_name = collection_name
        self.bm25 = None  # 索引时初始化
        
    def retrieve(self, query: str, top_k: int = 10) -> List[Dict]:
        # 稠密向量检索结果
        query_vector = self._embed(query)
        dense_results = self.qdrant.search(
            collection_name=self.collection_name,
            query_vector=query_vector,
            limit=top_k * 2  # 获取更多候选结果
        )
        
        # 稀疏向量（BM25）检索结果
        sparse_results = self._bm25_search(query, top_k * 2)
        
        # reciprocal rank fusion（ reciprocal rank fusion）
        fused_results = self._reciprocal_rank_fusion(
            dense_results, 
            sparse_results, 
            k=60
        )
        
        # 交叉编码器重排
        reranked = self._cross_encode_rerank(query, fused_results[:20])
        
        return reranked[:top_k]
    
    def _reciprocal_rank_fusion(
        self, 
        dense: List, 
        sparse: List, 
        k: int = 60
    ) -> List[Tuple[str, float]]:
        scores = {}
        
        # 稠密结果打分
        for rank, result in enumerate(dense, 1):
            doc_id = result.id
            scores[doc_id] = scores.get(doc_id, 0) + 1 / (k + rank)
        
        # 稀疏结果打分
        for rank, (doc_id, _) in enumerate(sparse, 1):
            scores[doc_id] = scores.get(doc_id, 0) + 1 / (k + rank)
        
        # 按综合得分排序
        ranked = sorted(scores.items(), key=lambda x: x[1], reverse=True)
        return ranked
    
    def _cross_encode_rerank(
        self, 
        query: str, 
        candidates: List[Tuple[str, float]]
    ) -> List[Dict]:
        from sentence_transformers import CrossEncoder
        
        model = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')
        
        # 获取候选文本
        texts = [self._get_document(doc_id) for doc_id, _ in candidates]
        
        # 对查询-文档对打分
        pairs = [[query, text] for text in texts]
        scores = model.predict(pairs)
        
        # 融合得分计算
        final_scores = [
            (doc_id, 0.7 * ce_score + 0.3 * fusion_score)
            for (doc_id, fusion_score), ce_score 
            in zip(candidates, scores)
        ]
        
        return sorted(final_scores, key=lambda x: x[1], reverse=True)

启用混合搜索后的核心指标，简直是质的飞跃：

召回率 @10：87%（从 62% 提升）
平均倒数排名（MRR）：0.78（从 0.54 提升）
查询延迟：平均 380 毫秒

第三层：向量数据库选型揭秘

我测了 Pinecone、Weaviate、Qdrant 和 Milvus，结论如下：

Pinecone 上手简单到离谱，但扩容后贵得肉疼 ——10 万份带元数据的医疗文档，月费要 800 美元；
Weaviate 自定义性强，但更新起来巨慢，重新索引能等得你花儿都谢了；

最终选了 Qdrant：开源免费、速度飞起，而且量化功能直接帮我把内存占用砍了 60%。这是生产环境用的索引流水线：

from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams, PointStruct
import uuid

class DocumentIndexer:
    def __init__(self, qdrant_url: str):
        self.client = QdrantClient(url=qdrant_url)
        
    def create_collection(self, collection_name: str, vector_size: int = 1536):
        self.client.create_collection(
            collection_name=collection_name,
            vectors_config=VectorParams(
                size=vector_size,
                distance=Distance.COSINE,
                on_disk=True  # 10万+医疗文档必备配置
            ),
            optimizers_config={
                "indexing_threshold": 20000,  # 2万文档后自动优化
            },
            quantization_config={
                "scalar": {
                    "type": "int8",  # 内存占用减到1/4
                    "quantile": 0.99,
                    "always_ram": True
                }
            }
        )
    
    def index_documents(self, documents: List[Dict], batch_size: int = 100):
        points = []
        
        for doc in documents:
            point = PointStruct(
                id=str(uuid.uuid4()),
                vector=doc["embedding"],
                payload={
                    "text": doc["text"],
                    "source": doc["source"],
                    "page": doc["page"],
                    "doc_type": doc["type"],  # 区分临床指南/科研论文/病例报告
                    "timestamp": doc["created_at"]
                }
            )
            points.append(point)
            
            # 批量插入
            if len(points) >= batch_size:
                self.client.upsert(
                    collection_name="medical_docs",
                    points=points
                )
                points = []
        
        # 插入剩余文档
        if points:
            self.client.upsert(
                collection_name="medical_docs",
                points=points
            )

杀手锏功能是元数据索引！用户想查 “2023 年涉及免疫治疗的肺癌临床研究” 时，能先按元数据过滤再跑向量搜索，效率直接拉满。

第四层：智能缓存策略

靠这招，我硬生生省下了 70% 的 API 费用。

这是语义缓存的实现代码：

import redis
import numpy as np
from typing import Optional, Tuple, List, Dict
import time

class SemanticCache:
    def __init__(self, redis_client: redis.Redis, similarity_threshold: float = 0.95):
        self.redis = redis_client
        self.threshold = similarity_threshold
        
    def get(self, query: str, query_embedding: np.ndarray) -> Optional[Dict]:
        # 获取所有缓存查询（生产环境建议用更高效的数据结构）
        cache_keys = self.redis.keys("cache:query:*")
        
        best_match = None
        highest_similarity = 0.0
        
        for key in cache_keys:
            cached_data = self.redis.hgetall(key)
            cached_embedding = np.frombuffer(
                cached_data[b'embedding'], 
                dtype=np.float32
            )
            
            # 计算相似度
            similarity = np.dot(query_embedding, cached_embedding) / (
                np.linalg.norm(query_embedding) * np.linalg.norm(cached_embedding)
            )
            
            # 追踪阈值以上的最佳匹配
            if similarity >= self.threshold and similarity > highest_similarity:
                highest_similarity = similarity
                best_match = {
                    "results": cached_data[b'results'].decode(),
                    "cache_hit": True,
                    "similarity": similarity
                }
        
        return best_match
    
    def set(self, query: str, query_embedding: np.ndarray, results: List[Dict], ttl: int = 3600):
        cache_key = f"cache:query:{hash(query)}"
        
        self.redis.hset(cache_key, mapping={
            "query": query,
            "embedding": query_embedding.tobytes(),
            "results": str(results),  # 生产环境建议用JSON序列化
            "timestamp": time.time()
        })
        
        self.redis.expire(cache_key, ttl)

两周后的缓存命中率：64%。每个月直接省下几千美元，香到不行。

生成层：大多数人栽跟头的地方

检索到正确医疗文档只是上半场，LLM 能不能把这些专业信息用对才是关键。

这是我生产环境在用的提示词工程 + 上下文管理方案：

from typing import List
import openai

class RAGGenerator:
    def __init__(self, model: str = "gpt-4-turbo-preview"):
        self.model = model
        self.max_context_tokens = 6000  # 给响应留足token空间
        
    def generate(self, query: str, retrieved_docs: List[Dict]) -> Dict:
        # 智能打包上下文
        context = self._pack_context(retrieved_docs, self.max_context_tokens)
        
        # 构建提示词
        prompt = self._build_prompt(query, context)
        
        # 带引用生成答案
        response = openai.ChatCompletion.create(
            model=self.model,
            messages=[
                {"role": "system", "content": self._get_system_prompt()},
                {"role": "user", "content": prompt}
            ],
            temperature=0.1,  # 医疗类事实性回答用低温度
            max_tokens=1000
        )
        
        return {
            "answer": response.choices[0].message.content,
            "sources": self._extract_citations(response.choices[0].message.content),
            "context_used": context
        }
    
    def _pack_context(self, docs: List[Dict], max_tokens: int) -> List[Dict]:
        # 按相关性得分排序
        sorted_docs = sorted(docs, key=lambda x: x['score'], reverse=True)
        packed = []
        token_count = 0
        
        for doc in sorted_docs:
            # 粗略估算token数
            doc_tokens = len(doc['text'].split()) * 1.3
            
            if token_count + doc_tokens > max_tokens:
                break
                
            packed.append(doc)
            token_count += doc_tokens
        
        return packed
    
    def _build_prompt(self, query: str, context: List[Dict]) -> str:
        context_text = "\n\n".join([
            f"[文档 {i+1}]（来源：{doc['source']}，页码：{doc['page']}）\n{doc['text']}"
            for i, doc in enumerate(context)
        ])
        
        return f"""上下文文档：
{context_text}

问题：{query}

请仅基于上述上下文提供全面、专业的医疗相关回答。
每个医学主张后需用[文档X，页码Y]格式标注来源。"""
    
    def _get_system_prompt(self) -> str:
        return """你是一名专业的医疗文档分析助手。

规则：
1. 仅使用提供的上下文信息回答医疗相关问题
2. 每个医学主张必须标注[文档X，页码Y]来源
3. 若上下文无相关信息，回复“所提供医疗文档中未包含关于[主题]的信息”
4. 严禁主观推测或使用外部医疗知识
5. 语言需专业、精准，符合医疗行业表述规范"""

这波操作直接把幻觉率砍了 89%。医生、研究员能验证每一个医学主张的来源，用着才放心。

真正有价值的核心指标

上线六个月后，这些数据让我保住了工作：

查询响应时间：平均 1.2 秒（含 LLM 生成时间）
用户满意度：4.6/5（基于医护人员反馈调研）
单次查询成本：0.04 美元（优化前 0.28 美元）
系统可用性：99.7%
已处理文档：12.7 万份（含临床指南、科研论文、病例报告，还在持续增长）

但最关键的指标是：医生、研究员们现在天天用它，再也不用 Ctrl+F 在海量医疗文献中大海捞针了 —— 这才是对系统的终极认可。

三个再也不会犯的低级错误

错误 1：忽视文档预处理

一开始我直接从 PDF 里提取原始医疗文本，现在看简直蠢哭。OCR 错误、格式错乱、医学表格丢失（如临床试验数据），直接把检索质量搞崩。现在我组合用 pypdf、pdfplumber，遇到扫描版医学文献就上 AWS Textract。

错误 2：过度设计提示词

初代提示词写了 800 个 token 的医疗专业规则，结果 LLM 直接无视大半。后来发现，更短、更清晰、带医学示例的提示词效果好到飞起。

错误 3：不监控检索质量

以前光顾着盯着 LLM 输出，却不管检索的医疗文档对不对。这套监控代码，我真希望从第一天就写上：

import time
import json
import logging

class RAGMonitor:
    def __init__(self):
        self.logger = logging.getLogger(__name__)
        self.logger.setLevel(logging.INFO)
        
    def measure_latency(self) -> float:
        # 实际实现需记录查询全流程耗时
        return 0.0
        
    def update_metrics(self, log_entry: Dict):
        # 对接监控系统更新指标
        pass
        
    def log_query(self, query: str, retrieved_docs: List[Dict], 
                  user_feedback: Optional[int] = None):
        log_entry = {
            "timestamp": time.time(),
            "query": query,
            "num_results": len(retrieved_docs),
            "top_score": retrieved_docs[0]['score'] if retrieved_docs else 0,
            "user_feedback": user_feedback,
            "latency_ms": self.measure_latency()
        }
        
        # 写入监控系统
        self.logger.info(json.dumps(log_entry))
        
        # 追踪检索质量指标
        if user_feedback:
            self.update_metrics(log_entry)

检索要是错了，生成的医疗结论再好也白搭，甚至可能引发严重风险。

未来规划：下一步要做什么

目前正在测试这些方向：

多向量检索：给每个医疗文档片段生成多个不同维度的嵌入向量（如疾病维度、用药维度、临床试验维度）
主动学习：用医护人员的反馈微调检索器
图结构上下文：用医疗知识图谱连接相关文档片段（如疾病 - 药物 - 临床试验的关联）

目标不是追求完美，而是打造一个医护人员、研究员们比相信自己记忆还相信的医疗信息检索系统。

从小处着手，聪明扩容

如果你也在搭医疗领域的 RAG 系统，听我一句劝：别一上来就冲 10 万文档。

先从 1000 份医疗文献开始，把基础打牢，监控好每一个指标。然后逐步扩容，同时盯紧每个瓶颈。

我分享的这套架构能扛住 10 万份医疗文档，是因为我先用小数据集踩了三个月的坑。每一个优化点，都来自真实的医疗场景生产问题，而不是纸上谈兵的最佳实践。

用户（医护人员、研究员）根本不在乎你用什么向量数据库、什么嵌入模型 —— 他们只关心你的系统能不能比其他方案更快给出准确、可溯源的医疗信息。

就冲着这个目标去做就对了。

你搭建医疗领域 RAG 系统时遇到的最大挑战是什么？很好奇这些瓶颈是所有领域都有，还是医药科技的专属问题。欢迎在评论区分享你的经历。

本文基于一套服务三家医疗机构、日活 400 + 用户的生产系统撰写。所有性能指标均来自过去 30 天的监控面板平均值，代码示例虽经简化，但功能与生产环境完全一致。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

10 万文档干崩 RAG？这套架构救了我

没人敢说的真相：RAG 的扩容根本不是线性的

真正能落地的架构方案

第一层：智能文档处理

第二层：混合搜索架构

第三层：向量数据库选型揭秘

第四层：智能缓存策略

生成层：大多数人栽跟头的地方

真正有价值的核心指标

三个再也不会犯的低级错误

错误 1：忽视文档预处理

错误 2：过度设计提示词

错误 3：不监控检索质量

未来规划：下一步要做什么

从小处着手，聪明扩容

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

10 万文档干崩 RAG？这套架构救了我

没人敢说的真相：RAG 的扩容根本不是线性的

真正能落地的架构方案

第一层：智能文档处理

第二层：混合搜索架构

第三层：向量数据库选型揭秘

第四层：智能缓存策略

生成层：大多数人栽跟头的地方

真正有价值的核心指标

三个再也不会犯的低级错误

错误 1：忽视文档预处理

错误 2：过度设计提示词

错误 3：不监控检索质量

未来规划：下一步要做什么

从小处着手，聪明扩容

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品