向量数据库

做 RAG 系统绕不开向量数据库的选型。这篇文章从工程角度做个横评。核心功能对比 Chroma Pinecone Weaviate Milvus 部署方式本地/云纯云服务本地/云本地/云开源 ✓ ✗ ✓ ✓ Python SDK ✓ ✓ ✓ ✓ 混合检索部分 ✓ ✓ ✓ 适合规模小-中中-大中-大大 Chroma：本地开发首选 import chromadb client = chromadb.PersistentClient(path="./chroma_db") collection = client.get_or_create_collection( name="my_docs", metadata={"hnsw:space": "cosine"} ) # 添加文档 collection.add( documents=["RAG 是检索增强生成", "向量数据库存储高维向量"], ids=["doc1", "doc2"] ) # 查询 results = collection.query( query_texts=["什么是检索增强？"], n_results=3 ) 适合场景：本地开发、原型验证、数据量 < 100 万条。优点：零配置启动，和 LangChain 深度集成。缺点：性能和功能不适合大规模生产。 Pinecone：托管云服务 from pinecone import Pinecone, ServerlessSpec pc = Pinecone(api_key="your-key") pc.create_index( name="my-index", dimension=1536, metric="cosine", spec=ServerlessSpec(cloud="aws", region="us-east-1") ) index = pc.Index("my-index") # 插入向量 index.upsert(vectors=[ ("id1", [0.1, 0.2, ...], {"text": "原始文本", "source": "doc.pdf"}), ]) # 查询 results = index.query( vector=[0.1, 0.2, ...], top_k=5, filter={"source": "doc.pdf"}, # 元数据过滤 include_metadata=True ) 适合场景：不想运维、快速上线、预算充足。 ...

LLM 有两个核心局限：知识有截止日期、无法访问私有数据。RAG（Retrieval-Augmented Generation）是目前解决这两个问题最主流的方案。 RAG 的基本流程文档 → 切块 → Embedding → 存入向量库 ↓ 用户问题 → Embedding → 向量检索 → 召回相关块 → 组合 Prompt → LLM → 回答四个核心步骤：文档处理、向量化、检索、生成。文档切块文档太长无法直接塞给模型，需要切成小块： from langchain.text_splitter import RecursiveCharacterTextSplitter splitter = RecursiveCharacterTextSplitter( chunk_size=500, chunk_overlap=50, # 相邻块有重叠，避免信息割裂 separators=["\n\n", "\n", "。", "，", " "] ) chunks = splitter.split_documents(docs) chunk_overlap 是个容易忽略的参数——它让相邻的块有内容重叠，避免一句话被硬切断导致语义丢失。 Embedding 与向量存储 from langchain_openai import OpenAIEmbeddings from langchain_community.vectorstores import Chroma embeddings = OpenAIEmbeddings(model="text-embedding-3-small") # 将文档块向量化并存入 Chroma vectorstore = Chroma.from_documents( documents=chunks, embedding=embeddings, persist_directory="./chroma_db" ) 向量数据库本质是做高维空间的近邻搜索。Chroma 适合本地开发，生产环境可以考虑 Pinecone、Weaviate 或自建 Milvus。检索与生成 from langchain.chains import RetrievalQA retriever = vectorstore.as_retriever( search_type="similarity", search_kwargs={"k": 4} # 召回最相关的 4 个块 ) qa_chain = RetrievalQA.from_chain_type( llm=ChatOpenAI(model="gpt-3.5-turbo"), retriever=retriever, return_source_documents=True ) result = qa_chain.invoke({"query": "公司的请假政策是什么？"}) print(result["result"]) 几个影响效果的关键点切块策略：chunk_size 太小，单块缺乏上下文；太大，引入噪声。通常 300-600 tokens 是个比较合适的范围。 ...

向量数据库

向量数据库横评：Chroma vs Pinecone vs Weaviate vs Milvus

RAG 系统从零搭建：检索增强生成的原理与实践