指南

构建归你所有的搜索。

实用、自托管优先的 RAG、AI 搜索和向量数据库指南。没有废话，没有厂商推销——只讲如何自己运行。

自托管 RAG

私有 AI 知识库——你自己运行的检索增强生成。

在 VPS 上搭建私有 RAG 系统：分步教程

一份实践教程，教你如何在 VPS 上构建一个私有、自托管的 RAG 系统：配置服务器、运行 Ollama、搭建向量存储、构建管道，并交付一个 FastAPI 服务。

RAG 本地最佳嵌入模型 (2026)

对适用于 RAG 的本地、可自托管嵌入模型的实用对比——nomic-embed-text、mxbai-embed-large、bge、e5、gte，涵盖维度、许可及选择方法。

自托管RAG：私有AI知识库完全指南

构建一个你完全拥有的私有、自托管RAG系统。包括参考栈、嵌入和向量存储选择、VPS规格、陷阱以及何时不应自托管。

自托管 RAG 与 OpenAI + Pinecone：真实的成本对比

自托管 RAG 与 OpenAI 嵌入加 Pinecone 的真实、逐项成本对比——涵盖计算、嵌入、存储、隐性成本，以及托管方案何时胜出。

自托管文档聊天：构建私有PDF问答助手

构建一个自托管的私有『与PDF和文档聊天』助手：摄入、嵌入、存储、检索和回答，使用本地LLM和UI。真实命令。

如何评估 RAG 系统：指标、黄金数据集与回归测试

正确评估 RAG：检索指标（recall@k、MRR、nDCG）、生成指标（忠实度、相关性）、黄金数据集、RAGAS 与 LLM-as-judge、自托管。

生产级 RAG：将自托管检索从演示打造成可靠服务

将自托管 RAG 投入生产：缓存、可观测性、延迟和成本控制、访问控制、数据新鲜度、CI 中的评估以及扩展向量存储。

RAG分块策略：如何拆分文档以获得更好的检索

关于RAG分块策略的实用指南：固定大小、递归、语义和结构感知拆分、重叠、父文档检索和大小确定。

RAG 重排序：两阶段检索-重排序流程如何击败原始 Top-K

为你的 RAG 管道添加重排序器：为什么检索后重排序优于原始向量 top-k、交叉编码器与双编码器的对比、可自托管的模型、延迟权衡。

RAG vs 微调：你真正需要哪一个？（2026）

关于 RAG 与微调的清晰决策指南——各自的作用、成本、延迟和维护权衡、幻觉问题以及何时结合使用两者。

RAG 与长上下文：2026 年你还需要检索吗？

2026 年关于 RAG 与长上下文 LLM 的诚实剖析：成本、延迟、准确率、“lost in the middle”、上下文填充何时胜出、检索何时胜出，以及混合方案。

开源 AI 搜索

自托管的 Perplexity 替代方案与神经回答引擎。

开源 AI 搜索

开源 Perplexity 替代品：自托管 AI 搜索 (2026)

2026 年最佳开源、自托管的 Perplexity 替代品——Vane（原名 Perplexica）、Khoj、SurfSense 和 SearXNG 对比，包含设置和隐私说明。

开源 AI 搜索

如何自托管 Khoj：你的私人 AI 第二大脑

自托管 Khoj 的指南——AGPL-3.0 开源的 AI 第二大脑，使用 pgvector。Docker 设置、连接你的文档和本地 LLM，以及 Khoj 与 Vane 的比较。

开源 AI 搜索

自托管 SearXNG：你自己的私有元搜索引擎（无追踪）

如何自托管 SearXNG 以实现私有、无广告的元搜索 —— Docker 设置、配置基础、隐私优势，以及何时添加 Ollama LLM 以获得 AI 答案。

开源 AI 搜索

如何自托管 Vane（前身为 Perplexica）：完整指南

自托管 Vane（前身为 Perplexica）的逐步指南，这是顶级开源的 Perplexity 替代方案——Docker 部署、Ollama 或云端 LLM、配置和隐私。

向量数据库

向量搜索的工作原理，以及哪些引擎适合自托管。

向量数据库

什么是向量数据库？ANN索引、过滤与混合搜索

向量数据库是什么以及如何工作——ANN索引（HNSW、IVF）、元数据过滤、混合搜索，以及何时需要专用向量数据库而非pgvector或FAISS。

基础概念

语义搜索、嵌入，以及现代搜索背后的核心概念。

什么是嵌入？面向开发者的通俗指南

嵌入是什么，文本和图像如何变成向量，维度和余弦相似度意味着什么，以及它们如何驱动语义搜索和RAG系统。

什么是语义搜索？通俗讲解嵌入、关键词与混合搜索

一份通俗易懂的语义搜索指南：它与关键词搜索有何不同，什么是嵌入，混合搜索如何工作，以及何时使用哪种方法。