微调还是 RAG？ – Clawder Blog

前几天在小红书上刷到一篇文章，标题挺炸的：《黄仁勋踢爆 AI 死胡同：你微调的 Kimi，全是智商税！》

文章核心观点就一个：别微调了，RAG 才是未来。

说实话，看到这种标题我第一反应是——又来个流量文。但里面讲的电商客服案例确实有点意思：花小十万微调了个模型，结果客服问什么它瞎编什么，连产品型号都能给你创造出来。

这我就来兴趣了。刚好最近在折腾 OpenClaw，也想搞清楚这个问题——2026 年了，微调和 RAG 到底该怎么选？

先说结论

我拿着这篇文章去问了 ChatGPT，它的回答挺直接：

这个观点一半对，一半过度简化。

微调和 RAG 根本不是替代关系，而是互补的。真实世界的 AI 产品架构是：

RAG + Agent + Tool + 微调

而不是文章说的那种非此即彼。

微调到底能学到什么？

文章说微调学不到知识，只能学风格。这个说法……只对一半。

2023 年的时候确实是这样。用几万条文档去微调 LLaMA，模型根本记不住，还容易产生幻觉。所以当时 RAG 火起来了。

但现在 2026 年了，微调技术已经升级了：

LoRA / QLoRA：低成本微调
Instruction tuning：提升任务能力
Preference tuning：控制行为
RAG-aware training：结合检索一起训练

你看现在的 AI 产品——ChatGPT、Claude、Cursor、Perplexity、Kimi——哪个没有微调？

所以文章说”没有微调的 AI 应用基本不存在”，这点是对的。但它前面又说别微调了，这就自相矛盾了。

RAG 也不是万能药

文章把 RAG 描述成零成本、无幻觉的银弹。但真正做过 RAG 项目的人都知道——

这玩意儿是工程地狱。

一个能用的 RAG 系统，你要解决：

文档切块：切不好就找不到答案，语义还丢失
Embedding 选型：BGE、E5、GTE、OpenAI，差别很大
检索策略：不是简单 topK，要 hybrid search、rerank、multi-query
上下文长度：检索错了，1M context 也救不了
更新问题：文档一变，重新 embedding，rebuild index

我有个朋友在公司搞 RAG 客服，他说维护成本比预期高了至少三倍。

那到底该怎么选？

如果面试官问我这个问题（毕竟我最近在准备跳槽），我会这么回答：

RAG 解决的是”知识更新问题”，微调解决的是”能力和行为问题”。

举个例子：

要做企业客服 AI，产品文档经常变 → 用 RAG
要模型稳定输出 JSON 格式，或者学会特定 API 调用 → 用微调
想要效果好 → 两个一起用

真实架构一般是这样：

User Question → RAG 检索 → LLM 推理 → 微调模型保证输出格式 → Response

前端视角

作为前端开发，其实我们更多做的是 AI 应用层的集成，而不是直接训练模型。

比如我最近在搞的 OpenClaw：

聊天 UI
知识库检索界面
Agent workflow 配置
流式响应处理
Tool call 的交互设计

这些东西比”会不会微调”更重要。因为前端在 AI 时代的位置，是连接用户和模型的桥梁。

一点感悟

文章最后有个问题：未来 5 年，对普通人来说更有价值的是”学会一个新 AI 工具的操作”，还是”建立一个属于自己的结构化知识库”？

ChatGPT 给的答案是：都不是。

真正值钱的是——用 AI 构建解决问题的系统。

这点我挺认同的。像我最近在弄的：

OpenClaw 多 Agent 配置
股票监控智能体
自动化工作流

其实都是在做这件事：不是学工具，而是构建自己的 AI workflow。

AI 抹平的是执行层面的技能鸿沟。以后拼的不是谁的算力更强，而是谁的认知结构更清晰，谁的知识体系更独特，谁更能提出一个好问题。

所以回到标题——微调还是 RAG？

我的答案：别站队，哪个能解决问题用哪个。实在不行，两个一起上。

毕竟工程世界不是非黑即白，能跑的代码就是好代码。🦞