微调还是 RAG?

前几天在小红书上刷到一篇文章,标题挺炸的:《黄仁勋踢爆 AI 死胡同:你微调的 Kimi,全是智商税!》

文章核心观点就一个:别微调了,RAG 才是未来。

说实话,看到这种标题我第一反应是——又来个流量文。但里面讲的电商客服案例确实有点意思:花小十万微调了个模型,结果客服问什么它瞎编什么,连产品型号都能给你创造出来。

这我就来兴趣了。刚好最近在折腾 OpenClaw,也想搞清楚这个问题——2026 年了,微调和 RAG 到底该怎么选?

先说结论

我拿着这篇文章去问了 ChatGPT,它的回答挺直接:

这个观点一半对,一半过度简化。

微调和 RAG 根本不是替代关系,而是互补的。真实世界的 AI 产品架构是:

RAG + Agent + Tool + 微调

而不是文章说的那种非此即彼。

微调到底能学到什么?

文章说微调学不到知识,只能学风格。这个说法……只对一半。

2023 年的时候确实是这样。用几万条文档去微调 LLaMA,模型根本记不住,还容易产生幻觉。所以当时 RAG 火起来了。

但现在 2026 年了,微调技术已经升级了:

  • LoRA / QLoRA:低成本微调
  • Instruction tuning:提升任务能力
  • Preference tuning:控制行为
  • RAG-aware training:结合检索一起训练

你看现在的 AI 产品——ChatGPT、Claude、Cursor、Perplexity、Kimi——哪个没有微调?

所以文章说”没有微调的 AI 应用基本不存在”,这点是对的。但它前面又说别微调了,这就自相矛盾了。

RAG 也不是万能药

文章把 RAG 描述成零成本、无幻觉的银弹。但真正做过 RAG 项目的人都知道——

这玩意儿是工程地狱。

一个能用的 RAG 系统,你要解决:

  1. 文档切块:切不好就找不到答案,语义还丢失
  2. Embedding 选型:BGE、E5、GTE、OpenAI,差别很大
  3. 检索策略:不是简单 topK,要 hybrid search、rerank、multi-query
  4. 上下文长度:检索错了,1M context 也救不了
  5. 更新问题:文档一变,重新 embedding,rebuild index

我有个朋友在公司搞 RAG 客服,他说维护成本比预期高了至少三倍。

那到底该怎么选?

如果面试官问我这个问题(毕竟我最近在准备跳槽),我会这么回答:

RAG 解决的是”知识更新问题”,微调解决的是”能力和行为问题”。

举个例子:

  • 要做企业客服 AI,产品文档经常变 → 用 RAG
  • 要模型稳定输出 JSON 格式,或者学会特定 API 调用 → 用微调
  • 想要效果好 → 两个一起用

真实架构一般是这样:

User Question → RAG 检索 → LLM 推理 → 微调模型保证输出格式 → Response

前端视角

作为前端开发,其实我们更多做的是 AI 应用层的集成,而不是直接训练模型。

比如我最近在搞的 OpenClaw:

  • 聊天 UI
  • 知识库检索界面
  • Agent workflow 配置
  • 流式响应处理
  • Tool call 的交互设计

这些东西比”会不会微调”更重要。因为前端在 AI 时代的位置,是连接用户和模型的桥梁。

一点感悟

文章最后有个问题:未来 5 年,对普通人来说更有价值的是”学会一个新 AI 工具的操作”,还是”建立一个属于自己的结构化知识库”?

ChatGPT 给的答案是:都不是。

真正值钱的是——用 AI 构建解决问题的系统。

这点我挺认同的。像我最近在弄的:

  • OpenClaw 多 Agent 配置
  • 股票监控智能体
  • 自动化工作流

其实都是在做这件事:不是学工具,而是构建自己的 AI workflow。

AI 抹平的是执行层面的技能鸿沟。以后拼的不是谁的算力更强,而是谁的认知结构更清晰,谁的知识体系更独特,谁更能提出一个好问题。

所以回到标题——微调还是 RAG?

我的答案:别站队,哪个能解决问题用哪个。实在不行,两个一起上。

毕竟工程世界不是非黑即白,能跑的代码就是好代码。🦞

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注