前几天在小红书上刷到一篇文章,标题挺炸的:《黄仁勋踢爆 AI 死胡同:你微调的 Kimi,全是智商税!》
文章核心观点就一个:别微调了,RAG 才是未来。
说实话,看到这种标题我第一反应是——又来个流量文。但里面讲的电商客服案例确实有点意思:花小十万微调了个模型,结果客服问什么它瞎编什么,连产品型号都能给你创造出来。
这我就来兴趣了。刚好最近在折腾 OpenClaw,也想搞清楚这个问题——2026 年了,微调和 RAG 到底该怎么选?
先说结论
我拿着这篇文章去问了 ChatGPT,它的回答挺直接:
这个观点一半对,一半过度简化。
微调和 RAG 根本不是替代关系,而是互补的。真实世界的 AI 产品架构是:
RAG + Agent + Tool + 微调
而不是文章说的那种非此即彼。
微调到底能学到什么?
文章说微调学不到知识,只能学风格。这个说法……只对一半。
2023 年的时候确实是这样。用几万条文档去微调 LLaMA,模型根本记不住,还容易产生幻觉。所以当时 RAG 火起来了。
但现在 2026 年了,微调技术已经升级了:
- LoRA / QLoRA:低成本微调
- Instruction tuning:提升任务能力
- Preference tuning:控制行为
- RAG-aware training:结合检索一起训练
你看现在的 AI 产品——ChatGPT、Claude、Cursor、Perplexity、Kimi——哪个没有微调?
所以文章说”没有微调的 AI 应用基本不存在”,这点是对的。但它前面又说别微调了,这就自相矛盾了。
RAG 也不是万能药
文章把 RAG 描述成零成本、无幻觉的银弹。但真正做过 RAG 项目的人都知道——
这玩意儿是工程地狱。
一个能用的 RAG 系统,你要解决:
- 文档切块:切不好就找不到答案,语义还丢失
- Embedding 选型:BGE、E5、GTE、OpenAI,差别很大
- 检索策略:不是简单 topK,要 hybrid search、rerank、multi-query
- 上下文长度:检索错了,1M context 也救不了
- 更新问题:文档一变,重新 embedding,rebuild index
我有个朋友在公司搞 RAG 客服,他说维护成本比预期高了至少三倍。
那到底该怎么选?
如果面试官问我这个问题(毕竟我最近在准备跳槽),我会这么回答:
RAG 解决的是”知识更新问题”,微调解决的是”能力和行为问题”。
举个例子:
- 要做企业客服 AI,产品文档经常变 → 用 RAG
- 要模型稳定输出 JSON 格式,或者学会特定 API 调用 → 用微调
- 想要效果好 → 两个一起用
真实架构一般是这样:
User Question → RAG 检索 → LLM 推理 → 微调模型保证输出格式 → Response
前端视角
作为前端开发,其实我们更多做的是 AI 应用层的集成,而不是直接训练模型。
比如我最近在搞的 OpenClaw:
- 聊天 UI
- 知识库检索界面
- Agent workflow 配置
- 流式响应处理
- Tool call 的交互设计
这些东西比”会不会微调”更重要。因为前端在 AI 时代的位置,是连接用户和模型的桥梁。
一点感悟
文章最后有个问题:未来 5 年,对普通人来说更有价值的是”学会一个新 AI 工具的操作”,还是”建立一个属于自己的结构化知识库”?
ChatGPT 给的答案是:都不是。
真正值钱的是——用 AI 构建解决问题的系统。
这点我挺认同的。像我最近在弄的:
- OpenClaw 多 Agent 配置
- 股票监控智能体
- 自动化工作流
其实都是在做这件事:不是学工具,而是构建自己的 AI workflow。
AI 抹平的是执行层面的技能鸿沟。以后拼的不是谁的算力更强,而是谁的认知结构更清晰,谁的知识体系更独特,谁更能提出一个好问题。
所以回到标题——微调还是 RAG?
我的答案:别站队,哪个能解决问题用哪个。实在不行,两个一起上。
毕竟工程世界不是非黑即白,能跑的代码就是好代码。🦞
