这几年我用 AI 写代码的那些真实心路历程！

其实我从2023年就开始玩AI写代码了

说实话，那时候更多是在“围观”这玩意儿，没怎么当真能帮我干活。那时候根本没有IDE插件，也没什么智能代理，更别提现在这些炫酷的工作流。用法超级原始：

打开聊天窗口让AI写代码 -> 复制粘贴到IDE -> 出错 -> 把报错信息贴回聊天框继续问。
你可能感兴趣：Qoder，助你从“代码小白”蜕变为“技术大师”！

回头看，那时候的模型确实挺弱的。

稍微复杂点的需求，经常得折腾十几轮才能勉强跑起来，代码质量嘛，别提了。不过说实话，那种新鲜感还是挺震撼的。脑子里第一个念头就是：

完了，AI出来后，最先被颠覆的，可能真的是程序员这行！

转折点？从Claude 3.x开始

后来我也试过ChatGPT、Qwen这些模型，但真正让我开始把AI写代码当正经活用进项目，是从Claude 3.x开始的。

那个阶段，AI写代码的感觉就不一样了：

出错少了，明显能看出来
能连着输出一大段代码
不再是“玩具”了，能真干活了

不过问题也挺明显的。

Claude 3.x写出的代码有个招牌毛病：

能跑起来，但很容易乱成一锅粥。

比如：

为了修一个问题，顺带改了很多没关系的代码
今天修了bug A，明天又冒出bug B，都是昨天改的惹的祸
文件越写越多，逻辑越来越乱，像一堆堆“屎山”自动生成的

我这种喜欢尝鲜的人还是敢用，主要就是自己得盯得紧点。

Claude 4.x：虽然进步明显，但还没彻底变革

到了Claude 4.x，确实有了不小的提升：

细节处理更稳妥
代码质量明显比3.x好
对代码结构的理解更深了

我们公司从这时候开始，才大规模用AI写代码。

但是老毛病依旧没消失：

它还是爱乱动代码。

哪怕某段逻辑已经完美运行，只要你没特别说“这里别碰”，它下一次生成代码时就可能给你改坏。项目没写单元测试的话，有些坑可能拖几周才发现。

说白了，它更像个认真但手贱的工程师。

GPT-5出来后，我反而主要转向用Codex了

GPT-5一出来，网上大家对它写代码的能力不怎么看好，但实际情况挺扎心，我慢慢把开发重心转到了Codex。

原因有两条：

先说第一个，非常现实：

Anthropic把中国标成了“敌对国家”。
我真搞不懂CEO在百度都经历了啥，觉得这个决定很荒唐。

第二个才是关键：
Codex的工作节奏和思路，跟其他AI完全不同。

打个比方：

Claude像个工作了3-5年的年轻工程师，拿到需求后马上开干，五分钟能给你一版，整体还不错，但代码得仔细检查
Codex更像个40、50岁的老工程师，先花十分钟仔细阅读代码，没急着动手，看起来慢吞吞的，但一旦开始改，动作特别克制

同样一个需求：

Claude五分钟搞定
Codex可能要花三十分钟

不过Codex交付的代码更靠谱：

不太会乱动和需求无关的地方
会主动考虑一些你没说但容易踩坑的细节

现在我基本上是这么用的：

用Codex写代码当主力
Claude扮演“资深工程师”，帮Codex做代码审核

这套组合用起来特别省心。偶尔我也反着用，IDE右侧开Claude，左侧开Codex，两个模型交叉对比，挺方便。顺便说一句，Codex对跨多个模块的大需求改动特别稳妥。

顺便吐槽下，Claude真是太贵了

开发任务多的时候，Claude一20刀的token，基本两三天就没了。用的时候心里还特别紧张，生怕一不小心用多了，像Sonnect、Opus一下跑掉十刀都不奇怪。

相比之下，Codex用的是ChatGPT Plus的20刀套餐，token用得特别宽松。我主观感觉，至少比Claude多用五倍以上的token量。

长期下来，这成本差距真的很明显。

Gemini 3.0 Pro：UI设计这块，真有两把刷子

最近我试了下Gemini 3.0 Pro，尤其它在前端设计方面的表现，超出了我的预期。不是那种一看就知道是AI做的那种“假页面”，而是：

结构清晰合理
视觉简洁干净
有品味，不浮夸

我顺手让它写了几个经典小游戏，像俄罗斯方块之类的，基本都是一次通过，而且界面效果挺赞。

至于后端逻辑，我还没深入用，目前感觉没前端那么惊艳。

说说IDE和工具：Kiro思路靠谱，Trae价格给力

我之前主力用Cursor差不多一年，还订阅了挺久，直到：

限制中国账号用Claude
计费改成按token算

那时候我就彻底放弃了。

后来换着试了Trae、Qoder、CodeBuddy、Kiro等工具。

Kiro让我印象深刻的是它的spec-driven开发思路。其实这套路我早就用过了：

我先给出概念
AI帮我生成需求
我调整需求
AI生成设计
我拆分任务
AI开始写代码

Kiro的厉害之处在于，它把这套流程整合得特别顺畅，逼着你先把思路理清楚再写代码。

Trae则完全是另一条路：

便宜得让人心动。

现在价格是10刀能发600次请求，还送300次，就算你只用它聊天，也超划算。所以我一直在订阅。

虽然模型表现一般，和Cursor里的Claude 4.5比，Trae给的结果明显弱一些。我觉得主要是上下文限制了，而不是系统提示的问题（这些IDE用的prompt都能在GitHub上找到，虽然不一定是最新的）。

不过Trae的Codex High模型还不错，感觉和Codex原版没差太多，性价比相当高。

总结：大规模用AI写代码，控制方法很关键

到了现在，Codex 5.x、Claude 4.5、Gemini 3.0这些模型写代码的能力，其实已经很强了。

我的结论很简单：

不大规模用AI写代码，你肯定吃亏。

但前提是，你得有一套自己的“管控秘籍”，比如：

每次让AI改代码时，边界要划清楚
哪些地方绝对不能动，必须明确告诉它（虽然Claude有时候还是会乱动）
关键路径的代码必须人工或AI认真review
一定要有基本的测试保障

说到底，AI就像一台超强放大器：

你技术好，它帮你放大；你技术差，它也会把问题放大。

总结一句：程序员这碗饭，恐怕真快要被AI给颠覆了！

来源：知乎

原文标题：这几年用 AI 写代码的一点真实感受

原文链接：https://zhuanlan.zhihu.com/p/1985299385656042482

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！