
其实我从2023年就开始玩AI写代码了
说实话,那时候更多是在“围观”这玩意儿,没怎么当真能帮我干活。那时候根本没有IDE插件,也没什么智能代理,更别提现在这些炫酷的工作流。用法超级原始:
打开聊天窗口让AI写代码 -> 复制粘贴到IDE -> 出错 -> 把报错信息贴回聊天框继续问。
回头看,那时候的模型确实挺弱的。
稍微复杂点的需求,经常得折腾十几轮才能勉强跑起来,代码质量嘛,别提了。不过说实话,那种新鲜感还是挺震撼的。脑子里第一个念头就是:
完了,AI出来后,最先被颠覆的,可能真的是程序员这行!
转折点?从Claude 3.x开始
后来我也试过ChatGPT、Qwen这些模型,但真正让我开始把AI写代码当正经活用进项目,是从Claude 3.x开始的。
那个阶段,AI写代码的感觉就不一样了:
- 出错少了,明显能看出来
- 能连着输出一大段代码
- 不再是“玩具”了,能真干活了
不过问题也挺明显的。
Claude 3.x写出的代码有个招牌毛病:
能跑起来,但很容易乱成一锅粥。
比如:
- 为了修一个问题,顺带改了很多没关系的代码
- 今天修了bug A,明天又冒出bug B,都是昨天改的惹的祸
- 文件越写越多,逻辑越来越乱,像一堆堆“屎山”自动生成的
我这种喜欢尝鲜的人还是敢用,主要就是自己得盯得紧点。
Claude 4.x:虽然进步明显,但还没彻底变革
到了Claude 4.x,确实有了不小的提升:
- 细节处理更稳妥
- 代码质量明显比3.x好
- 对代码结构的理解更深了
我们公司从这时候开始,才大规模用AI写代码。
但是老毛病依旧没消失:
它还是爱乱动代码。
哪怕某段逻辑已经完美运行,只要你没特别说“这里别碰”,它下一次生成代码时就可能给你改坏。项目没写单元测试的话,有些坑可能拖几周才发现。
说白了,它更像个认真但手贱的工程师。
GPT-5出来后,我反而主要转向用Codex了
GPT-5一出来,网上大家对它写代码的能力不怎么看好,但实际情况挺扎心,我慢慢把开发重心转到了Codex。
原因有两条:
先说第一个,非常现实:
Anthropic把中国标成了“敌对国家”。
我真搞不懂CEO在百度都经历了啥,觉得这个决定很荒唐。
第二个才是关键:
Codex的工作节奏和思路,跟其他AI完全不同。
打个比方:
- Claude像个工作了3-5年的年轻工程师,拿到需求后马上开干,五分钟能给你一版,整体还不错,但代码得仔细检查
- Codex更像个40、50岁的老工程师,先花十分钟仔细阅读代码,没急着动手,看起来慢吞吞的,但一旦开始改,动作特别克制
同样一个需求:
- Claude五分钟搞定
- Codex可能要花三十分钟
不过Codex交付的代码更靠谱:
- 不太会乱动和需求无关的地方
- 会主动考虑一些你没说但容易踩坑的细节
现在我基本上是这么用的:
- 用Codex写代码当主力
- Claude扮演“资深工程师”,帮Codex做代码审核
这套组合用起来特别省心。偶尔我也反着用,IDE右侧开Claude,左侧开Codex,两个模型交叉对比,挺方便。顺便说一句,Codex对跨多个模块的大需求改动特别稳妥。
顺便吐槽下,Claude真是太贵了
开发任务多的时候,Claude一20刀的token,基本两三天就没了。用的时候心里还特别紧张,生怕一不小心用多了,像Sonnect、Opus一下跑掉十刀都不奇怪。
相比之下,Codex用的是ChatGPT Plus的20刀套餐,token用得特别宽松。我主观感觉,至少比Claude多用五倍以上的token量。
长期下来,这成本差距真的很明显。
Gemini 3.0 Pro:UI设计这块,真有两把刷子
最近我试了下Gemini 3.0 Pro,尤其它在前端设计方面的表现,超出了我的预期。不是那种一看就知道是AI做的那种“假页面”,而是:
- 结构清晰合理
- 视觉简洁干净
- 有品味,不浮夸
我顺手让它写了几个经典小游戏,像俄罗斯方块之类的,基本都是一次通过,而且界面效果挺赞。
至于后端逻辑,我还没深入用,目前感觉没前端那么惊艳。
说说IDE和工具:Kiro思路靠谱,Trae价格给力
我之前主力用Cursor差不多一年,还订阅了挺久,直到:
- 限制中国账号用Claude
- 计费改成按token算
那时候我就彻底放弃了。
后来换着试了Trae、Qoder、CodeBuddy、Kiro等工具。
Kiro让我印象深刻的是它的spec-driven开发思路。其实这套路我早就用过了:
- 我先给出概念
- AI帮我生成需求
- 我调整需求
- AI生成设计
- 我拆分任务
- AI开始写代码
Kiro的厉害之处在于,它把这套流程整合得特别顺畅,逼着你先把思路理清楚再写代码。
Trae则完全是另一条路:
便宜得让人心动。
现在价格是10刀能发600次请求,还送300次,就算你只用它聊天,也超划算。所以我一直在订阅。
虽然模型表现一般,和Cursor里的Claude 4.5比,Trae给的结果明显弱一些。我觉得主要是上下文限制了,而不是系统提示的问题(这些IDE用的prompt都能在GitHub上找到,虽然不一定是最新的)。
不过Trae的Codex High模型还不错,感觉和Codex原版没差太多,性价比相当高。
总结:大规模用AI写代码,控制方法很关键
到了现在,Codex 5.x、Claude 4.5、Gemini 3.0这些模型写代码的能力,其实已经很强了。
我的结论很简单:
不大规模用AI写代码,你肯定吃亏。
但前提是,你得有一套自己的“管控秘籍”,比如:
- 每次让AI改代码时,边界要划清楚
- 哪些地方绝对不能动,必须明确告诉它(虽然Claude有时候还是会乱动)
- 关键路径的代码必须人工或AI认真review
- 一定要有基本的测试保障
说到底,AI就像一台超强放大器:
你技术好,它帮你放大;你技术差,它也会把问题放大。
总结一句:程序员这碗饭,恐怕真快要被AI给颠覆了!










对Codex的评价很中肯,听说它能避免很多不必要的错误,值得一用。
提到单元测试,真的很重要,没做好会造成大麻烦,大家都是怎么应对的呢?
使用Codex来写代码的思路很有趣,结合Claude进行代码审核的方式也很合理。这让我想起我之前的项目经验,确实需要这样的双重保障。
AI写代码的体验真的是很神奇,尤其是Claude 4.x的进步,感觉能帮我省不少事。
记得我第一次用AI写代码时,完全不知所措,简直是乱七八糟。现在听你分享的经历,真的感到很有共鸣。
Claude的写作方式真有趣,像个年轻工程师一样冲动,搞得我有时候要多花时间修复。你觉得怎么能引导它更好呢?
使用AI写代码的过程真是充满挑战,能否分享一些成功的案例让大家借鉴?
我也觉得Codex的风格很稳,处理细节方面确实更靠谱。用起来心里踏实多了。
AI写代码真是让人又爱又恨,特别是处理细节时,真是个“手贱”的工程师。
AI写代码的确有其局限性,特别是在处理复杂逻辑时,容易导致代码混乱。需要多加留意。
AI写代码的过程,简直是一场冒险,每次都像是在和它博弈。真心希望能改善这一点。