
石臻说AI
编辑:石臻
导读:很多人第一次使用 Codex,往往把它当作一个“更懂代码的 ChatGPT”,用来查看仓库、修改差异、运行测试和提交 PR。
其实,真正值得关注的变化是,Codex 的功能边界正在不断拓展:当它能与浏览器、邮件、日程表、MCP、桌面 GUI 和自动化工具结合后,Codex 不再仅仅是一个编程助手,而是逐渐演变成一个“计算机工作系统”。
别急着把 Codex 看作 IDE 插件
许多开发者最初接触这个编程助手时,通常都是从编写代码的任务入手。
比如说,使用它来阅读一个代码库、理解架构、修改某段代码、运行测试,然后帮你准备 PR。这确实是 Codex 的强项,但如果只停留在这里,可能会低估它的真正潜力。
因为事实上,电脑上的很多工作早已被代码、命令、网页、API 和文件系统覆盖。只要这些操作能够被 Codex 处理,它自然而然就会从“写代码”扩展到“推动电脑上的工作”。

这也是本文的核心观点:Codex 的重点依然在于代码,但它的工作范围已经不仅限于此。
简单来说,过去我们关心的是“它能不能正确写这个函数”。现在更值得思考的是:“它能不能把真实工作流程中的上下文、工具、产出和人的判断结合起来”。
长线程比单次回答更重要
这篇文章反复提到一个关键词:durable threads,长线程。
这并不是简单的聊天记录保存,而是给一个工作流程建立一个长期的上下文。例如,你可以有一个专门用于发布的线程,一个负责文档审查的线程,甚至还有一个像 Chief of Staff 的线程。
这些线程的价值,不仅仅在于“记得你上次说了什么”这么简单。更关键的是,它能保留一整套工作习惯:哪些来源是可信的、哪些步骤要优先执行、哪些人需要提醒、哪些检查不能遗漏。

我认为,这也是很多人会低估的一点:AI 助手的生产力,不仅仅依赖于模型的聪明,更多的是因为上下文不再每次都清零。
在短暂的对话中,AI 更像个临时工。每次都得重新交代背景、规则和禁忌。而长线程就像一个长期的项目房间,里面的材料、半成品和决策记录都在。
语音、转向、排队:人始终在回路中
这里有几个看似不起眼但其实至关重要的控制方式:语音输入、引导和排队。
语音输入的意义并不是因为“懒得打字”,而是它更适合捕捉那些尚未整理好的想法。许多真实的任务一开始并不是漂亮的提示,而是一段模糊的描述:
我记得 Slack 上好像有人提到过这个,名字可能是 Ben,但我忘了具体细节。你能帮我找一下吗?
对于传统工具来说,这句话的信息太杂乱。但对一个能够搜索、整理、追问和汇报的助手来说,这反而是一个很自然的切入点。
引导则是在任务进行中,用户可以随时打断并纠正方向。排队则是指在当前任务不打断的情况下,把下一步加入等待队列。例如,“完成后把预览链接发给审核人”,这就是排队的概念。

这套控制模型的核心是:人并没有被排除在回路之外。
许多助手产品往往把“自动化”描述成“你不用管了”,但真实的工作并非如此。越是复杂的任务,用户在关键节点的判断越显得重要。优秀的助手并不是替你做决定,而是提前将决策点暴露出来,让你用最少的干预来改变方向。
工具接入后,Codex 开始超越代码仓库
长线程解决了“上下文能否保留”的问题,而工具则解决了“它到底能接触哪些内容”。

Codex 的触达范围大致可以分为几层:

这个方向非常重要,因为许多关键工作并不是从代码仓库开始的。
它可能是从一条 Slack 消息、一封客户邮件、一场日历会议或一个 Google Docs 的评论开始。过去这些入口都是割裂的,最终还是得靠人来进行搬运。如今,Codex 有机会把这些都整合在一个工作线程中。
这里还有一个现实的提醒:工具越多,风险也越大。
能够读取 Slack、查看 Gmail 和操作浏览器,意味着权限边界、确认机制和日志记录都变得更加重要。真正成熟的助手工作流程,不是“尽可能实现自动化”,而是“把可以自动化的部分自动化,把需要人负责的部分清晰地划分出来”。
自动化与目标:从陪聊转变为追求结果
文章中还有两个概念值得单独提一下:自动化和目标。

自动化是让 Codex 按照计划启动工作。比如每天生成报告、定期检查代码库,或者让一个活跃的线程定时查看 Slack、Gmail 和 PR 评论,看看是否有新内容需要处理。
目标则更像是一项长期的任务:你给它设定一个明确的终点和验证标准,让它朝着这个结果不断推进。
弱目标是:
按照这个 Markdown 中的计划实现一下。
强目标是:
将这个内部工具从 Python 迁移到 Rust。目录要建立好,功能要对齐,所有单元测试必须通过,才算完成。
关键在于验证标准。
没有验证标准的目标,充其量只是一个愿望。测试、基准、复现脚本和端到端流程,这些东西将“继续努力”变成了“是否更接近完成”。
未来的工作流:让 AI 更懂我们
其实,未来 agent 的工作流中,最重要的一条界限并不是任务越大就越适合交给它,而是那些能被验证的任务更适合交给 agent 来高效推进。
侧边栏与移动端:产物就在聊天框旁边
在这个故事中,Codex 应用的侧边栏可是扮演了很重要的角色哦。

它解决了一个老大难的问题:AI 生成内容后,人该在哪里审核呢?
如果输出的是代码,咱们可以直接看差异。如果是网页,那就直接打开看看效果。如果是文档、表格、PDF 或演示文稿,那就应该在同一个工作环境中进行审阅、标注和修改,而不是导出后再去其他地方沟通。
OpenAI 最近把 Codex 整合进了 ChatGPT 的移动端,也是这个思路:长时间的任务不应该让人一直盯着电脑。
你可以在 Mac 上启动一个任务,所有本地文件、权限和依赖都留在那台电脑上;而一旦你离开桌面,手机也能继续查看进度、回答问题、批准下一步,甚至调整方向。
这可不是简单的「远程控制电脑」,更像是让工作流程跟着人走,同时执行环境依然保持在最适合的地方。
真正的变化:上下文、工具、验证器
这篇文章中最值得关注的,不是某个具体的功能,而是整体框架。

Codex 正在从三个方向不断发展:
- 1
上下文:长线程、共享记忆和项目文件,让工作不必每次都从头开始。
- 2
工具:浏览器、Chrome、MCP、连接器和桌面图形界面,让它能在真实的工作环境中发挥作用。
- 3
验证器:测试、检查矩阵和端到端流程,让长任务明确什么是完成。
如果早期的 coding agent 主要解决的是「能否写出正确的代码」,那么下一个阶段的挑战则是:「能否在真实的工作流程中,带着上下文和验证器,把事情推进到完成。」
我认为这就是 Codex 变化的核心所在。
它并不是要让程序员变成甩手掌柜,反而是把人的角色提升了一层:少做搬运、检索和重复执行,多做目标设定、判断和验收。
总结一下:Codex 仍然是从代码出发,但它的产品形态正在向「工作系统」转变。长线程帮助解决上下文问题,工具连接真实的工作表面,而目标和验证器则为任务设定了终点。真正好用的 agent,不是全自动替你做决定,而是在关键时刻让你参与进来。
参考链接
- Codex 应用功能:https://developers.openai.com/codex/app/features/
- Codex 自动化:https://developers.openai.com/codex/app/automations
- 随时随地使用 Codex:https://openai.com/index/work-with-codex-from-anywhere/












对于新手来说,如何快速上手Codex并结合长线程的功能?是否有推荐的实践案例?
我在使用 Codex 的过程中,发现语音输入特别适合处理初步想法,这样再整理成具体请求会更顺畅。
Codex 的长线程功能真的是个大亮点!之前没想到上下文保存能提高效率。
对于初学者来说,如何利用 Codex 的这些新功能?有没有简单的入门技巧?
长线程能保留工作习惯,真希望能多点这样的工具!
长线程的概念真是太棒了,之前从未想过上下文保存的重要性!
我觉得 Codex 的语音输入功能可以解放双手,大家都试过吗?效果如何?
我在使用 Codex 时发现,它在处理简单任务时反而不如手动操作高效,有人有同样的体验吗?
我觉得 Codex 在整理模糊想法时的能力很强,确实能帮助理清思路。