

OpenAI 的客服工程师 Jason(@jxnlco)指出,Codex其实像是一整套电脑工作系统,支持语音输入、自动化操作、浏览器控制以及共享记忆。即使你不在电脑前,它也能帮你处理工作。
很多人刚开始用Agent,往往只把它当成个写代码的小工具,帮忙找找bug、比对差异,跑几轮测试,然后顺便提个Pull Request。
这样局限在一个小场景,实在是浪费了它的潜力。
仔细想想,很多人在电脑前做的操作,其实早已被数字化的指令接管了。
只要把权限搞定,把工具箱都放开,单一的代码助手就能变成拥有全面执行权限的数字外包团队。
通过深度结合持久的线程、语音指令、自动化任务和外部记忆库,繁琐的电脑工作完全可以交给机器来处理。
记忆与接力
很多人有个坏习惯,问完问题后就关掉对话框。下次遇到类似问题时,只能重头再来。如果想真正发挥机器的价值,就必须保持持久的对话记忆。
可以设定几个常用的工作流程,作为你专属的工作区。
在侧边栏开设一些专门的线程,安排监控发布进度的、审查文档的,还有关注外部报警信息的监控线程。
把这些都固定在软件界面最显眼的位置,这样常驻的工作区里就能装满过往的决策、个人的编码习惯和特定项目的背景信息。机器每次被唤醒时都能接着上次的思路继续工作,而不需要人类反复重复背景设定。
这里面其实运用了信息压缩技术。
如果不加控制,长期的工作流会迅速占满内存。机器在后台会不断提炼旧的对话,压缩信息,保留核心内容,去掉多余部分,这样长达几个月的对话流也能存活下来。
代价是旧的对话会被清理出缓存,重新唤醒时需要用更多的算力来加载。但相比从头开始讲背景,算力成本是值得的。
在苹果系统里,按住 Command 键加数字1到9就能轻松切换工作区,流畅得很。
而且,这种持久的工作区还能在不同设备间无缝切换。
你在电脑上设置好运行环境和读写权限后,就可以把耗时的大型渲染或者爬虫任务交给机器去处理。
其实你完全可以随时离开工位,去喝杯咖啡或开个会,甚至掏出手机,随时监控进度。
如果在手机上看到进度不太对劲,可以直接发个语音,机器就能立刻调整方向,继续运作。
虽然办公桌上的环境和权限被锁定,但你却能享受真正的自由。
随口表达与掌控
打字的时候,总是会漏掉那些在脑海中闪现的灵感。人们往往会把思路压缩成简洁的文字,而机器其实更需要那些看似多余的细节。
有时脑中只有模糊的印象,打字又不知道从哪儿开始,这时候随口表达就能直击要点:“我好像在 Slack 上提过这个需求,但细节记不清,你去翻翻群聊吧。”
机器接到指令后,会自动翻阅聊天记录,通过模糊匹配找到相关信息,然后清晰地反馈给你,省去了你自己翻找的麻烦。
在复杂的任务还没完全形成的时候,花2到3分钟把脑中的想法倾诉给机器,让它帮助你整理。
未经过编辑的会议录音,或是在出差时随口录下的备忘录,往往能提供比简单的文字摘要更多有价值的信息。
原汁原味的录音保留了说话者的语气、犹豫和未说完的话,机器能精准捕捉到这些细节中的信息增量。
如果机器在工作中出现偏差,人工干预的权力是绝对优先的。
干预就是在机器完成当前步骤之前,强制打断并下达新指令。
在审查网页组件时,发现机器出错了,立刻开口干预:“字号小了,两个元素的间距看起来很别扭,文案也用错了。”
任务排队功能会将新需求静静地安排到队列末尾,机器依然忙着当前的复杂任务,不会受到影响。
你只需要随口说:“等手头的活干完,马上把预览链接发给审核人。”
强行修改当前动作后,任务顺序也能从容安排,人始终掌握着控制权。
借助外部工具的支持,机器的触角能够延伸到代码之外的商业领域。
使用 $browser 指令,可以叫出内置的浏览器,机器就能在侧边栏直接检查网页并做标注。
再带上 @chrome 指令,机器能在你的真实登录状态下处理浏览器相关的任务。
遇到需要人工点击的桌面图形界面,发出 @computer 指令,机器就能模拟真实的鼠标和键盘操作。
机器人的聪明工作方式
想象一下,机器一接通MCP服务器和各种商业连接器,比如说Slack、Gmail,还有日历,立刻就能开始工作了。这种效率真让人惊叹,对吧?
很多重要的商业任务,往往都是从几句随意的聊天、突然收到的邮件,或者日历上的冲突开始的,最后才演变成复杂的代码。这过程你一定见过吧?
一旦测试成功,工作流就能轻松打包成技能,下次再遇到相似的问题,直接用上一键运行,省时省力,真是太方便了。
目标与外包
借助自动化功能,机器可以无需人工干预,按时接管任务,简直像个可靠的助手。
对于那些例行的工作,比如每天生成财务报表或定期检查代码库,机器可以设置成定时自动化模式,每次启动都像是全新开始。
而对于需要记忆和复杂条件的任务,机器则会采用线程自动化模式,像心跳一样定时唤醒,带着完整的上下文继续处理。
想象一下,设定一个“幕僚长”线程,每30分钟就悄悄运行一次,去检查全网的未读信息,按重要性排序,回答团队的问题,草稿准备好但绝不提前发送。
等你吃完午饭回到工位时,那些繁琐的数据收集和整理工作早已搞定,你只需点下发送键就好,真是省心。
线程自动化模式特别适合处理冗长的反馈循环,机器可以全天候盯着拉取请求的评论、Google文档的批注,甚至团队群聊的回复,默默推进进度。
比如在动画制作中,审核人发来视频修改意见,机器会定期检查新消息,拿到核心意见后迅速更新代码,重新渲染视频,然后精准艾特审核人。
如果上传大文件时遇到API限制,机器还能模拟鼠标操作,完成整个上传过程,完美衔接聊天群、代码库和桌面软件。
为了让机器持续推进,设定明确的目标很重要。模糊的指令是没用的,比如“把商业计划落实一下”,这根本不够清晰。
明确可衡量的成功标准才是真正的关键。比如,资深工程师要将旧工具升级,底层目录建好后要定个规则:新代码必须通过基础的单元测试才能算完成。
持续执行和严格的校验机制,才是真正的目标驱动。
清晰地设定预期结果、停机条件和评估进度的信号很重要。
优质的校验工具随处可见。测试套件确保老功能不出问题,性能监控关注运行效率,漏洞复现脚本验证补丁效果,端到端的工作流确保最终用户的体验。
有验证机制的目标是真正的追求,而没有验证的只是空想。
审查与大脑
轻松搞定网页编辑,像聊天一样简单!
你做出的半成品和最终成品,完全可以在侧边栏里一目了然,不需要再去别的软件查看。
这不仅仅是冷冰冰的代码哦,你可以在对话框旁边直接看到那些漂亮的幻灯片、PDF、动态网页或者复杂的数据表,真是方便!

你可以轻松查看每个细节,随意圈出需要修改的部分,随时调整网页元素,确保每次改动都经过仔细审查。所有操作在一个界面内完成,完全不会中断你的思路。

内置的浏览器能快速渲染网页,而机器则能根据你在页面上的标记即时调整底层代码,真是高效!
网页不仅是你工作的成果,还是最有效的控制台。从内容生成、展示、查错到细致修改,人和机器始终关注同一个目标。

轻量级的单文件网页甚至可以省去云端服务器,直接变成可以长期互动的数字资产,太赞了!
借助 Storybook 来审查用户界面,利用 Remotion Studio 编写动画代码,直接生成网页版幻灯片用于高管演讲,还能构建数据应用进行全面业务分析。
后台线程会定时自动刷新静态网页的数据,每次打开时都有新鲜的内容等着你。
不过,持久的对话流只能在单一任务中有效,要想发挥最大的效能,最好有一个独立于杂乱对话的全局记忆外脑。
使用 Obsidian 建立一个安全的本地记忆库是个不错的选择。将文件整理成纯文本的扁平化文件夹,查阅和移动都很便捷。
想要把你的工作流程提升到一个新高度,可以考虑结合 Git 代码托管平台和一些云存储服务,比如 Dropbox,这样就能实现随时随地的文件同步,方便得很。
接下来,咱们来聊聊文件夹的结构。最顶层应该放置一个名为 AGENTS.md 的文件。这就像是给机器设定规则,清晰地告诉它如何处理人员变动、项目进展和重要决策的信息。
千万别照搬别人公司的文件夹结构。你得亲自告诉机器该在哪儿找到长期记忆,哪些信息是必须保留的,以及在什么情况下不能随便改动文件,以免引发混乱。
下面给你个实用的 AGENTS.md 范本,来帮助你整理思路:
把 ~/vault 目录视为你永恒的工作记忆。
记得保留简洁有用的笔记,别让无意义的碎片占据你的空间。
待办事项、团队成员、项目进展、每日总结和草稿,确保按规定整理好。
重点保存那些重要的决策、遇到的障碍、负责的人、截止日期,以及有用的链接。
如果没有实质性的进展,就千万别随意动记忆库里的东西。
代码库是冷冰冰的逻辑,但记忆库则应当记录下工作中的背景,比如人际互动、频繁修改的内容、项目进展中的难点和后续安排。
不要把重要的细节藏在像垃圾堆一样的聊天记录里,清楚地记录下来,这样机器下次就能直接读取。
软件本身也有一些记忆功能,能够帮助记录工作偏好、常用流程和常见问题。
虽然这些功能对核心文档有帮助,但是它们不能完全替代独立的记忆库。
还有一种实验性的屏幕抓取工具 Chronicle,可以定时截屏,帮助机器建立近期记忆,产品理念也很有趣。
现在,机器已经能够根据简单的任务指引,认真完成工作,并直接给你展示结果。
如果发现偏差,就及时进行调整;有新任务时,也可以选择静默排队。去喝杯茶的时候,设个定时任务,让它自己去完成。
充分利用好所有工具链,最大化每一分算力,机器自然会不知疲倦地为你工作。
最后,给你一个参考链接:
https://x.com/jxnlco/status/2057153744630890620












文章提到的语音指令功能真是个好点子,尤其是在忙碌时,能用口述代替打字,简直太方便了。
提到信息压缩技术,让我想起我电脑里的文件管理,真是一片混乱,看来我得好好学习如何优化工作流了。
关于信息压缩的部分让我有点担心,旧对话会被清理,那些重要信息怎么保留?
保持持久的对话记忆这个点特别重要,很多人不太重视,结果每次都得重新设定背景,浪费时间。
听到信息压缩的功能,让我想起我的手机存储,总是爆满,或许我也该学习如何清理和优化了。
我很喜欢用语音指令来代替打字,这样能更自然地表达想法,感觉像在和朋友聊天。