这种情况大多数人都经历过。虽然步骤不复杂,但每次都得从头来。打开审批系统,选类别,填金额,找审批人,上传发票。每次花三五分钟,做一百次就得花五六个小时。而最让人心烦的是,每次流程都是一个样,只是数字不同而已。
以前想让 AI 帮忙处理这些事,你得把每一步都写得清清楚楚。先点这里,再选这个,再填那个,如果遇到 A 就选 B。要是漏掉了一个细节,它可能就会出错。
但最近,Codex 更新了一个新功能,叫做 Record & Replay。

它说,你不用再写了,直接给我演示一遍就行。
这可真是挺让人惊讶的!不过咱们先弄清楚,Codex到底是什么东东。
很多人可能还停留在“AI不就是一个聊天框吗”的阶段。
Codex 可不一样。它是 OpenAI 开发的桌面应用,直接安装在你的电脑上。
它不仅可以跟你对话,更厉害的是,它还能直接操作你的电脑桌面。点菜单、填表单、开浏览器、拖文件,平时你用鼠标和键盘干的活,它都能帮你搞定。简单来说,它不仅能说,还能做。

这玩意儿今年的用户增长相当惊人。年初每周大概有75万人在用,现在已经突破了500万,半年时间几乎翻了七倍。
有趣的是,这500万用户中,有五分之一根本不是程序员。都是分析师、运营、行政等,天天和表格、审批打交道的普通白领。
好,回到这个新功能。Record & Replay,到底能干嘛呢?
用三个字形容:你做,它学。
打开 Codex,点一下“Record a skill”,开始录制。然后你就可以像平常一样工作,比如说,填报销单。
正常操作就行。打开审批系统,选择费用报销,选差旅费,填上3600元、日期6月15号,上传发票,选部门领导审批,提交。Codex会全程记录。你点了哪个菜单、填了什么字段、怎么切换窗口,它都记得清清楚楚。

完成后点击停止录制,Codex会自动复盘你刚才的操作,生成一个叫SKILL.md的文件。
这里有个关键点,很多人第一次听以为这只是录屏。其实不是。Codex理解到,金额3600和日期6月15号是会变的参数,而差旅费和审批人则是基本不变的配置。
简单来说,就是你演示一遍,它理解了逻辑,以后换参数就能帮你完成。

到下个月报销日,你只需告诉Codex:“用报销技能,金额4800,日期6月20号。”它就会自动打开软件,选择科目、填数字、上传发票、提交。你甚至不用碰鼠标。
以前填一张单子要三分钟,一个月填十几张,累积下来一年都是好几个通宵的加班。现在一句话就搞定。
那你可能会问,生成的SKILL.md到底是什么?
简单来说,就是AI之间共享的一份操作手册。它不是黑箱,你可以打开查看它写了什么,如果不满意还能修改。更重要的是,这个格式不仅Codex能识别,Claude等其他AI工具同样可以读取,算是个跨平台的标准。你录好的报销技能,打包发给同事,他们安装后也能使用。一人录,全团队受益。
OpenAI官方还演示了一个更复杂的例子,上传YouTube视频。
选择视频文件、填写标题描述、传缩略图、添加字幕、设置隐私选项,整个流程十几步。Codex看完一遍,不仅会重复操作,还能理解其中的一些逻辑。它发现.mp4视频文件和.srt字幕文件名字一样,自己就把它们配对了。根据标题内容判断视频应该设置为私人还是公开。录制时遇到Python环境缺失的错误,它也能找到其他已安装的技能来解决。
这已经不是单纯背操作步骤,而是理解操作逻辑。

那么,什么样的事情适合交给它呢?
记住一个原则:步骤固定,参数可变。报销、上传视频、创建工单、生成周报、预定会议室这类都可以。反之,需要临场判断的,界面经常变化的,涉及金钱的,目前可能还不适合。
不过,聊到这儿你可能会想到,这不就是录宏吗?
老狐认为,这还真不是。
录宏是什么?你点击开始录,它会记录“在屏幕坐标(300, 200)点击一下”,“在坐标(500, 400)输入文字”。这东西多脆弱呢?系统换个字体,界面挪几像素,它就没用了。录宏是上个时代的产物,注重的是死板。
Record & Replay又不一样。它根本不关注你在哪点的。它理解“这一步是想选择差旅费”,而不是“在坐标X点了一下”。下次页面改版了,科目按钮换了位置,只要它还在界面上,AI就能找到。
最关键的是,生成的SKILL.md是活的。你可以打开查看,里面有触发条件、执行步骤、验证方式,出错时能定位到哪一步出问题。你演示时漏了一步,事后还能补上。碰到新的特殊情况,只需让Codex直接修改这个技能就行。
用程序员的话说,录宏是记录像素,而这是记录逻辑。

好,该说的优点也说了,接下来老狐要给大家泼点冷水。
第一个明显的问题是:你只录了“顺利的那一遍”。你在旁边看的时候,录得非常流畅。
但在真实场景中,报销时弹验证码怎么办?日期格式不对怎么办?审批人离职了怎么办?Codex只学了“这次没有弹”,下次弹了就傻眼了。
第二个问题是,这个功能依赖于计算机使用,它就是通过AI看屏幕识别按钮来操作。
这就导致了不稳定性:页面改版、加载卡顿、突然弹出广告,都可能让它失效。你给财务系统录了个报销技能,下周财务系统更新了界面,这个技能可能就无法使用了。

屏幕识别授权请求
第三个问题更实际,目前它只支持Mac系统。Windows用户还不能使用,欧洲用户也不行——因为涉及到GDPR的屏幕数据合规问题,暂时被挡在了外面。
还有一点要提的是隐私。在录制时,你屏幕上显示的所有内容它都能看到。如果你在录报销的时候不小心切换到微信聊天窗口,它也能看到。所以OpenAI自己也提醒,密码和私密数据不要录进去。
再有就是技能质量的问题,完全取决于你的演示水平。如果你平时操作不规范,生成的技能也同样不可靠。换句话说,你的水平决定了它的水平。
但话说回来。
如果这条路走通了,会变得非常有趣。
过去软件的自动化依赖于API。什么是API?就是开发者为你开的一扇后门,让你通过代码调用他们的功能。没开这个后门的软件,你只能通过鼠标和键盘与之交互。
Record & Replay的思路是,不需要你的后门,AI直接学习如何使用软件。人能理解的按钮和菜单,AI也能理解。人能完成的点击和输入,AI也能执行。AI的工作对象,从API扩展到了整个图形界面。
这将带来一个长期但确定的变化:不会写代码的普通人,更容易将自己的重复劳动自动化。
从更远的角度看,人不再只是软件的操作员,而是软件能力的训练者。
今天你还在学习如何高效使用飞书或Office,以后更重要的能力可能是:如何教会AI去使用这些工具。
当然,这话现在说还有点早。这玩意刚上线不久,能录的流程还有很多边缘情况没被测试,而计算机使用的界面稳定性也还远没有达到“可以闭着眼睛交给你”的程度。给它时间,别急于求成。
以前我们学习各种工具,是为了自己把工作做好。而今我们教AI学习工具,是为了自己不再亲自操作。
这个功能最值得被记住的,不是某个操作细节,也不是技术参数,而是它带来了全新的思路。
以后让AI替你工作,不用再绞尽脑汁写一大堆说明,做一遍就可以了。
别担心,慢慢来,AI也会进步!
对于那些现在还不够完美的地方,咱们也不用焦虑。看看Codex这半年来的更新速度,我相信它很快就能追上我们的反馈节奏。
撰文:HQL












我还在想,这个SKILL.md文件具体能有什么用呢?谁来解释一下?
我试过类似的工具,操作的时候经常会出现误操作的情况。希望Codex能有更智能的容错机制!
我觉得Codex的操作逻辑还是需要适应,第一次使用时可能会有些不习惯。
希望Codex能有更直观的界面和操作教程,方便新手上手。
我还是有点担心,毕竟自动化工具出错的代价可不低。
我试着用Codex录制了一个简单的操作,结果很顺利。有没有人分享一下使用中的小技巧?
听说Codex能自动识别参数,这会不会导致一些复杂操作无法处理呢?有经验的人能分享一下吗?
我觉得这个功能特别适合那些日常需要频繁报销的白领,节省了不少时间!
我尝试用Codex进行简单的报销操作,感觉效率提升明显。有没有人用过它来处理其他工作呢?
希望Codex能增加更多的教程,帮助新用户更快上手,避免不必要的错误。