智能时代来临,AI与软件研发迎来新变革!

作者 | AICon 全球人工智能开发与应用大会

策划 | 罗燕珊

编辑 | 宇琪

如今,大模型正在深刻地变革研发的各个环节,推动着自动化和智能化的发展。你有没有想过,AI是怎样从一个辅助工具,逐渐演变成核心生产力的呢?我们是否已经迎来了大模型原生开发的新时代?

最近,InfoQ的《极客有约》栏目特别邀请了平安科技的高级产品经理吴朝雄、百度的资深架构师颜志杰和汽车之家客户端架构师杜沛,在即将于2025年12月举行的AICon全球人工智能开发与应用大会北京站之前,聊聊LLM时代的软件研发新模式。

想了解更多精彩内容,别忘了查看大会日程:

https://aicon.infoq.cn/202512/beijing/schedule

以下是一些精彩观点:

  • AI在测试中的作用更多是提高效率,而不是替代人类。要实现“原生开发时代”,我们还有一段路要走,现在可以说我们只是处于“半坡”上。

  • 提示词就像是在进行“角色扮演”,要让模型理解你的意图,就需要让它进入特定角色,比如“作为某领域的专家”,这样模型才能在相应的规则和业务逻辑下完成任务。

  • Coding Agent代表了通用智能体的发展趋势,这种智能体能够独立完成软件研发任务,它的潜力远超特定工具的自动化,因为它更接近人类在逻辑和物理层面的操作模式。

  • 我们希望AI不仅仅是做一些演示级别的Demo,而是真正能解决产品开发中的实际需求,生成可维护性高的代码,而不是仅仅能“跑起来”的代码。

  • 会用AI并不意味着结果就一定更好,而不会用AI也不代表结果就一定更差。评估的核心依然是你最终的产出与影响,而不是你在过程中的工具选择。

完整直播回放可查看:
https://www.infoq.cn/video/KGWqbzH6IKGhgoUiKDEi

以下内容基于直播速记整理,经InfoQ删减。

1 LLM 原生开发时代

吴朝雄:很多人还是觉得“AI写代码”只是一种更高级的自动补全,并不算真正的范式变革。你们怎么看呢?

颜志杰:就像“一半是火焰,一半是海水”。我们看到很多新闻,惊叹于AI的不断进步,它能完成越来越多的任务,甚至超越专业人士,带来丰厚的收益。但作为程序员,在实际开发中,特别是在已有代码的基础上进行二次开发时,AI的表现往往不如预期,有时甚至感觉它显得笨拙。所谓的“火焰”部分,指的是AI在一些比较简单、结构清晰的小任务或从零到一的创新场景中表现出色;而“海水”部分,则是面对复杂且庞大的现实任务时,尤其是在已有代码库中的应用,挑战依然很大。

对于不懂代码的人来说,只要能清晰表达自己的意图,就能借助大模型实现软件开发的能力。比如,使用“豆包”修图,已经让许多人即使不会使用Photoshop也能完成图片编辑,实现了从“不会”到“能”的飞跃。但从程序员的角度来看,AI的帮助虽然越来越明显,却距离“范式变革”还有一段距离,实际上我们正站在转折的边缘。

目前,各种AI编程产品层出不穷,不再局限于IDE,比如Devin、SWE Agent等集成在DevOps平台的Web产品,还有Claude Code等命令行工具,能够深入研发流程。一个明显的趋势是,越来越多的公司开始披露其代码中AI生成的比例,而这个比例在快速上升,部分团队甚至已经超过了50%。这意味着AI已经深入到代码生产中,团队的开发习惯和工作方式也在悄然改变。

对于非研发群体来说,这无疑是一场范式变革;而对于依赖编码谋生的程序员来说,虽然还没有完全实现变革,但趋势已经非常明显。从整体影响力和效率提升的角度来看,现在还未达到“真正的范式变革”。

杜沛:AI的使用效果因使用者的能力差异而异。在我们公司,虽然大多数人都在使用AI辅助开发,但不同人的使用深度和场景差别很大。有的人仅仅用来做简单问答或辅助编写函数,而有的人已经通过Claude Code等工具构建自己的流程化智能体,用于方案设计和代码编写。

从整体来看,开发方式确实发生了显著变化。过去我们习惯通过搜索来解决问题,而现在许多问题可以直接通过模型来处理。不同模型之间的能力差距也在迅速缩小。半年前需要花费大量时间解决的错误或兼容性问题,现在可能几分钟就能搞定。但模型本身的局限性仍然存在,这限制了我们进入真正高效智能化开发时代的步伐。

以客户端开发为例,业务的复杂度非常高。不同平台都有大量的依赖、插件和业务线,AI在这些复杂场景下的表现仍然有限。尤其在涉及3D建模等视觉任务时,大模型对视觉内容的理解仍然比较薄弱。因此,在许多复杂场景中,AI还远未达到完全可用的程度。

不过,在标准化程度高的任务上,比如文档生成、代码结构化设计等,AI的表现非常出色。如果我们能提供足够清晰的引导、上下文记忆或预处理,AI就能高效地完成工作。例如在跨端开发中,从Android迁移到iOS这样的规范性任务,AI的帮助已经相当明显。虽然AI的全面接入尚未实现,但正处于转折阶段;随着模型能力的增强,我们将越来越接近真正智能化开发的时代。

吴朝雄:测试环节是整个研发流程中最复杂、分支最多的一部分,包括接口测试、UI测试、性能测试和手动测试等,每种类型的流程都是不同的。这些流程依赖于严格的组织规范与管理体系,而这些是AI目前还无法完全替代的。

在测试领域,AI最擅长的仍然是与稳定性相关的任务,比如数据生成、数据分析和数据监控等。它可以从大量数据中抽象出通用模式,帮助测试人员解决特定节点的问题。例如在生成测试用例方面,模型在文本类内容上表现不错,特别是在需求明确的场景下。如今,许多大模型经过蒸馏和训练,已经具备了特定领域的理解能力,比如通义灵码等研发领域的模型。

然而,在更复杂的测试逻辑上,比如微服务管理和数据拓扑关联等,模型仍然力有不逮。这些环节需要人类根据经验进行判断。AI可能能够生成局部的测试用例,但无法全面覆盖关联接口和异常场景等情况。

在测试领域,AI目前仍然主要扮演辅助角色,还无法达到与开发协同的水平。与代码生成相比,测试用例更依赖于具体的业务属性。例如在金融行业,数据安全和系统复杂度非常高,模型无法全面理解这些特定要求。AI在测试中更多是提高效率的工具,而非替代方案。要实现“原生开发时代”,我们还有很长的路要走,现在不过是在“半坡”上。

颜志杰:真正的范式变革意味着从“不能”到“能”,或者在可信度和可替代性上发生质变。无论是测试还是代码开发,现在的模型仍然很难胜任复杂任务,特别是在微服务等需要深厚专业知识的场景中。虽然现在的阶段还不属于真正的范式变革,但不可否认的是,AI已经在许多细分场景中极大地解放了我们的生产力。

2 哪些开发环节已经从“人做”变成“AI做”?

吴朝雄:在我们的一线实践中,哪些事情已经从“人做”变成“AI做”了呢?

杜沛:先说说我们在代码生成方面的实践,特别是与UI设计稿相关的“Design to Code”方向。其实我们在这方面起步较早,早在2023年AI刚崭露头角时,我们就开始尝试了。但那时模型的能力有限,常常出现“幻觉”,生成一些并不存在的内容。

随着多模态模型的出现,我们看到了新的突破点。过去在开发中,页面的复杂度会直接影响模型的生成效果。页面信息越多,模型越容易选择性遗忘,遗漏部分细节。多模态模型引入图像理解后,情况有了显著改善。我们尝试了Claude、豆包等多种方案,发现图像能够帮助模型更好地理解UI的意图。例如,某个按钮是“登录”还是“分享”,某个区域是“Banner”还是“列表”,这些原本隐含的交互信息通过图像理解能够被模型更准确地识别。

在此基础上,我们将图像理解与设计稿解析结合了起来。目前我们内部使用MasterGo,通过解析设计文件提取关键信息,并反复加权强化这些要点,减少噪音的干扰。这一方法在实际应用中取得了不错的效果。从结果来看,我们的代码生成可用度已经能达到80%到90%。我们还进行了多轮跟踪测试,验证了它对整体效率的提升。但这并不意味着人力投入就能减少到10%。因为模型生成的内容仍需人工复核,例如对像素级别的比对和界面验收等环节,依然需要人工严格检查。

我们在规范和记忆机制上进行了大量优化,使生成的代码更符合人类的开发习惯。同时,我们还探索了多端代码转换,这部分逻辑规则相对清晰,比如在一端验证通过的逻辑可以迁移到另一端,只需调整链路即可,这类任务AI处理得相当不错。例如,在H5、小程序或不同框架间的迁移中取得了良好效果。AI的代码生成质量可以达到70%以上,但由于后续仍需人工进行代码审查与规范验收,整体提效约可达原来的1.5倍。

与传统自动化工具相比,AI的优势在于在处理大规模工程项目时,能够更快地定位、规划和生成逻辑,不再需要耗费数小时甚至数天进行分析。在代码审查方面,过去我们依赖静态扫描或动态分析,而如今AI可以结合规范进行自动检测。只要设定好规则,AI就能识别潜在问题。通过这种双重机制,我们显著减少了测试阶段的bug数量,下降幅度可达30%到40%。虽然目前尚难以精确评估线上bug的减少幅度,但测试阶段的改善已经非常明显。

总体而言,这三个场景是我们在开发环节中最具代表性的AI应用。它们共同的特点是流程规范、任务可分解、结构化程度高。通过前期规划、阶段性检查和动态学习,可以显著提升整体开发效率。

AI的崛起:如何改变我们工作方式的故事

颜志杰:说到AI,它最擅长的就是处理那些重复又机械的任务。以前我们用自动化工具来完成这些工作,但总有些地方自动化帮不了忙。不过现在,AI正好填补了这些空白。拿我们团队的“文心快码”项目来说吧,我们要同时维护中英文的前端代码。过去这得人工分别搞定,现在我们设定一些规则,AI就能自动帮我们把中文版本转成英文。只要开发好中文的,AI就能轻松搞定英文版本,还能进行验证和单元测试。这种事情以前靠自动化很难实现,但现在AI能做到高效、稳定、精准。

接着,回到我之前提到的那个比喻:“一半是火焰,一半是海水”。AI在0到1的创造性任务上尤其出色。比如生成脚本或原型开发,这些东西不直接上线,但需要迅速验证想法。在这一点上,AI可以显著提升生产效率,让程序员把时间花在更复杂的任务上。此外,非技术人员如产品经理也能通过草图和自然语言生成原型,促进沟通与合作。这种变化,实际上已经彻底改变了我们的开发流程。

所以说,在0到1的“火焰”场景中,AI的潜能得到了充分展现。像Figma to Code这样的应用也属于这类相对简单的领域,因此AI在这些地方最先实现了高效应用。

至于生成测试用例,举个例子吧。当我在写接口测试用例时,如果只针对单个接口进行测试,就不需要绑定所有外部依赖,直接验证接口的输入和输出是否正确就行了。这种情况下,AI的表现确实很不错。当我们讨论“哪些事情从人做变成了AI做”时,我觉得可以从DevOps或者自动化的角度来看:哪些任务过去靠人工或传统自动化无法完成,而现在借助AI就能实现?重新梳理整个研发流程,我们会发现很多环节都能与AI的特长精准对接,这正是AI替代人工的关键所在。

吴朝雄:大模型的优势在于它能够生成多样化的数据和内容,这使得它特别适合用于数据构造或内容生成,比如常见的文档润色。这些任务的模式比较固定,AI轻松就能处理。以我熟悉的自动化测试为例,过去人力主要负责生成和调试接口用例,而现在AI在这方面发挥了很大的作用。

在简单的接口测试中,我们关注的通常不是背后的业务逻辑,而是接口能否正常运行。无论采用什么模型,这种测试都能完成。AI可以自动生成部分输入数据,当然人工也可以手动构造,但复杂度就不一样了。当测试的对象是复杂接口时,情况就大不相同了。

在我们公司内部,许多接口都需要数据安全管控,涉及身份验证或依赖上下游数据。一个接口通常依赖多个服务或数据库操作,光凭简单的输入参数是无法完成测试的。为了实现自动化,必须先执行数据库查询、预置数据,然后再调用接口。这种场景对编排逻辑的要求非常高,需要清晰的流程设计和强大的脚本能力。

以前人工编写脚本常常出错,导致逻辑混乱、结构复杂,很多时候脚本无法执行。而现在,模型能够理解数据库的限制、接口逻辑、参数定义和场景需求,自动组装上下文和执行逻辑,从而生成可运行的测试脚本。

目前在我们公司内部,通过共建和推广模式,我们把这项AI自动化能力推广到了各个子公司,用例数据的生成覆盖率已经达到60%左右。过去人工编写的测试脚本常常出现逻辑漏洞或断言错误,而现在模型在理解接口文档、参数含义、代码逻辑及数据库结构后,能够自动判断应先落库还是先查询数据,从而生成更合理的执行流程。

举个例子:以前人工编写复杂接口的自动化测试脚本,通常需要一小时到半天不等,成本高且重复劳动多。而现在通过模型生成,只需几分钟就能完成可执行用例,后续只需稍作调整,大大降低了人力投入。

我们现在的目标是实现用例生成到调试、评审、执行、诊断和报告生成的全流程自动化。这不仅需要多个代理协同工作,还需要系统级的流程编排。我们的基础能力已经初步搭建,计划在明年底前实现完整的全流程自动化编排体系。

这将帮助我们跨越“原生时代”的技术墙,实现从辅助到自主的转变。过去测试人员需要思考如何设计用例,而未来他们只需关注“测什么”,也就是业务场景是否被充分覆盖。AI将承担繁琐的设计和实现部分,让测试人员转型为质量架构师,专注于更高层次的质量保障与体系设计。

吴朝雄:当AI开始写代码、生成测试和数据,真正进入业务后,最先遇到的是什么问题?是稳定性、幻觉、规则不理解,还是团队不敢使用?

颜志杰:目前最大的问题在于AI的效果不够稳定。当AI带来的收益不足以抵消改变原有工作习惯的成本时,落地就会变得很困难,因为这种改变往往违背人性和直觉。尤其是当人们尝试改变习惯后发现效果依然不确定,那就更难以推广和落地。因此,关键的问题是“稳定的效果”。例如在早期的Copilot模式中,AI用于代码续写或生成测试用例,对开发者的使用习惯影响不大,而且确实带来了一定的收益。因为相比传统的基于规则的补全,AI的补全更智能,所以这种落地相对容易。

但现在流行的SPEC模式却复杂得多。开发者需要先进行需求澄清,不再是自己直接写代码,而是要通过与AI的自然语言交互来逐步实现。尤其是在大型存量代码库中,AI很难处理如此庞大的上下文。有时候它能正确修改,但更多时候,即使找到了问题,也会以不合逻辑的方式进行修改。例如,本该复用的函数却被重复生成,或者日志库被莫名替换。这些问题都让实际落地变得困难。

因此,我们需要承认当前AI仍缺乏稳定性。如果要务实推进落地,应该从小任务开始,而不是寄希望于“一句指令解决所有问题”。有时候一句话对人来说都未必能准确表达,更何况对模型。即使SPEC写得再好,也不能保证模型完全遵循逻辑。模型偶尔会“抽风”,即使明确要求它不做某事,它仍可能执行。

所以我认为应像传统软件开发那样,从小任务和类工建设入手,写好文档、做好设计,逐步扩大任务规模,探索人机协作的边界。随着信任与方法的积累,AI能够承担的工作比例会逐渐提高,落地过程也会更加稳健。这是我对这个问题的理解和建议。

杜沛:这实际上是“信任建立”的问题。尤其是在初期使用时,例如在IDE中输入需求,十次问答AI可能有两次不准确。用户往往会记住那两次失败的经历,因为那意味着额外的时间成本——要反复提问、修正,甚至多次出错,从而降低信任。在工具推广中,这种稳定性和容错机制尤为关键。如果AI的结果不稳定,用户信任的建立就会变得非常困难。

算力问题也是一个不可忽视的因素。算力不仅影响能力,也影响使用体验。模型响应越快,用户对错误的容忍度就越高。比如,如果生成时间从两分钟降到十秒,即使结果出错,试错成本也低;但如果等待五分钟却仍出错,用户体验就会非常糟糕,负面反馈也会增多。

从数据来看,AI使用率差异很大:有的用户AI参与率能达到50%,而有的则不足10%。我们分析发现,很多低效使用者的问题在于提示词过于简单,只给出一个关键词或一句模糊的话,导致模型误解意图,输出偏离目标。这种不当使用也加剧了体验差距。

我们常常收到反馈说“AI生成结果不对”,但很多时候问题在于输入模糊。因此,我们尝试在相同项目中预置模板或规范,提前定义依赖和规则,以减少AI发散造成的偏差。

观众:用好AI进行研发,对人员的能力模型应该是什么样的?

吴朝雄:以测试领域为例,首先面临的问题就是“提示词工程”的理解。作为产品经理,我常常对接测试需求方,发现他们在使用我的AI工具或自动化测试平台时,往往在提示词能力上存在明显短板。

在我看来,提示词工程的概念类似于“用户故事”。从产品的角度来看,一个完整的用户故事需要把需求讲清楚,包括什么角色、什么场景下,要解决什么问题,达成什么目标。提示词也是如此,应包含角色、场景、目标、任务等元素。提示词实际上是一种“角色扮演”,你要让模型理解你的意图,就得让它进入特定角色,比如“作为某领域的专家”,让模型在特定规则和业务逻辑下执行任务。

要让大模型正确理解你的指令,关键在于输入的结构要足够严谨、颗粒度足够细。例如定义“角色”时,要明确是产品实习生、助理、高级经理还是总监。不同角色的视角不同,模型的解读结果也会不同。因此,第一个重要能力是写好提示词,而这需要持续的刻意练习与训练。

第二个关键能力是“知识工程”。在研发领域,要让模型真正理解业务、帮助推动业务,就必须让它熟悉组织的知识体系。例如团队的流程规范、协作规范、人员管理、度量标准等。这些虽然在现实中可能以默认规则存在,但对模型来说,必须整理成明确的文档,让它能够学习和引用。因此,使用AI的人需要具备撰写清晰、可拆解、可被模型理解的知识文档的能力。要为模型提供一套公开、可参考的方案,让它能基于这些资料进行模拟与推理。模型最擅长的不是从“无”到“有”的创新,而是基于已有知识进行“有到有”的推理。

颜志杰:对于想要变得优秀的人来说,现在是个最糟糕的时代,因为你原有的技能一个都不能丢。AI还没有彻底改变工作方式,该懂代码的依然要懂代码;但同时这又是最好的时代,因为门槛变低了。很多过去需要投入大量精力的工作,现在借助AI就能高效完成。那些原本不会编程的人,只要善用AI,效率甚至能超过传统开发者。所以,关键在于你如何看待这个时代、如何定义自己想成为的人,再去决定你的能力模型和发展路径。像提示词工程、知识工程等能力,都是不可或缺的。

吴朝雄:就像测试工作一样,要让模型理解你的规范,首先得把知识沉淀下来,而这些沉淀必须来自实际的业务经验,而不是AI自己生成的。这些业务实践包括用例管理规范、代码管理规范、用例设计方法、代码设计原则等,都是研发人员必须掌握的基本知识。在此基础上,再去学习和掌握AI相关的技术栈,并思考如何将这些技术与业务场景结合。要真正用好这些技术,就需要投入时间去理解、消化,并在实践中不断优化。

观众:现在大模型应用的技术栈主要是Java或Python,百度内部使用的是什么技术栈?

从 AI 助手到智能体:未来开发的新趋势

颜志杰:我觉得,模型的技术栈和百度内部所用的技术栈其实没有直接的关联。比如说,搜索相关的程序可能是用 C++ 写的,而云端的程序则更偏向用 Golang。不过,它们的角色是不同的,一个是负责模型的生产,另一个则是模型的实际应用。究竟用什么语言来实现模型,并不会影响应用方选择什么语言来调用或者整合。对于应用方来说,无论这个模型是用来补全 Golang、Java 还是 Python 的代码,最终效果在现有模型体系下基本一样。

4 从“工具”到“协作者”

吴朝雄:最近我发现一个很明显的趋势,行业似乎正在从“AI 助手”向“智能体协作”转变。根据你们的经验,哪些事情是以前的 AI 助手无法做到,但智能体却能胜任的呢?

杜沛:我认为,最大的不同点在于“闭环能力”。AI 助手往往只是提供单点帮助,而智能体则能够将整个开发、测试和审查的流程连接起来。具体来说,它可以从人手动编写代码,到 AI 自动生成,再到 AI 进行测试,最后人来审查和核对结果。这个方向毫无疑问是未来的发展趋势,也是一种理想的人机合作模式。AI 参与代码编写的关键在于如何确保生成代码的质量,特别是在业务开发中要满足逻辑性和可靠性。

我们希望 AI 不仅仅是做一些演示,而是真正能够满足产品开发的实际需求,输出可维护性高的代码,而不是那种仅仅能“跑起来”的代码。假如生成的代码逻辑混乱或难以理解,后续的维护人员就得重新阅读和分析,这无疑会增加他们的负担。因此,AI 生成的代码必须符合人类开发者的接受标准,确保逻辑清晰、约束合理,这样才能真正降低人力成本。

在测试环节,AI 测试与传统人工测试的侧重点也有所不同。传统测试主要关注结果的正确性,而 AI 测试由于缺乏完整的运行环境,不能直接判断结果是否正确。因此,需要为 AI 提供一个运行环境,帮助它验证代码的构建是否通过、语法是否正确、边界条件是否覆盖等。对于复杂应用,特别是在移动端,还需在真实设备上进行测试,这无疑增加了难度和成本。AI 测试不仅要停留在静态分析上,还应该延伸到动态运行状态的测试,才能形成更完整的闭环,确保从产品逻辑、代码质量到运行结果的多维保障。

如果这个体系能够实现动态测试闭环,AI 将能更好地推动整个开发流程,提升智能体验。这种模式的理想状态高度依赖于大模型的能力。目前出现的“世界模型”虽然主要应用于机器人,但未来也可能在软件开发与测试中发挥作用。如果模型不仅能理解文本或静态图像,而是结合视频、操作行为、屏幕显示等多模态信息进行判断,那么开发流程将迎来质的飞跃。

吴朝雄:你提到研发流程将由智能体协作来完成。比如,人只需输入开发意图,后续的代码生成和自测都由 AI 完成,最后只需人来审核。如果你们团队想要大规模推动这种流程的落地,还需要多长时间呢?

杜沛:从目前来看,这个目标短期内很难完全实现。按照我的预期,要真正打通流程、形成闭环,至少还需一年以上的时间。

颜志杰:AI 助手向智能体的演变,实际上是从“动脑、动嘴”升级到“动脑、动手、动嘴”的阶段。AI 助手主要负责思考和语言交互,而智能体则具备更强的自主执行能力。在研发领域,像 Devin 或 SWE Agent 就体现了这种转变。它们不再局限于 IDE 环境中的问答式交互,而是能在 DevOps 平台上自动执行任务,比如代码生成、测试、验证、提交 PR,甚至在发现问题后能自动修复并反馈结果。

这种模式展示出了类人的逻辑链条:先观察,再推理,再行动,并持续感知环境变化。它不仅仅是一个“口头助手”,而是能在异步环境中独立运作的执行体。过去,依赖语言交互的助手无法完成端到端的任务,比如自动修复 bug、补全测试用例、执行调试与代码审查,而智能体则能通过自主推理与操作实现这一切。这正是智能体强大的核心,也是未来十年的关键方向。

Coding Agent 代表了通用智能体的发展路径,这种能够独立完成软件研发任务的智能体,其潜力将远超特定工具层面的自动化,因为它更接近人类在物理与逻辑层面的行动模式。

吴朝雄:智能体未来会走向统一的大平台,还是轻量化、插件化的生态?如果你们公司在研发类似产品,会倾向哪种形态呢?

颜志杰:在当前模型能力的限制下,我更倾向于发展轻量化、插件化的生态。研发场景是一个极其严谨的科学过程,需要成熟的流程来保障质量与协作。贸然构建“大一统平台”既不现实,也容易脱离实际。更合理的方式是让 AI 以插件形式逐步融入现有的软件研发体系,先观察它在各个环节能带来多少改进。当 AI 能稳定接管 50% 以上的流程后,再谈平台化整合才是有意义的。毕竟,模型本质上是概率系统,稳定性仍需时间和经验的积累来优化。如果许多关键环节仍需人工介入,就不应追求“全能平台”的虚高目标。

吴朝雄:研发流程不仅涉及工具链,还包括人与项目之间的协作逻辑。这些协作往往在工具层面难以完全体现。目前的智能体更多集中在解决单点问题,比如帮助开发者发现或修复 bug。但在 DevOps 层面,未来可能会出现更高抽象层次的 AI 工作台,将数据检索、任务调度、执行分析等能力整合在一起。

例如,JIRA 已开始探索 AI 工作台,通过整合 DevOps 数据来实现项目进度追踪、代码库检索、任务完成情况分析、研发效能评估等功能。虽然目前仍以 AI 搜索为主,但雏形已经开始显现。国内大多数产品仍停留在单点智能体阶段,尚未形成上层封装或生态体系。插件化生态仍是当下最稳妥、最现实的探索方向。

观众:程序员使用 AI 编写代码,如何通过代码质量为程序员打分,有什么参考指标来进行绩效考核呢?

颜志杰:目前几乎没有哪家公司会直接把“是否使用 AI 编码工具”或者“AI 生成代码的比例”明确写进绩效考核体系中。原因很简单:大家普遍还是把 AI 当作一个工具,它的意义在于提升效率,而不是用来评估个人的好坏。毕竟,AI 生成代码的“量”与开发者真正的“质”之间差距很大,代码多并不代表质量高,也不意味着问题少。现在确实有很多公司会自上而下推动使用,比如用强制或激励的方式去推广 Code Engine 类工具。

目前也还没有出现“因为不使用 AI 而被扣分”的考核体系。唯一我听说比较激进的案例是 Shopee,他们据说在绩效考核中已经纳入了一些与 AI 使用相关的指标,但具体细节我还没深入了解。我的理解是,这更多是鼓励机制,比如“用得好、效果显著的人会得到奖励”,而不是“用得不好就会被惩罚”。毕竟,使用 AI 少并不意味着你的产出不好。

我们在内部推广 AI 工具时,也遇到过类似的问题。有开发者会问:“如果我用 AI 生成的代码出现 bug,这责任算谁的?是我、AI,还是团队?”其实这个逻辑并不成立。你从网上复制一段开源代码,也没人会因此说那部分不是你写的。同理,AI 工具只是一个辅助来源。目前我们团队在绩效体系中完全没有针对 AI 使用或代码质量的直接考核项,因为从逻辑上来说,这两者并不能画等号。会用 AI ≠ 结果更好,不会用 AI ≠ 结果更差。考核的核心依然是最终的产出与影响,而不是过程中的工具选择。

杜沛:我们会做一些“正向鼓励”,比如内部表扬或展示用 AI 提升效率的好案例,但不会强制,也不会把它和绩效挂钩。其实,如果绩效中写“必须用 AI”,反而会产生反效果,可能大家为了应付指标而“假用 AI”,形式化操作,反而偏离了提升效率的初衷。所以我们更倾向于通过文化引导,而不是考核来推动 AI 的普及。

吴朝雄:许多人听到 AI 进入研发流程,第一反应是“那我是不是要被替代了?会影响我的收入吗?”但事实上,AI 更像是一种角色转变的工具,而不是替代的力量。拿测试岗位来说,AI 确实能帮助自动生成用例、发现缺陷、分析日志,但测试岗位并不会因此消失,而是转向更高层次的工作,比如验证业务逻辑、优化测试策略、整合分析数据等。AI 带来的不是岗位的消亡,而是岗位价值的重塑。开发和测试的工作也因此变得更加策略性和创造性。

5 价值与人

吴朝雄:在未来两年,哪类工程师的价值会被放大?为什么?

过去,编写自动化测试脚本往往需要人工手动完成,这样成本很高,复杂的脚本可能需要耗费数小时甚至半天时间才能写好,因为要实现一个完整功能测试往往涉及多个请求。以往,测试人员主要考虑如何设计一个准确、可用、能够反映业务功能的测试用例。而现在,AI 在很大程度上已经突破了“用例设计”这一难题。原因在于,AI 能直接利用详细的代码和需求文档来生成。

举个例子,在接口自动化测试中有接口文档,而在 UI 自动化中则有页面组件信息,这些元素都可以在前期进行沉淀。团队只需做好这些准备,后续在设计测试方案或测试用例时,就不需要耗费大量时间去思考脚本逻辑的构建,而是更关注测试本身的价值最大化。

重点转向“测什么”,也就是每个版本中要验证的代码与功能点。这才是测试人员更专业的部分。AI 的引入并不意味着可以不懂代码,反而要求更精通代码。类似的,产品经理的角色也在发生变化。以前,产品经理只需清楚表达逻辑,而如今如果希望模型辅助完成上下游流程,就必须将功能性和非功能性需求描述得清楚,并具备对系统架构的理解。未来,产品经理不仅要懂业务逻辑,还需熟悉技术架构与系统关系。单纯掌握局部需求的产品经理将可能被替代,因为模型能够根据业务逻辑生成出漂亮的需求文档。而那些具备综合竞争力、能够从全局视角解决问题的产品经理,将更具不可替代性。

如果一个产品经理既懂技术,又懂业务与测试,即使在每个领域不算精通,但具备全面理解,就能在向下游输出内容时发挥不可替代的作用。实际上,AI 的出现让产品角色变得愈加重要。随着自动化程度的提高,下游环节反而更依赖于产品的决策与协调。同样,对于其他岗位也是如此。以前端为例,基础的页面组件如今模型都能自动生成。但如果前端工程师同时理解后端逻辑与算法,就具备独特的竞争力。这种价值不在于页面是否好看,而在于对性能、架构以及前后端交互的整体把控。

掌握AI时代的核心竞争力,提升个人价值

当你能够从系统架构的角度来考虑设计问题,拥有全面的技术思维,这种能力是AI无法替代的。因为你不仅仅会写代码,更懂得团队整体架构的运作。AI的兴起让知识学习变得更深入,同时也推动各个角色从单纯的“执行者”转变为“评估者”或“决策者”。当你的能力增强、知识扩展、角色升级,你的个人价值自然也会水涨船高。

这种转变并不只发生在产品岗位,实际上所有的职位都在经历类似的变革。AI在研发领域的普及,突显了具备高水平技能的人才,而仅仅掌握基础技能的人则可能会被淘汰。要想彰显自身的价值,展现出你的核心竞争力至关重要。这不仅包括如何使用AI的能力,还需要有扎实的基础知识。

颜志杰:那些能够熟练运用AI的人,往往像优秀的架构师。架构师的重要性在于他们能清楚理解业务的边界和限制。虽然AI在处理小任务方面表现得相当出色,但在系统设计、分层和异常处理等方面,还是需要架构师来进行把控。AI无法承担系统的全面责任,因此架构师在更高层面统筹全局的能力显得尤为重要。

接下来,我们得说说协作能力。就算使用的是同款AI,有的人效率却能比其他人快五到十倍,这到底是怎么回事呢?关键在于是否能清晰地向AI表达任务,让模型真正理解你的意图。这其实不仅是一种思维能力,更是一种“放大效应”。

第三,持续学习和创新的能力也不可忽视。我们需要理解“如何做”和“为什么做”,因为技术更新的速度快得惊人,今天的技术明天就可能被取代。我认为最重要的能力是“品味”,这就像艺术领域的审美判断一样。未来,随着AI供给的丰富,真正能体现个人差异的,将是对产品“应该成为什么样”的判断力。就像乔布斯设计手机时所展现出来的那种独特感知。优秀的产品设计需要这种品味与调性,而这正是产品经理不可或缺的价值所在。

杜沛:虽然AI是基于概率的模型,但如果想真正把它用好,就必须理解它的工作原理和局限性。虽然我们不能直接去训练模型,但掌握高效使用的技巧能大大提升我们的工作价值。例如,全栈工程师的价值可能会更高。过去,想要精通多种编程语言几乎是不可能的,但现在借助AI,一些曾经难以完成的任务也能实现,甚至可能做得更好。

举个例子,前端工程师以前需要依赖数据分析师来完成数据查询,而如今借助AI,通过日志查询平台就能迅速生成SQL查询,无需他人协助。这种方式显著拓宽了个人能力的边界,让工作成果得以放大。只要你能善加利用AI,让它真正帮助你解决过去无法完成的任务,你的价值自然会提升。

正如之前提到的,AI在研发中的作用目前主要体现在提升效率上,但这只是阶段性的成果。未来,随着模型的不断演变,输入的方式将不再局限于文本,还可能涵盖视觉、听觉等多种信息形式,届时能够实现的功能将会更加丰富。只要你能真正利用好AI,让它为你所用,你的能力与价值就会被放大,而不再取决于你是哪一类工程师。

会议预告:

12月19日至20日,AICon 2025年度收官站将在北京举行。两天的时间里,我们将探讨Agent、上下文工程、AI产品创新等热门话题,与顶尖企业和创新团队的专家深入交流经验与思考。这是2025年的最后一场会议,绝对不容错过!

图片

来源:今日头条
原文标题:智能体崛起,AI+软件研发到新拐点了? – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

发表评论