Windsurf最近推出了它的首个先锋模型SWE-1,AI编程界真的是热闹非凡,目标是把开发效率提升到惊人的99%。这个SWE-1可不是仅仅会写代码,它还可以理解并参与到整个软件开发流程中。它的核心创新在于一个“流动感知”系统,能够让AI和用户在同一个操作时间线上高效协作。
Windsurf的首次亮相终于来了!
Cursor在网络上火得一塌糊涂,而OpenAI也以30亿美元的巨额资金收购了Windsurf,Windsurf可不想被埋没,终于出手了!
Windsurf发布的SWE-1模型,目标是让软件开发的速度提升99%!

SWE-1不仅仅是个“写代码”的模型,更是一个能理解、参与、协助整个工程流程的合作伙伴。
目前,这个系列一共推出了三个模型:
SWE-1:它的工具调用推理能力和Claude 3.5 Sonnet类似,但运行成本更低。推广期间,所有付费用户都可以免费使用哦。
SWE-1-lite:这是一个更小但效果更好的模型,能够全面替代Cascade Base,并向所有用户(包括免费用户)开放。
SWE-1-mini:体积更小、速度更快,专门为Windsurf Tab中的低延迟被动体验设计,适合所有用户。

最新消息,SWE-1已经在Windsurf上线,并且处于免费使用阶段。
AI编程发展迅速
近些年,“会写代码”的模型取得了显著进步,从最初的简单自动补全,发展到现在可以一次性构建完整的小型应用。
不过,这种能力还是有一些限制:
第一,软件开发可不仅仅是写代码。
开发者需要做的事情远远不止写代码,还包括操作终端、获取知识、调试产品、理解用户反馈等等。因此,需要一个更全面的模型,能够涵盖整个开发流程。
第二,工程过程是跨阶段且不断变化的。
目前主流的基础模型大多是基于“代码能否编译”和“是否通过单元测试”来训练的,但现实情况是,这仅仅是整个工程任务的一小部分。
实际上,我们更需要的是能处理“尚未完成的状态”、理解模糊目标的模型。
否则,即便模型写出的功能能运行,后续的维护和扩展性可能都会存在问题。
因此,仅仅提升“写代码”的能力,并不能真正提高整个工程的效率。我们需要的是能够支持完整软件工程流程的模型,简单称之为SWE模型。
SWE-1的开发历程
SWE-1的灵感源自广受欢迎的Windsurf编辑器,构建了全新的数据结构(共享时间线)和训练方法,能够理解未完成的状态、长周期任务以及多种交互界面。
其初衷是在资源有限的情况下,通过这种方式开发出高性能的模型。
SWE-1是这个目标的第一个成功案例。
在整体表现上,SWE-1接近最尖端的基础模型,在多个维度上超越了所有非前沿模型和开源竞争者。可通过离线评估和在线实测两种方式进行验证。
离线评估
评估将SWE-1与Anthropic系列(Cascade中最常用的模型之一)以及Deepseek、Qwen等主流开源模型进行对比,主要有两个基准测试:
会话式SWE任务基准
从一个正在进行的Cascade会话中截取任务,评估模型如何响应用户的下一个请求,评分标准综合考虑帮助程度、效率、正确性以及目标文件编辑的准确性。这项测试侧重于模型在“人机协作”环境中的表现。

端到端SWE任务基准
从会话开始就评估模型是否能完全独立地解决问题,并通过一系列单元测试来检验。得分基于测试通过率和专家打分。这项测试主要衡量模型自主完成任务的能力。
评估结果与线上实测
根据评估结果,SWE-1在这些任务中的表现几乎接近顶尖实验室的领先模型,明显超越了中等规模和开源的竞争者。虽然还没有达到绝对的巅峰,但潜力是相当大的。
线上实测(生产实验)
Windsurf的用户数量庞大,因此他们通过盲测实验来评估模型在实际使用中的表现。
在实验中,Windsurf将用户分成不同的组,使用多种模型,并且在不告知用户模型类型的情况下观察其行为和效果。
Windsurf主要关注两个关键指标:
每位用户每天接受的代码行数
指的是用户在Cascade中编写、接收并最终保留的代码行数,这直接反映了模型的实际帮助程度、响应质量以及用户的依赖程度。

Cascade代码贡献率
这个指标是指模型对被Cascade修改过的文件所做代码改动的比例,反映了模型的「主动性」和用户对其的信任程度。
由于SWE-1是专门为Cascade场景设计和优化的,因此在这些指标上表现几乎是行业内的佼佼者,优于所有非前沿模型。

其他模型分析
或许你在上面的图表中看到过SWE-1-lite,这是SWE-1的中型版本,采用相同的训练方式,在非前沿模型中表现出色,目前已经取代了Cascade Base,并向所有用户开放。
此外,Windsurf还推出了SWE-1-mini,这个版本更小更快,特别适合像Windsurf Tab这样的对延迟要求极高的被动预测场景。
需要强调的是,这仅仅是个开始。
Windsurf的目标不仅是赶上最前沿的实验室,最终希望能够全面超越它们。
Windsurf坚信,自己已经具备实现这一目标的动力,并将继续加大投入。
流动感知系统(Flow-Aware System)
Windsurf提到,SWE-1的灵感源自于Windsurf编辑器。
其核心在于Windsurf独特的设计理念:流动感知(Flow Awareness)。
那么,什么是流动感知呢?
Windsurf编辑器实现了用户与AI之间的「共识时间线」:用户能够实时看到AI的每一步操作,并进行调节,而AI也能够理解并跟进用户的行为。
这种「共享时间线」的感知能力,Windsurf称之为Flow Awareness(流动感知),因此他们一直将这种人机协作的体验称为「AI flows」。
流动感知为什么如此重要?
因为在短期内,没有模型能够完全独立地完成所有开发任务。
流动感知让模型和人类之间能够自然而然地交接工作:AI进行一部分,用户再进行校正,然后AI继续,形成流畅的衔接。
通过共享时间线,Windsurf能不断跟踪当前模型的能力边界,了解哪些任务需要用户参与,哪些可以完全自动化完成。
这也是SWE-1能够迅速达到目前水平的重要原因之一。
共享时间线在Windsurf中的演进
构建共享时间线是Windsurf众多功能背后的核心理念:
初代Cascade就支持「当你在编辑器中修改完内容后,输入continue,AI就能理解你改了什么」——这就是对编辑器的感知。
随后,Windsurf加入了终端输出感知——AI能够理解你执行命令时出现的错误。
Wave 4中还增加了「预览」功能——AI开始能够理解你在前端看到的组件和错误。
Wave 5和Wave 6中,Tab增加了对终端命令、剪贴板内容、IDE搜索内容等的感知。
这一切并不是随意添加的新功能,而是Windsurf构建「最全面的软件工程时间线」的组成部分。
即便是使用通用模型,只要Windsurf有效记录和利用这些上下文信息,AI的表现就能显著提升。
Windsurf新模型来了,未来会更精彩!
如今,Windsurf推出了自家的SWE系列模型,这一切的正反馈循环终于要开始加速了!这款模型不仅能够更好地理解时间线,还能参与到更多的环节中去。
接下来会有什么变化呢?
SWE-1仅仅是一个开端。这个模型是由一个小而精锐的团队打造的,他们充分利用了Windsurf在产品和基础设施上的优势,证明了Windsurf完全有能力开发接近前沿的模型。
展望未来,Windsurf会不断对SWE系列模型进行优化,力求在保证低成本的基础上,持续提升性能。这样一来,开发者就能借助Windsurf来打造更大、更强的软件项目。
随着SWE-1的发布,以及OpenAI对Windsurf的收购,AI编程工具迎来了新的时代。
从简单的代码补全到全面的工程协作,AI正在深刻地改变着软件开发的方式。
对于开发者而言,这既是一个充满机遇的时代,也不乏挑战。他们需要思考如何利用这些新工具来提升开发效率,这将是一个重要的课题。
参考资料:
https://windsurf.com/blog/windsurf-wave-9-swe-1
本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

Windsurf的SWE-1模型真是个创新之作,不仅能写代码,还能理解整个开发流程,期待它提升开发效率的效果。
SWE-1模型不仅提升了代码编写效率,还能理解开发流程的复杂性,真是对开发者的福音。希望能尽快看到它在实际项目中的应用效果。
SWE-1模型的推出真是个大突破,它不仅能写代码,还能参与整个开发过程,这对开发者来说是个巨大助力。希望未来能看到更多实用案例。
SWE-1的流动感知系统真是个亮点,能够与开发者高效协作,期待它在实际使用中的表现,或许能改变我们的工作方式。
SWE-1的推出标志着AI编程的一个新阶段,能够理解未完成的状态,这对开发者来说是个重要进步。期待看到它如何影响整个软件开发过程。
Windsurf的SWE-1模型真是令人兴奋,能够参与整个软件开发流程,期待它能真正提升开发效率。
这个流动感知系统的设计很有前景,希望它能解决开发中的复杂问题,带来更多便利。
SWE-1的多功能性让人感到惊喜,能理解未完成状态,这对开发者的支持是无价的。
Windsurf推出的SWE-1模型似乎能改变我们对软件开发的看法,期待它的实际应用效果。
SWE-1的流动感知系统真是个创新,能够让AI与开发者更紧密合作,未来的开发流程可能会因此变得更加高效和顺畅。