整理 | 核子可乐、褚杏娟
在5月16日这天,Windsurf这家专为软件工程师设计的初创公司,宣布推出了他们的首个AI软件工程模型系列,命名为SWE-1。这个系列不仅能帮忙编码,还有针对整个软件工程流程的优化。
目前,这个系列里有三款具体模型:
-
SWE-1:这个模型的工具调用推理能力大概和Claude 3.5 Sonnet差不多,但费用低得多。所有付费用户都能使用,推广期间,用户还可以免费试用。
-
SWE-1-lite:一个更小的模型,代替了原来的Cascade Base,效果更好。所有用户(无论免费还是付费)都可以无限次使用。
-
SWE-1-mini:这个小模型注重速度,负责为所有用户提供Windsurf Tab的被动体验。
这次发布是在Windsurf被OpenAI以30亿美元收购之后的首次技术发布,很多人对此感到惊讶。不过,推出自研AI模型显示出Windsurf正在从单纯开发应用程序转向研发支撑这些应用的底层模型。
SWE-1系列发布后,开发者Arif立刻开始制作一个Flutter应用演示,他评价说:“到目前为止真不错!”

Ian Nuttall也在Windsurf上快速体验了SWE-1,他分享了几点感受:
-
反应速度非常快,效率高
-
不绕弯子,直接上手
-
执行完指令后不会像Cursor那样卡顿
-
生成的代码整体水平大概和Sonnet 3.5相当
不过,Nuttall也提醒说,如果没有给出明确的规则,模型可能会产生不少误解,比如它会完全搞不明白如何在应用中添加路由。此外,编写代码时,最好把功能拆分成小任务,并尽量在一开始就提供足够的背景信息,以免陷入AI的死循环。
他总结说道:“总体来说,我还是更倾向于在大多数情况下使用Gemini 2.5,但这个模型是个不错的起点,后续的迭代也值得关注。”
为什么要打造大型模型
那么,Windsurf为什么要开发SWE-1呢?他们表示,目的是希望能将软件开发的速度提升到99%。毕竟,写代码在软件工程中只占了很小的一部分,单靠能编码的模型是无法满足所有需求的。
在过去的几年里,能够编写代码的模型已经取得了很大进步。开发者对这些模型的期待也从最初的简单自动补全提升到希望它们能更可靠地构建简单应用程序。然而,Windsurf则认为,这些模型在某些方面似乎停滞不前:
首先,相信大多数开发者都同意,开发过程中有相当一部分时间并不是用来写代码的。执行的任务类型越来越丰富,涉及的领域也更广,因此对模型的期望也应随之提高。这些模型不仅要有能力读写代码,还需要能够在终端上操作,访问其他知识和互联网资源,测试和使用软件,并理解用户的反馈。总之,软件开发者在编码之外的工作,模型也应该尽可能接手。
其次,每位软件开发者都知道,上述各项工作的推进非常耗时,而整个过程往往充满了未完成的状态。如今,最强大的编码模型仍然以战术目标为训练依据,最终目标是代码能否编译并通过单元测试。但对于实际的开发者来说,单元测试只是整个工程中的一部分。现在,实现某个特定功能的方法有很多,但确保某项功能在多年后仍然稳定运行的有效方式却少之又少。因此,Cascade模型在用户主动指导下表现得很好,但独立运行的时间越长,性能就越差。要实现更多工作流程的自动化,就必须打破这个限制。这需要对整个工程流程的复杂性进行建模,包括对未完成状态进行推理,甚至可能得出模棱两可的结果。
“在某种程度上,单纯提升编码水平并不足以让开发者或模型在软件工程上更进一步。我们的最终目标是帮助软件工程师加快处理所有工作,换句话说,我们早就意识到需要构建一个‘软件工程’模型——也就是SWE模型家族。”Windsurf表示。
基于对Windsurf编辑器使用方式的观察,他们开始打造一套全新的数据模型(共享时间线,the shared timeline)和一套包含未完成状态、长时间运行任务及多个接口的训练方案。
Windsurf表示:“我们最初的想法是,想证明即使是那些规模小、算力没那么强的工程团队,也能通过这种方式实现跟前沿模型不相上下的表现。而SWE-1就是我们这个初步概念的验证。”
SWE-1评测:虽然不算“遥遥领先”,但绝对有一战之力
对于SWE-1的表现,Windsurf的看法是:“它接近所有最前沿的基础模型,更重要的是,超过了所有非前沿和开放权重的模型。”
为了更好地了解SWE-1的实际表现,Windsurf进行了离线评估和生产实验的盲测。
离线评估
Windsurf将SWE-1的效果与Anthropic模型系列(Cascade中常用的模型之一)、DeepSeek和Qwen中的一些顶尖开放权重编码模型进行了比较。
对于对话式SWE任务的基准测试:从Cascade现有对话的中间点出发,看看在处理用户后续查询时的表现如何。通过评估有用性、效率、正确性以及目标文件编辑的准确率等多项指标的综合得分(10分制),就能得到可比较的性能结果。
Windsurf认为,这项基准测试很好地捕捉到了他们在Cascade中提出的“人机互动”代理式编码的独特性。毕竟模型本身并不完美,Windsurf觉得能否在任务已完成一部分的情况下与用户的输入无缝连接,应该是评估模型实用性的重要标准。

端到端的SWE任务基准测试:从对话开始介入,Cascade采用一系列单元测试,评估在多大程度上实现了用户的输入意图。根据通过率和评委评分的综合平均值来得出最终成绩(10分制)。
这项测试的目标是衡量模型在无人干预的情况下独立解决问题的能力,随着越来越多的模型被应用于这种场景,这种能力显得愈发重要。

根据离线评估的结果,Windsurf认为SWE-1在这些任务中的表现与一些顶尖实验室的成果相当,甚至超越了一些中型及前沿的开放权重模型。虽然还不能说是“遥遥领先”,但SWE-1绝对有跟这些领先成果一较高下的实力。
生产实验
考虑到Windsurf已经拥有庞大的用户基础,因此他们决定通过生产实验来补充离线评估的结果。
为了获取这些日常数据,Windsurf开展了一项盲测,参与者是一定比例的用户,而这些用户并不知道自己正在使用哪种模型。在整个测试过程中,每位用户分配到的模型是固定的,以确保能够有效评估其使用情况随时间的变化。
Windsurf选择Claude模型作为基准,因为Claude一直是Cascade中使用频率最高的模型。
用户每日的贡献行数:指在固定时间内,Cascade生成并被用户主动接受的平均代码行数。选择这个指标来衡量整体实用性,是因为它不仅能反映出每次调用模型后生成内容的实用性,还能显示用户是否愿意持续使用该模型。
Windsurf认为这个指标非常有指导意义,它不仅展现了主动性与建议质量之间的关系,还体现了生成速度和对反馈的响应能力,这直接影响用户是否会成为“回头客”。
### Windsurf的创新:如何通过流程感知提升SWE-1模型的能力
Cascade的贡献率是个有意思的指标,简单来说,它衡量的是那些至少被Cascade编辑过一次的文件中,Cascade所做的变更占据了多大比例。这其实是一种有效的实用性评估,能够反映用户对模型的使用频率和对其贡献代码的认可程度。因为这个指标专注于模型编辑过的文件,所以能更清楚地表现出使用频率和编辑倾向之间的联系。
接下来,咱们聊聊SWE-1,这个模型是根据用户与Cascade的互动进行构建的,Windsurf对此在生产实验中的出色表现并不感到意外。在图表中,我们还看到了SWE-1-lite,这是SWE-1的中型版本,它同样采用了类似的训练方法,并将取代之前的Cascade Base模型,成为用户可以无限使用的选项。
Windsurf还推出了第三个模型:SWE-1-mini。这款模型和SWE-1-lite在训练方法上有许多相似之处,但体量更小,能在被动预测系统的延迟限制内运行,并且针对预测操作任务进行了专门训练。
Windsurf明确表示:“这一切只是个开始。我们的最终目标不是仅仅追赶其他研究实验室的顶尖模型,而是要超越它们。现在我们比以往任何时候都更加相信,这样的目标是可以实现的,未来我们会在这方面加大投入。”
Windsurf编辑器如何赋能SWE-1
Windsurf之前提到过,他们观察了使用Windsurf编辑器的方式,并在博文中解释了这一工具如何为SWE-1提供支持,以及他们为何坚信自己的模型能够超越其他的性能。
关键在于“流程感知”这个概念。那流程感知到底是什么呢?Windsurf构建编辑器的目的就是在用户和AI之间建立无缝的连接。AI的每一步操作都应当能够被人类观察,而人类的行动同样要让AI能够感知到。Windsurf称这种共享时间线的感知为“流程感知”,并将这种协作智能体称为“AI心流”。
那么,为什么编辑器需要支持流程感知呢?简单说,SWE模型要独立完成所有任务还需要时间。流程感知能在这个过渡阶段确保正确的互动方式——充分利用模型的功能,若大模型出现错误,人类可以及时介入修正,然后模型再基于人类的反馈继续改进。整个过程得以自然平滑地切换。
也就是说,我们一直在关注在没有用户干预的情况下,模型能完成哪些步骤,从而了解它的能力边界。这种持续的跟进帮助Windsurf清晰了用户最希望在模型中看到的改进。正因如此,Windsurf才能迅速构建出模型,并让SWE-1达到了现阶段的水平。他们表示:“基于相同的原因,我们有信心打造出绝对性能最佳的SWE模型。”
Windsurf还提到,创建共享时间线一直是Cascade设计主要功能时的指导理念:
-
在Cascade刚发布时,Windsurf就强调用户可以在文本编辑器中操作,然后在Cascade中输入“继续”让其接手,这就是文本编辑器感知。
-
不久后,Windsurf把终端输出整合到流程感知中,以便Cascade能无缝感知用户在运行代码时遇到的错误,这就是终端感知。
-
在Wave 4中,Windsurf引入了“预览”概念,让Cascade能了解用户关注的前端组件或错误类型,这就是浏览器基础感知。
不仅仅是Cascade,Windsurf的一切构建都基于流程感知的理念。Tab同样基于共享时间线的概念。当Windsurf向Cascade添加上下文时,也会同步到Tab中,而不是随意塞进固定的窗口,而是精心设计共享时间线,以更好地反映用户的操作和目标。因此,Windsurf在Tab版本中新增了以下功能:
-
感知终端命令(Wave 5);
-
感知剪贴板中复制的内容(Wave 5);
-
感知当前Cascade对话(Wave 5);
-
感知IDE内用户搜索(Wave 6)。
Windsurf明确表示,“我们不会随意发布新功能。”他们一直在努力构建共享时间线的理想呈现方式。即使使用现成的模型,他们的工具也得到了显著提升,这主要得益于共享时间线中的信息。如今,他们拥有了自己的SWE模型,能够真正让整个飞轮运转起来,吸纳时间线并进行更复杂的操作。
Windsurf还强调,自己的独特应用程序、系统和模型飞轮的强大能力是他们的重要竞争优势。没有如此广泛的应用范围和基于实际活动的洞察规模,即使是实力强大的研究实验室也无法获得这样的飞轮效应。
毫无疑问,SWE系列模型将持续改进和更新,Windsurf表示他们还将继续加大投入,以最低的成本为用户提供最佳性能。
“SWE-1是我们一个小而精干的团队倾心打造的,整个模型家族展现了我们在产品和基础设施方面的独特优势。这是我们第一次尝试制作出真正高质量的模型。虽然我们为现在的成就感到骄傲,但我们清楚,这仅仅是个开始。”Windsurf这样说道。
原文链接:
https://windsurf.com/blog/windsurf-wave-9-swe-1
今日好文推荐
Jeff Dean:一年内 AI 将取代初级工程师,网友:“Altman只会画饼,Jeff说的话才致命”
千份简历零 Offer,42岁PHP程序员靠开网约车维生:AI时代,中年危机正在上演?
爆冷!字节Seed 在CCPC 决赛只做出一道签到题,而DeepSeek R1 直接挂零?
Borg调度进化了!谷歌超强AI Agent 登场:能设计算法、提效系统,陶哲轩亲自助攻,网友封神理科扛把子!

Windsurf的SWE-1模型确实令人期待,能够提升软件开发效率,让开发者有更多时间专注于创新,而不是繁琐的编码工作。
SWE-1系列的推出让人眼前一亮,特别是它的响应速度和实用性,确实能帮助开发者更高效地完成项目。期待后续的功能优化和迭代!
Windsurf的SWE-1系列真是个不错的选择,特别是它的低成本和快速响应,确实能帮助开发者省去不少时间。期待后续版本的表现!
SWE-1系列的发布让人觉得软件开发的未来充满希望,尤其是它在效率和成本上的优势,值得关注后续的进展。希望它能不断优化,真正解放开发者的双手。
Windsurf的SWE-1系列确实展现了强大的潜力,尤其是在提高开发效率方面,期待它能带来更多创新。
Windsurf的SWE-1系列真是个创新之举,尤其是在提升开发效率和降低成本方面。希望它能在后续版本中进一步完善,给开发者带来更多便利。