图片
随着通用大模型的性能急速提升,再加上推理算力成本的快速下降,垂直领域的大模型终于迎来了真正的爆发期。在这些垂直领域的模型中,代码大模型尤其引起了市场和投资者的广泛关注。
根据Gartner在《2024年全球IT支出预测》中的数据,全球软件开发的人力成本每年大约增加7-9%。预计到2024年,全球软件相关支出(包括开发和运维)将达到1.2万亿美元,其中大约50%会花在人工成本上,也就是6000亿美元。而在中国,互联网巨头们在软件开发上面临的人工成本压力更为明显,部分公司的薪酬及相关支出年增幅接近15%。
尽管软件开发的需求在不断增加,但全球的软件工程师缺口却也在不断扩大。有数据显示,未来十年内,缺口可能达到数千万,这将成为各行业数字化转型的一大挑战。
在软件开发需求日益增长、人工成本不断上升以及人才短缺等多重因素的影响下,代码大模型正逐渐成为少数具备明确商业化潜力和付费意愿的垂直领域大模型之一。
Cursor在短短21个月内便达到了1亿美元的年经常性收入,成为历史上增长最快的SaaS产品,估值也达到了100亿美元。Gartner还预测,到2026年,AI将能够自动化全球30%的编码任务,这意味着代码大模型将成为一个值得关注的千亿美元市场。
除了当前在海外市场大火的AI编程工具,比如GitHub Copilot、Cursor和Codeium之外,国内的通用大模型公司也纷纷进入这一领域,比如阿里的通义灵码、腾讯的腾讯云AI代码助手、华为的Code Arts,以及字节跳动的豆包Mars Code、百度的文心快码等,还有京东、讯飞、昆仑万维、DeepSeek、智谱等多家厂商也在不断布局。
在这些竞争者中,来自北大软件工程研究所的aiXcoder凭借其雄厚的技术积累和卓越的模型性能,独具一格。
aiXcoder团队凭借北大软件工程研究所六十多年的深厚积累,从多篇全球顶尖会议的研究论文开始,到全球首个十亿和百亿参数的国产代码大模型aiXcoder的推出,再到与国内多家大型企业的成功落地实践,成功实现了从实验室研究到产业应用的闭环突破。
今年四月,aiXcoder发布并开源的aiXcoder-7B模型在多个评测集中的表现超越了许多同参数规模的开源模型。例如,在与晚于其发布近半年的Qwen2.5-Coder-7B、DeepSeekCoder-7B、CodeLlama-7B等模型的比较中,aiXcoder-7B在代码生成与补全的效果上均达到当前最佳水平。
今年初,aiXcoder(北京硅心科技有限公司)刚完成A++轮融资,由中关村发展集团旗下的中关村资本和中关村协同创新基金共同参与投资。
根据公开信息,该公司已经完成四轮融资,吸引了伽利略资本、高瓴创投、彬复资本、清流资本、三七互娱等多家顶级风险投资机构的青睐。
最近,aiXcoder的商业合伙人兼总裁刘德欣接受了钛媒体创投家的独家采访,深入探讨了当前代码大模型行业面临的技术瓶颈与未来发展趋势,展现了在这一前沿领域的独特见解与实践路径。
以下是钛媒体创投家与刘德欣的对话全文,略有删减:
钛媒体创投家:为什么通用大模型无法替代代码大模型?
刘德欣:通用大模型的构建和训练是基于自然语言的,而不是编程语言(代码)。
代码和自然语言相比,有几个独特的特点:首先,代码对上下文的依赖性更强,许多代码的含义都取决于它所处的环境;其次,代码结构更为复杂。所有编程语言都可以被映射为抽象或具体的语法树(AST),而不是像自然语言那样单一地表现为线性形式。
如果模型按照理解自然语言的方式来学习编程语言,就会把代码当作普通文本来处理,从而失去代码本身的结构特性,忽视各部分之间的内在关系和严格约束。这不仅降低了代码补全和生成的精确度,还容易导致因为语义理解错误而产生的“幻觉”。
另一个问题在于训练数据的来源。通用大模型主要依赖公开的互联网数据进行训练,这就无法涵盖特定行业或企业的私有数据。依赖公开数据训练的模型,虽然可以应对通用领域的软件开发任务,但企业内部的需求通常来自特定行业,这些任务有独特的命名规范和业务逻辑,因此需要企业或行业提供私有数据进行个性化训练。
举个例子,让大模型生成一些通用代码(比如写一个基于HTML的4×4华容道游戏或贪吃蛇游戏)并不困难;但如果用它来开发银行的业务程序,可能就会出现很多错误和遗漏。这是因为这些通用大模型没有接触过银行的私有数据和业务知识,而各家银行也不会将这些数据放在互联网上。
这就是通用大模型无法满足企业和特定行业代码需求的根本原因。
钛媒体创投家:aiXcoder-7B有哪些独特的技术优势?
刘德欣:我们团队最近在ICSE 2025(国际软件工程大会)上发表的论文《CodeGen-7B: A Pragmatic Approach to Industrial-Strength Code Generation》中提到了我们对行业的三大贡献,这正好说明了aiXcoder-7B的独特优势。
首先,我们采用了结构化Span的方式构建模型,并创新性地提出了“结构化填充中间目标(SFIM)”的训练方法。
程序语言比自然语言更具结构性,我们将所有代码映射为抽象或具体的语法树(AST)结构,就像多层小叶片叠加一样,这就是“结构化Span”。采用这种方式构建的模型能更准确地理解程序语言,从而确保后续训练的准确性和完整性。
而传统的Fill-In-the-Middle(FIM)方法是随机选取代码片段,并在片段中随机“挖空”进行补全训练。但这种方法的问题是,随机选择的片段往往不完整,缺乏必要的上下文支持,训练出的结果也难以保证准确。
为了应对这一问题,我们创新性地结合代码语法树(AST)结构,设计了结构化填充中间目标(SFIM)的训练模式。通过解析代码语法树节点,选取完整的代码逻辑单元作为训练跨度,有效避免了随机选段造成的不完整,从而显著提升了模型的训练效果。
实验结果表明,SFIM显著提高了生成代码的简洁性(生成代码长度与人类代码的比值从DeepSeekCoder-7B的1.65降低至0.87)以及结构合理性(在FIM-Eval评测中CodeBLEU得分提高了5.3%)。
其次,aiXcoder-7B还提供了针对跨文件上下文理解的系统性优化方案。针对企业级代码库中跨文件依赖的复杂性,我们提出了多样化的数据采样算法,包含以下四种策略:
-
基于文件内容相似性采样(模拟相似代码补全场景)
-
基于文件路径相似性采样(模拟API调用场景)
-
基于文件依赖关系采样(模拟模块间调用链场景)
-
随机采样(覆盖长尾场景)
最后,aiXcoder-7B还创新性地发布了FIM-Eval评测集,基于16000多条真实开发场景的数据进行测评,显示aiXcoder 7B不仅在代码生成与补全方面效果最佳,且生成的代码更为简洁,解决了真实开发场景的覆盖问题。该评测集现已成为软件工程领域验证代码生成模型实用性的关键工具。
钛媒体创投家:除了模型性能,企业在私域大模型落地过程中还关注哪些要素?
刘德欣:我们总结了企业在大模型落地时需要遵循的四大原则,这也是我们给所有客户的建议。
第一,企业要掌握模型的自主权。
掌握大模型时代的智慧:企业如何获得模型自治权与高效开发
你可能听说过,现在很多企业在进行项目建设时,需要从厂商那里获取源代码。不过,光有源代码可不够,尤其在大模型的时代,拥有代码并不代表可以完全掌控模型。如果想要真正实现模型的自治,企业得建立一套完整的内部业务数据管理和再训练机制,灵活地与适合自身业务的大模型对接并进行有效管理。拿aiXcoder来说,我们在帮助客户进行个性化训练的过程中,绝不会直接接触客户的代码和私密数据,而是会教客户如何训练,等训练完成后再进行模型评估和验证。
其次,企业需要确保模型的高度解耦。
自从2022年起,我们就一直建议企业,不要把自己束缚于某一个大模型厂商,或是依赖于特定的开源或闭源模型。随着2023年大模型的迅速发展,新模型层出不穷。因此,保证接口标准化、底层算力与模型的兼容性至关重要,同时还要确保大模型厂商能提供即插即用的适配方案,这样企业才能随时将最新的顶尖模型整合到内部业务中。
接下来,要建立一个可以重复利用的数据框架。
企业应当根据自身业务的需求,做好数据治理。我们提出的大模型数据治理框架,就是为了确保企业的数据经过系统整理后,能够高效地用于未来的模型微调和再训练。这样一来,数据治理就实现了体系化、标准化和高复用,帮助企业在落地大模型时提高效率,降低成本。
最后,永远要关注业务本身。
许多客户热衷于追逐最新的大模型技术,企业在这方面的投入也在不断增加。但新模型的快速迭代,可能会让之前的投资变得不再重要。因此,我们建议客户把更多的时间和精力放在自身业务的整合上,通过高解耦的方式,持续引入最强大的模型,从而保持产品和技术的竞争优势。
钛媒体创投家:在代码大模型领域,大厂的布局非常多,aiXcoder是如何应对这些竞争的呢?
刘德欣:确实,大厂在竞争中有明显的优势,特别是在客户获取方面。不过,我们的竞争策略主要体现在几个方面:
首先,我们专注于特定领域的深耕。我们的团队来自北大软工所,是全球最早将深度学习技术用于程序代码生成和理解的团队,凭借十多年的技术积累,形成了独特的技术壁垒。我们会在软件工程和智能化领域深度融合,保持技术的领先。
最后,我们积极寻求与大厂的合作。当大厂在解决企业私域落地问题时,通常会需要外部专业团队的帮助,而这正是我们的优势所在。
钛媒体创投家:你认为代码大模型的终极形态是什么?会不会完全取代人类程序员呢?
刘德欣:我认为,终极形态应该是实现完全智能化和自动化的软件开发过程。
在这个理想状态下,AI系统能够从用户需求、业务场景及相关非结构化信息中,自动理解并生成完整、高质量的软件系统,涵盖代码编写、测试、部署和维护的整个生命周期。这样的发展将显著提高软件开发的效率和质量,降低开发的成本和门槛,使软件开发能够广泛应用于各个领域。
不过,我们相信,无论短期还是长期,人类程序员都是不可替代的。
短期来看,人类程序员具备丰富的业务知识和经验,能够全面把握项目需求,进行复杂的系统架构设计与优化;同时,他们的创新思维和创造力使得他们能提出新颖的解决方案和技术架构;在处理复杂问题时,他们的应变和决策能力也是AI所无法比拟的。
从长远来看,虽然程序员可能不需要手动写大量代码,但他们依然需要专注于需求分析、算法设计和对AI生成结果的审核与创新。这些高价值的工作更具创造性和战略意义,是AI无法取代的。
钛媒体创投家:aiXcoder近期有什么新动态吗?
刘德欣:aiXcoder最近完成了产品升级,推出了内置MCP功能的软件开发Agent,目前正在进行内测。对企业和开发者而言,无论是在操作体验还是开发价值上,都有了显著提升,具体表现在:
安全可靠的私有化部署:可以及时响应业务需求,支持企业的私有化部署,并能够针对现有的开源大模型进行适配,确保企业在安全可控的环境中实现自主的Agent能力。
大幅缩短研发周期:无论是从零开始构建新应用,还是在复杂代码库上迭代功能,通过对话就能让Agent自动执行任务,极大提高研发效率,缩短周期,助力企业的数字化转型。
企业私有化工具无缝集成:MCP的开放式架构展现了强大的适配能力,支持企业在不影响现有代码架构的情况下,快速接入私有化工具链,同时与常用的本地开发工具兼容,确保了企业核心资产的安全性,同时也给予开发者灵活的工具选择空间。
精细化控制成本:与每月20-40美元的Cursor费用相比,aiXcoder Agent功能计划在插件端免费提供,使用Agent没有门槛,推动AI Coding行业的进步。
这不仅是Copilot,更是我们的资深合作伙伴。aiXcoder Agent的推出,继去年开源的7B大模型后,又一次为软件开发者带来了重磅福利。
(本文首发于钛媒体App,作者|郭虹妘,编辑|陶天宇)
