梁文峰与他的超级战队:探索超能世界的冒险之旅

文 | 略大参考,作者 | 二毛,编辑 | 原野

梁文锋专注于团队的建设,他相信团队的创新能力是与竞争对手拉开差距的关键,从而形成了自己的护城河。

“相信组织的力量”这句话听起来似乎有些空洞,很多人也难以从中提取出实质内容。不过,这正是梁文锋选择将DeepSeek完全开源的原因之一。

迪士尼曾推出一部名为《超能陆战队》的动画电影,成功塑造了IP角色大白。细细品味,这个角色不过是主角们创造的“工具”,电影更深层次的主题则是团队的胜利——在男主Hiro的带领下,他和伙伴们战胜了强敌。

虽然这部电影是在2014年上映,但如果今年再次重映,尤其是在中国,大家可能会把Hiro和梁文锋联系在一起。在DeepSeek的故事中,真正带来变化的,正是他与团队的努力。

就像Hiro的胜利,并不是依赖于大白,而更多是因为他和朋友们的团结。

01 “书呆子”

这两位角色的起步都带有一些冒险色彩:Hiro靠的是赌博,而梁文锋则是通过炒股。在人们的调侃中,这两个词常常被并列,唯一的区别在于是否合法。

不过对于他们俩来说,冒险并不是真正的冒险,因为他们的确定性足够高。

少年天才Hiro因为感到课堂上的知识无聊,选择辍学,靠着自己研发的机器人参加比赛谋生。

他的机器人使用了磁力伺服器技术,灵活性极高,自问世以来从未失败,因此在各种比赛中总是能如鱼得水,赢得奖金。

对于那些循规蹈矩的科学家们,他常常带着鄙夷,称他们为“书呆子”,而学术研究的机构自然就是“书呆子学校”。

可惜的是,梁文锋恰恰就是这个“书呆子”,而且他自己还积极组织了一个“书呆子学校”。

虽然在当时,选择成为一个书呆子显得有些“叛逆”。

那是2010年,BAT的格局已基本成型,大型公司的程序员成为了新的逆袭范本。然而,获得电子信息工程硕士的梁文锋,选择在成都的一处出租屋中,经过几番尝试,决定切入“足够复杂”的金融领域,带着8万元本金开始量化投资。

所谓的量化投资,简单来说,就是通过计算机和设定的算法来代替人进行投资决策。行业先锋詹姆斯·西蒙斯花了15年时间来完善模型,最终达成了“即使在梦中也能赚钱”的目标。

在中国,这个行业对“书呆子”来说非常适合,某知名量化私募甚至将“书呆子”作为企业文化的一部分。

具体到人的表现上,就是“不会寒暄,讲话时离你三米远”。后来与梁文锋接触过的人描述中,他的表现很符合量化投资人的这一刻板印象。

好在,成功往往能改变一个词的负面含义。当业内人士开始知道梁文锋的名字时,他已经是管理上百亿基金的幻方量化创始人了。巅峰时期,幻方量化管理的资金规模接近千亿。——当然,DeepSeek的成功之后,这些成就看起来更像是前菜。

梁文峰与他的超级战队:探索超能世界的冒险之旅

图源:幻方量化官网

Hiro和梁文锋还有一个相似之处:都是因为偶像而明确了人生方向。

在《超能陆战队》中,Hiro被哥哥设计“骗”到机器人实验室,遇到了一群志同道合的科技爱好者,以及他心目中的偶像卡拉汉教授——这使得Hiro立志要加入这个“书呆子学校”,从此告别了街头的生活。

而梁文锋的偶像是西蒙斯,他曾希望自己能和西蒙斯并肩而立。

在海外,量化投资者有在赚到钱后资助基础科学研究的传统,西蒙斯本身也是一名数学家,通过量化投资积累财富后,支持了许多基础科学的研究。

梁文锋热爱数学建模与编程,沿着这条路做了大量研究:什么样的模型能完整描述金融市场,有没有更简洁的表达方式,不同模型的能力边界在哪里,这些模型能否更广泛应用……在这个过程中,AI能力的边界成为了他最感兴趣的话题,通用人工智能的挑战与前景,激发了他的斗志。

此时,他的财富已经足够。原本幻方每年会有几亿的公益捐款预算,在找到想要突破的领域后,这部分预算便转向了新的方向。

从2019年开始,幻方开始购买英伟达的芯片,到2021年时,他们手中的芯片已经超过了一万张——这笔储备在美国实施芯片出口管制后,显得更加珍贵。

另一个层面的财富,则是由许多像梁文锋一样对AI充满好奇的年轻人组成的团队。

梁文峰与他的超级战队:探索超能世界的冒险之旅

图:论文鸣谢人员名单截图,图源DeepSeek-R1论文

在人工智能这场竞赛中,遵循着“人才第一,数据第二,算力第三”的原则,梁文锋已经具备了其中的两个要素,理论上他随时可以召唤神龙——

于是,DeepSeek应运而生。

02 护城河

在行业内,大家都认同一个观点:AI技术本身是阶段性的,随时可以被追赶,真正的壁垒在于团队的创新能力。

“大模型技术本身并不是壁垒,核心竞争力在于组织形式和创新能力的团队。”面壁智能的首席科学家刘知远和硅基流动的创始人袁进辉都曾表达过这样的看法。

阶跃星辰的创始人姜大昕向媒体透露:只要OpenAI发布新产品,他们的策略就是在六个月内追上它。

梁文锋同样认为,技术本身没有太多秘密,重置技术需要的时间和成本才是关键。因此,他将重心放在团队建设上,通过团队的创新能力与行业形成差异,进而建立起自己的护城河。

而要打造创新团队,主要关注两个方面:人和组织。

DeepSeek有一支被猎头称为“全员精锐”的团队。Anthropic的联合创始人Jack Clark称他们为“高深莫测的天才”。不过这一说法被梁文锋否定:其实没有什么高深莫测的天才,团队成员大都是顶尖高校的应届毕业生、在读的博士生以及刚毕业不久的年轻人。

### 深入了解DeepSeek:年轻人的创新与灵活性

梁文峰与他的超级战队:探索超能世界的冒险之旅

图:英伟达的高级研究科学家Zhiding Yu回忆与实习生潘梓正的相遇

说到经验,梁文锋的观点似乎和业界普遍的看法不太一样。在大模型公司里,这种情况真的是不多见。

马斯克去年在X平台上也曾提到,人工智能领域的人才争夺战真的是他见过的最疯狂的。

仔细观察一下,这些巨头们争抢的多是对手团队里的资深工程师和专家。

在国内的大模型公司里,光环往往属于那些背景亮眼的程序员。原零一万物的模型训练负责人黄文灏博士就曾表示,希望能吸引包括谷歌、微软等高水平算法人才回国。

而同样的,月之暗面在招聘时也特别看重候选人的国际国内大厂经历和成功的产品经验,要求有从无到有的项目经验,也要有从一到亿的成功案例。

不过,DeepSeek的做法显得有些与众不同。

有猎头曾透露,DeepSeek并不需要那些资深的技术人员,工作经验在3到5年之间的才算合适,超过8年的基本没戏。

梁文锋举了自己的例子说:“做事情的时候,有经验的人会告诉你应该怎么做,但没有经验的人则会不断摸索,寻找适合现状的解决方案。其实我一开始也没有量化的经验。”

没有经验的情况下,评判优秀与否的标准除了学校,学术成绩也成了重要的考量。

DeepSeek对员工的要求非常高,社交平台上的一个帖子提到:除非你是一个年轻且潜力十足的“技术英雄”,否则就别考虑加入了。

香港《南华早报》曾报道,DeepSeek-R1的参与者戴黛玫是北京大学计算语言学研究所的博士,曾在EMNLP 2023上获得最佳长论文奖;

DeepSeekMath模型的核心作者之一朱启豪也是北大的博士,在DeepSeek期间负责了DeepSeek-Coder-V1的开发,并在顶级会议上发表了16篇CCF-A级论文;

而大家熟知的“AI天才少女”罗福莉,在北大学硕期间,就曾在2019年于人工智能领域顶级国际会议ACL上发表8篇论文。

梁文峰与他的超级战队:探索超能世界的冒险之旅

这跟《超能陆战队》的剧情设定还真是有几分相似。

就像Hiro在组建团队与反派抗衡之前,团队成员们在各自领域都取得了显著成绩:Gogo的电磁悬浮自行车能实现零阻力骑行,Wasabi的激光诱导等离子光束能瞬间切割一切,Honey Lemon则能利用化学试剂制造出神奇的混合物……

在DeepSeek,这些年轻人虽然有些“书呆子”的气质,但他们拥有比大厂更多的可能性:DeepSeekMath模型团队的三位核心作者就是在博士实习期间完成了相关研究的;而V2模型中创新的MLA架构提出者,当时也还是个实习生。

这或许就是科技公司实习生的最高成就了。

优秀且有潜力的年轻人在大模型公司并不少见,但能在实习阶段发挥关键作用并主导项目开发,更多地依赖于公司文化的支持。

以MLA架构的提出者为例:这位年轻研究员在总结出Attention架构的一些主流变迁规律后,突发奇想,设计了一个替代方案。在探索过程中,他遇到问题就主动拉人讨论。随着这个想法展现出潜力,公司便调配资源给予支持。

一个关于幻方的早期内部采访视频在DeepSeek火了之后被网友重新翻了出来。一名量化策略研究员说:

“幻方的团队结构非常灵活且扁平,鼓励不同小组成员之间的自由交流与合作,以最大化我们的整体创新能力。我们不采用KPI、OKR等考核方式,每个人可以根据自己的能力和兴趣,选择自己研究的方向,甚至刚毕业的新人也有机会主导和探索全新的领域,并且团队成员会给予足够的资源支持。”

梁文峰与他的超级战队:探索超能世界的冒险之旅

显然,这种企业文化也渗透到了DeepSeek。

在与自媒体《暗涌waves》的记者于丽丽的对话中,梁文锋透露,DeepSeek在人员调动上非常灵活,没有层级之分,也不需要跨部门审批。他本人还保持着每天“看论文,写代码,参与小组讨论”的习惯。

这就像Hiro在组队后所做的事情:将天赋异禀的朋友聚集在一起,运用自己的编程技能来支持团队,让每个成员在擅长的领域变得更强,从而提升整体的战斗力。

这种“小作坊式”的组织模式,几乎是大厂的对立面:轻盈、快速、高效。当DeepSeek打破国内AI局面的僵局,迅速成为基础设施式的角色时,大厂在舆论场中逐渐失去了光环。——在某种程度上,这也像是年轻人对功成名就者的胜利。

03 一切为了AI

最近,关于DeepSeek融资的传闻在市场上满天飞,但DeepSeek的回应都是坚决否认。其实在公司还没成立之前,创始人梁文锋就和不同的投资方聊过,但在商业化的方向上,双方始终没有达成一致。

梁文锋是个充满理想的技术狂热者,他心中所追求的AGI研究,才是DeepSeek的最终目标,商业收益对他来说并不那么重要。这和那些只关注投资回报的风险投资者完全相悖,不过你也不能太苛责他们,毕竟这是他们的生存之道。

在中国,大多数大模型公司更愿意选择应用创新,而非技术创新。往科技的最前沿探索,意味着要面临无数的挑战和失败,时间和金钱的投入都相当可观。这种情况就像西蒙斯无条件支持纯理论科学研究,差不多是一个道理。

DeepSeek的团队里,很多人和梁文锋有着相似的理想。一位AI架构师就曾说:“我宁愿为一点点性能提升拼尽全力,也不想去写那些毫无挑战的代码。”

在他看来,作为程序员最大的乐趣,就是和一群聪明的伙伴一起攻克难题。

而另一位AI应用工程师提到,自己在团队解决模型训练速度问题时,提出的方案被英伟达官方认可并当作案例分享,这让他意识到,“我们已经是全球技术前沿的团队了。”

DeepSeek坚持开源的原因之一,正是梁文锋认为技术人员被关注是一种成就感,这和商业利益无关,而是一种“额外的荣誉”。

顶级人才通常都渴望解决世界上最难的难题。大部分时间,梁文锋和他的团队都是志同道合的人。更幸运的是,在他决定全力以赴攻克AGI之前,已经有足够的资金支持团队专注于研究。

你很难指望一个连温饱都难以解决的人,去制定改变世界的宏伟目标并付诸实践。

这或许也是梁文锋和DeepSeek受到同行羡慕的原因之一。

他可以随心所欲地去做。

有位自称是AI初创合伙人的人士在社交平台上透露:“我了解到,他们甚至没有一个正式的产品经理,更别提市场营销和公关支持。”这其实是梁文锋对西蒙斯的又一次致敬:

“只招募没有金融背景、与华尔街毫无关系的数学家、物理学家和计算机科学家。”

与梁文锋同样被视为“天才少年”的杨植麟(月之暗面创始人),可能就无法这么“任性”。在技术研究之外,他还得考虑商业化,因为他背后有投资人,这种“打工人的无奈”无形中会分散他的注意力。

他必须更加小心,比如更倾向于雇用那些有成功项目经验的技术人才,这种策略能有效降低出错的风险。毕竟,钱可不是他自己的。

当然,梁文锋的情况也并非高枕无忧。

首先,幻方量化的资金正在缩水。据幻方的工作人员表示,目前公司的基金规模大约为200多亿元,和之前的高峰相比下降得很厉害,梁文锋的“为爱发电”目前正面临现实的挑战。

而一旦接受融资,DeepSeek“探索与研究”的初心就可能受到影响。

另一方面,尽管DeepSeek实力强劲,但竞争对手也不容小觑,它的技术领先地位未必能长久保持。比如Kimi K1.5,在OpenAI的o系列论文中,这个模型与DeepSeek-R1并列出现。

最近,梁文锋还提交了一篇关于NSA(原生稀疏注意力)的技术论文。

梁文峰与他的超级战队:探索超能世界的冒险之旅

图源:NSA论文

巧合的是,杨植麟在同一天也提交了一篇技术论文MoBA。这两份论文都在探讨同一个问题:如何通过自研架构让transformer架构的注意力机制能够处理更长的文本。未来,这两位被认为是中国大模型最具潜力的年轻人之间,注定会展开更多的较量。

来自大厂的压力同样不容小觑。

梁文锋曾认为大厂的组织结构会阻碍创新,但据《晚点latepost》报道,无论是找人还是调整组织,字节跳动展现出了“创业公司”的快速反应能力:

首先,张一鸣亲自参与,他开始研究AI技术论文,并从2023年起一对一拜访重要的作者,包括一些未毕业的博士生。

去年,字节还挖来了Google原VideoPoet项目负责人蒋路、零一万物的黄文灏,以及阿里通义大模型的原技术负责人周畅。据知情人士透露,字节提供的条件让原公司根本留不住他们。

其次,在组织方面,字节整合内部资源,迅速完善AI新部门——Flow。如今,Flow已经成为与抖音、火山和飞书平级的主要业务部门,如果Flow特别想调哪个人,原部门一般都会同意。这和DeepSeek的“没有跨部门”组织有异曲同工之处。

简单说来,一切都是为了AI。

此外,不论是资金还是资源,大型企业都占据了明显的优势。无论是梁文锋还是杨植麟,都需要全力以赴迎接接下来的竞争。

放眼全球,显然DeepSeek要走的路还很长,尽管它的实力已经相当出色,但它能给世界带来震撼的最大原因在于:在相同推理效果下的价格优势。在技术领域,OpenAI和美国科技巨头依然掌握着行业优势,而且没有算力限制。

DeepSeek依然需要负重前行。

尽管外界热议不断,DeepSeek和梁文锋依然在按照自己的节奏稳步推进。

截至2月8日,DeepSeek在国内APP端的日活跃用户数达到了3494万;海外APP端DAU为3685万,全球Web端日活跃用户接近4800万,总日活跃用户达到了1.19亿。值得一提的是,DeepSeek并没有进行任何广告投放,而是像梁文锋早期所说的那样,让其他公司在DeepSeek的基础上构建toB和toC的业务。

梁文峰与他的超级战队:探索超能世界的冒险之旅

于丽丽曾问梁文锋:你们会选择闭源吗?梁文锋的回答没有留有余地:不会。

他强调,相比商业化,建立一个强大的技术生态更为重要。他希望实现AI的普惠,而不是技术垄断。当然,他对团队的创新速度充满信心,坚信这会成为开源模式下的护城河。

于丽丽在后来的文章中提到,梁文锋是少数把“是非观”放在“利害观”前面的人,并提醒大家关注时代的惯性,把“原创式创新”提上日程。

梁文锋也从不拿自己与其他人进行比较,“我常常思考的是,某个事物是否能提升社会的运行效率,以及你是否能在其产业链中找到适合自己的位置。”

他仍在持续迭代,整个AI行业也是如此。

这样的热闹开场,让2025年的春天似乎更近了。

来源:今日头条
原文标题:梁文峰和他的超能陆战队 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

发表评论