清北才子聚集,DeepSeek团队如何在全网掀起热潮?

作者:梦晨 西风

最近,DeepSeek-v3这个新模型引起了大家的关注,它在算力上只用了1/11,却超越了Llama 3,成为开源领域的一颗耀眼新星,真是让人惊艳啊!

紧接着,“雷军开出千万年薪挖DeepSeek的研究员罗福莉”的消息,更是让大家都在猜测DeepSeek团队的实力与魅力。

所以,不光是科技圈,整个互联网都在讨论这个话题,甚至小红书上也有人发帖问:“这个团队到底有多牛?”

清北才子聚集,DeepSeek团队如何在全网掀起热潮?

国际上,很多人也在翻译创始人梁文锋的访谈,甚至加了一些注释,希望能从中找到这家公司崛起的秘密。

清北才子聚集,DeepSeek团队如何在全网掀起热潮?

量子位通过整理各种资料发现,DeepSeek团队的一个显著特点,就是年轻化。

这里面有不少应届生和在读生,尤其是来自清华和北大的学生,他们在团队中非常活跃。

其中一些人,2024年正在DeepSeek进行研究的同时,刚好还获得了博士学位的奖项,真是令人佩服!

揭秘DeepSeek团队的年轻力量

你知道吗?DeepSeek团队里有不少年轻面孔,包括刚毕业的学生和在校生,尤其是来自清华和北大的才俊。他们在团队中的活跃表现让人印象深刻。更厉害的是,一些成员在2024年不仅参与了DeepSeek的研究,还获得了博士学位,真是让人刮目相看!

在这些年轻人中,有些人从DeepSeek LLM v1一路参与到DeepSeek-v3,而有些则是短暂的实习,但依然为团队带来了重要成果。

其实,DeepSeek提出的MLA新型注意力机制和GRPO强化学习对齐算法等创新,几乎都是出自这些年轻人的智慧。

2024年5月推出的DeepSeek-V2,正是这家大模型公司突破界限的重要一步。

其中最引人注目的创新,是在Transformer架构的基础上,采用了MLA(多头潜在注意力)来替代传统的多头注意力,这样一来,计算量和推理显存都得到了大幅减少,真是一个不错的提升!

在众多贡献者中,高华佐和曾旺丁在MLA架构上进行了关键的创新,值得大家关注。

标题:揭秘低调的高华佐与前沿的GRPO算法

高华佐这个名字或许你听说过,但他本人却很低调,大家只知道他是北大物理系的毕业生。

有趣的是,在被称为“大模型创业六小强”的阶跃星辰的专利文件中,似乎也能找到他的身影,不过目前还没确认他是否就是那位高华佐。

至于曾旺丁,他来自北京邮电大学,研究生时期的导师是著名的人工智能与网络搜索专家张洪刚。

在DeepSeek-V2的研究中,团队还取得了一个重要的成果——GRPO

其实在DeepSeek-V2发布之前的三个月,DeepSeek-Math已经问世,这里首次提出了GRPO(Group Relative Policy Optimization)。

GRPO是一种PPO的变种强化学习算法,它摒弃了传统的critic模型,而是通过群体得分来估算基线,这样一来,训练所需的资源就大幅减少了,真的很给力!

GRPO的出现引起了广泛关注,甚至在阿里Qwen 2.5的技术报告中也提到过这一算法,看来它在圈内的影响力不容小觑。

### 深入了解DeepSeekMath的核心团队

其实,DeepSeekMath这个项目的三位主要作者都是在DeepSeek实习期间完成他们的研究工作的。

清北才子聚集,DeepSeek团队如何在全网掀起热潮?

其中一位核心作者邵智宏,目前是清华大学交互式人工智能(CoAI)课题组的博士生,跟随黄民烈教授学习。

清北才子聚集,DeepSeek团队如何在全网掀起热潮?

他的研究兴趣广泛,涵盖自然语言处理和深度学习,尤其关注构建一个健壮且可扩展的人工智能系统。这个系统可以整合多种技能,处理复杂的自然语言问题。

值得一提的是,邵智宏还曾在微软研究院工作过。

在完成DeepSeekMath后,他还参与了DeepSeek-Prover、DeepSeek-Coder-v2和DeepSeek-R1等多个项目。

清北才子聚集,DeepSeek团队如何在全网掀起热潮?

另一位核心作者朱琪豪,则是北京大学计算机学院软件研究所2024届的博士毕业生,跟随熊英飞副教授和张路教授进行研究,专注于深度代码学习领域。

北大博士生朱琪豪与DeepSeek团队的杰出成就

北大计算机学院的官方信息显示,朱琪豪在学术上表现相当亮眼,已经发表了16篇CCF-A类论文,并且在ASE和ESEC/FSE的会议上获得过一次ACM SIGSOFT杰出论文奖和一次提名。他的一篇论文在ESEC/FSE会议中,还跻身同年引用前三名。

在DeepSeek团队,朱琪豪负责开发了DeepSeek-Coder-V1,这个项目基于他的博士论文进行的研究。

他的博士论文《语言定义感知的深度代码学习技术及应用》也被选入了2024CCF软件工程专业委员会的博士学位论文激励计划。

清北才子聚集,DeepSeek团队如何在全网掀起热潮?

图源:北京大学计算机学院公众号

另外一位核心成员也来自北大。

Peiyi Wang,作为北大的博士生,向穗志方教授学习,正在进行相关的研究。

清北才子聚集,DeepSeek团队如何在全网掀起热潮?

值得一提的是,DeepSeek团队中还有一些成员从v1版本就参与进来,一直跟随到v3版本。

其中,代达劢也是一个代表性人物,他在2024年从北大计算机学院计算语言所毕业,导师同样是穗志方教授。

清北才子聚集,DeepSeek团队如何在全网掀起热潮?

图源:北京大学计算机学院公众号

代达劢在学术上同样有着不俗的表现,曾获得EMNLP 2023最佳长论文奖和CCL 2021最佳中文论文奖,发表的学术论文数量也超过20篇。

他的博士论文《预训练语言模型知识记忆的机理分析及能力增强关键技术研究》,在2024年中国中文信息学会的“博士学位论文激励计划”中被选中,成为了来自中国大陆高校的十篇优秀博士论文之一。

还有来自北大元培学院的王炳宣也值得关注哦。

DeepSeek团队的背后故事

提到王炳宣,他来自美丽的山东烟台,2017年顺利进入北京大学学习。

硕士毕业后,他加入了DeepSeek,参与了从DeepSeek LLM v1开始的一系列重要项目,真的是个了不起的人才。

另外,清华大学的赵成钢也非常引人注目。

赵成钢曾是衡水中学的顶尖学霸,获得了2016年CCF NOI的银牌。

他随后考入清华,大学二年级时就加入了学校的超算团队,三次带领团队赢得世界大学生超算竞赛的冠军。

现在,赵成钢在DeepSeek担任训练和推理基础架构的工程师,还曾在英伟达实习过,经验丰富。

图源:清华新闻网

DeepSeek是一支怎样的团队

团队里的这些年轻人,真的是让人惊叹不已。

不过,咱们还是得回到最初的问题:DeepSeek究竟是一支怎样的团队呢?它的组织结构又是如何的?

或许我们可以从创始人梁文锋的身上找到一些线索。

在2023年5月,DeepSeek刚宣布进军大模型领域的时候,梁文锋在接受36氪旗下的「暗涌」采访时提到他们的招聘标准:

我们看重的是能力,而非经验。

所以核心技术岗位的人员,基本上都是应届毕业生或毕业一两年的人。

从之后一年多发布的论文贡献名单来看,确实如此,博士在读、应届生和刚毕业一两年的成员占了很大比例。

即便是团队的领导者,通常也比较年轻,多数毕业4到6年。

比如说,负责DeepSeek后训练团队的吴俣,他2019年从北航获得博士学位,之前在微软的MSRA参与过小冰和必应百科等项目。

年轻团队与创新技术:DeepSeek的独特之处

吴俣博士在北航的学习期间,得到了李舟军教授和前MSRA副院长周明博士的共同指导。

而和他同门的还有郭达雅,他在中山大学完成学业,同时也受到周明博士的培养,并于2023年顺利获得博士学位。

2024年7月,郭达雅加入了DeepSeek,投身于一系列关于数学和代码大模型的工作。

郭达雅在本科阶段的表现也很出色,他在MSRA实习一年期间,居然发表了两篇顶级会议的论文。他幽默地表示:“在刚入学的第三天,我就完成了中大博士生的毕业要求。

清北才子聚集,DeepSeek团队如何在全网掀起热潮?

除了年轻的团队成员,DeepSeek在国内AI公司中还有一个显著的特点:特别重视模型算法与硬件工程的结合。

DeepSeek v3的研究论文中,多达200位作者,并非所有人都专注于AI算法或数据分析。

在从DeepSeek LLM v1到v3的过程中,有一批人一直在努力,他们更侧重于算力的优化和硬件的提升。

他们以DeepSeek AI的名义共同发表了一篇论文《Fire-Flyer AI-HPC》,通过软硬件协同设计,成功降低了训练成本,解决了传统超算架构在AI训练需求上的不足。

Fire-Flyer实际上是幻方AI构建的萤火2号万卡集群,它使用了英伟达的A100 GPU,却在成本和能耗上超越了官方的DGX-A100服务器。

这支团队中,不乏曾在英伟达工作或实习的人,也有来自阿里云的同事,甚至还有不少是从幻方AI借调或直接转岗到DeepSeek,参与到每一项大模型的研发中。

如此重视软硬件协同的成果,正是凭借Llama 3 405B的1/11算力,成功训练出了性能更为优越的DeepSeek-v3。

清北才子聚集,DeepSeek团队如何在全网掀起热潮?

最后,DeepSeek的开源项目中还有一个特别的成果,它与语言模型无关,却专注于3D生成。

这项成就是由清华大学的博士生孙景翔在DeepSeek实习期间,与他的导师刘烨斌及DeepSeek团队的其他成员共同完成的。

### 深入了解DeepSeek团队的独特之处

在DeepSeek实习的学生中,还有来自中山大学逻辑学专业的辛华剑,他的贡献同样令人瞩目。

在实习期间,他参与了一个名为DeepSeek-Prover的项目,利用大型模型来证明数学定理,目前他正在爱丁堡大学攻读博士学位。

回过头来,再看看梁文锋的访谈,或许能让我们更好地理解这个团队的运作模式。

  • 他们并不设定固定的岗位分工,而是让每个人根据兴趣自然而然地进行分工。

  • 每个人对于资源的调动没有上限,任何人只要有兴趣,就可以随时调用训练集群,启动一个项目。

  • 当某个创意展现出潜力时,团队会从上到下调配相应的资源来支持。

这让我不禁想到了AI领域的另一股重要力量,OpenAI。

在用人方面,他们同样不拘泥于经验,只要有能力,本科生和辍学生都能被录用。

他们也很重视新人,通过调动资源,让应届生和00后有机会从零开始研究Sora。

在潜力方向的把握上,公司会从高层开始进行设计和资源的分配。

可以说,DeepSeek在组织形态上最接近OpenAI的中国AI公司。

参考链接:

[1]https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA

[2]https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg

[3]https://mp.weixin.qq.com/s/9AV6Qrm_1HAK1V3t1MZXOw

[4]https://mp.weixin.qq.com/s/y4QwknL7e2Xcnk19LocR4A

[5]https://mp.weixin.qq.com/s/C9sYYQc6e0EAPegLMd_LVQ

⭐星标华尔街见闻,好内容不错过

本文仅供参考,不构成个人投资建议,市场有风险,投资需谨慎,请自行判断和决策。

来源:今日头条
原文标题:全网都在扒的DeepSeek团队,是清北应届生撑起一片天 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

《清北才子聚集,DeepSeek团队如何在全网掀起热潮?》有7条评论

  1. DeepSeek团队的年轻成员真是让人刮目相看,他们的创新和活力为整个行业注入了新的动力,未来可期!

    回复
  2. DeepSeek团队的年轻化特征令人振奋,他们的创新思维和能力让整个科技圈充满期待。这样的团队未来必将引领更多的技术突破。

    回复
  3. DeepSeek团队的年轻力量确实很了不起,尤其是他们在技术创新上展现出的潜力,令人期待未来的发展!

    回复
  4. DeepSeek团队的年轻化策略真是个好主意,他们的创新思维让人眼前一亮。期待他们在未来带来更多技术上的突破!

    回复
  5. DeepSeek团队能在如此短的时间内取得突破,年轻成员的贡献不可小觑。他们的创新精神让人充满期待,未来一定会有更多惊喜出现。

    回复
  6. DeepSeek团队的年轻成员展现了惊人的创新能力,特别是在新算法的提出上。他们的努力和成就让人对未来充满期待,期待看到更多成果。

    回复
  7. DeepSeek团队的年轻人才真是让人惊叹,他们在算法创新上的贡献显示了出色的潜力,未来值得期待。

    回复

发表评论