文章
春节期间,DeepSeek突然成为了大家关注的焦点。
大约一周前,DeepSeek还不是个响亮的名字,很多人对它都是一头雾水。不过,短短几天时间,它却迅速成为了业界的明星,进入了公众的视野。
由于接连发布的两款大模型产品,DeepSeek在华尔街引发了不小的波动,美股科技股一度遭遇重挫。周二,英伟达的市值在一天内蒸发了将近6000亿美元,博通、美光科技等芯片相关股票也都跟着大跌。虽然周三英伟达反弹涨了近9%,但DeepSeek带来的震撼效应仍未消失。
“DeepSeek的大模型性能已经可以媲美ChatGPT,这或许标志着国产大模型的突破,这对美股科技股造成了不小的冲击。”前海开源基金的首席经济学家杨德龙在接受时代周报记者采访时表示。他认为,科技股是美股牛市的主要动力,但投资者对此的估值产生了很大的担忧。如果一些新技术的突破或新模型不再需要消耗那么多的GPU,可能会导致像英伟达这样的公司的股价大幅下跌,从而引发美股科技股的泡沫破裂。
作为一家成立不到两年的大模型公司,DeepSeek在融资、技术进展和舆论方面一直都比较低调。它背后的公司幻方量化(一个顶尖的量化私募),在此之前也仅在私募圈内小有名气。令人惊讶的是,私募与大模型初创公司的组合,竟然创造了“DeepSeek神话”,这无疑让人更加好奇。
这一切究竟是如何实现的呢?
潜行多年
从成立的时间来看,DeepSeek并没有什么特别之处。自2022年底ChatGPT发布后,全球科技界震动,随之而来的还有一系列国产大模型创业项目。DeepSeek也是在这股潮流中崭露头角,幻方量化在2023年4月高调宣布进军大模型领域,三个月后,DeepSeek正式以独立公司身份成立。
然而,DeepSeek的技术积累其实早在之前就开始了。
幻方量化成立于2015年,创始人是梁文锋。在他们的官网上,清晰地写着:使用AI进行投资的对冲基金。根据幻方量化的介绍,在公司成立之前的七八年,创始团队就已经在探索把技术应用于投资交易。当时,量化投资在国内并不流行,团队在这一块的经验也极其有限,但梁文锋团队还是决定走这条路,出于对市场的模糊感知和技术的理想。
在这段时间,幻方量化的创始团队从零开始尝试全自动交易,运用机器学习等技术。2010年是一个转折点,当年股指期货和融资融券相继推出,A股市场变得更加活跃和多样化。也因此,量化投资在国内私募基金行业逐渐增多,梁文锋团队也在这个过程中获得了不少收益。
2015年,幻方量化正式成立,利用AI和数学进行量化投资。2016年,他们上线了第一个由深度学习算法生成的股票仓位,并开始实盘交易,计算时使用GPU。而在此之前,算法主要依赖线性模型和传统机器学习,计算多依赖CPU。
自此之后,幻方的量化策略全面转向AI化。到2017年底,几乎所有量化策略都已经采用了AI模型进行计算。不久之后,该公司明确表示AI是其主要的发展方向。
量化投资,简单来说,就是利用统计学和数学方法,通过计算机程序分析大量数据,寻求超额收益的投资策略。它的持仓风格通常是高度分散和多样化,以降低单一资产波动的风险。与传统依赖基金经理主观判断不同,量化公司是基于数据和模型来进行交易的。
不过,全面转向AI化也带来了不少问题,比如复杂模型的计算需求使得单机训练面临算力瓶颈,训练需求与有限计算资源之间的矛盾迫在眉睫。因此,幻方量化在2019年成立了一家AI基础研究公司,并推出了自研的“萤火一号”AI集群,搭载500块显卡。同年,幻方量化规模扩展,进入了百亿私募的行列。到了2021年,幻方又投入10亿元建设“萤火二号”,为AI研究提供算力支持。
回头来看,幻方量化在构建AI算力过程中的“囤卡”策略,为它赢得了市场机会。作为国内最早的英伟达芯片大买家之一,在ChatGPT火热之前,幻方量化手中的英伟达显卡数量已经不断增加。根据幻方量化的数据,2022年其用于科研的闲时算力高达1533万GPU时,这意味着每天用于科研而非交易的算力达到了4.2万GPU时。这一水平远超后来的许多大模型公司。
DeepSeek正是在这样的背景下应运而生。
也交过学费
幻方量化演绎了一个“一朝成名天下知”的精彩故事,在它的叙述中,无论是金融交易还是进军大模型,都是纯粹的技术追求。
一位接近幻方量化的投资人士向时代周报记者透露,他一直关注这家公司,并和团队成员有过交流。虽然没有直接见过创始人,但能感觉到,相比于商业盈利,团队对于技术理想的追求更加浓厚。
幻方量化希望通过AI量化交易来对金融资产进行定价和投资。金融交易本身复杂,而它又是该公司最早进入的领域,对于追求通用人工智能(AGI)的幻方量化来说,这是一个非常合适的切入点。
早在2020年,点拾投资的创始人朱昂曾对幻方量化的CEO陆政哲进行过采访。那时陆政哲表示,幻方量化自我定位为一家完全依靠AI进行投资的对冲基金。他们的模型数据来源有三个方面,分别是行情数据、覆盖全市场的基本面数据以及经过结构化处理的另类数据。通过这三类数据训练机器模型,构建投资组合,再通过精细化的程序化交易进行交易。
这套方法效果显著,在2017年至2020年间,整个量化行业都在快速增长,幻方量化的管理规模也随之水涨船高。然而,量化交易并不是完美无缺,幻方量化在这方面也曾遭遇挫折。
2021年12月,因业绩回撤达到历史最大值,幻方量化发布致歉文,称人工反复检视了AI的投资决策。虽然AI选出的股票从长期来看基本没有问题,但在买卖时机上却表现不佳。特别是在市场风格剧烈切换时,AI倾向于冒险追求更多收益,这进一步加大了回撤。
量化资管行业的快速扩张被认为是另一个原因。幻方量化认为,行业规模猛增导致策略同质化严重,增加了整体操作的难度。因此,他们开始控制整体规模,并表示将加大对策略研究的投入,以重新夺回市场优势。而在监管层面,2024年7月融券业务相关政策发生重大调整,转融券业务暂停,融券保证金比例上调。此外,程序化交易也受到进一步监管,量化行业似乎告别了野蛮发展期。
目前,梁文锋经营着两家百亿私募,除了宁波幻方量化(以股票策略为主),还有一家浙江九章资产(多资产策略)。就业绩而言,根据私募排排网的数据,过去两年量化公司的表现依然强劲,2023年百亿私募排行榜中,前十名中量化公司占据六席,在104家上榜私募中,九章资产和幻方量化的业绩分别排在第32和第33位。到2024年,量化私募的整体收益依然高于主观私募,除了东方港湾(主观投资)稳居行业首位,前三十名中大多数机构为量化或主观+量化的组合。但幻方量化的业绩表现也算不上突出,仅排在第19位。
在私募排排网中,幻方量化旗下有业绩展示的12只产品,在2024年的平均收益为12.18%,中位数收益为13.02%。
“还需冷静看待”
在某种程度上,DeepSeek可以被视为幻方量化的深度转型之作。成立之初,该公司就表明将专注于大模型的研发,从语言模型到视觉模型,再到多模态模型,步步为营。
过去一年多,DeepSeek从默默无闻到备受瞩目,经历了一条清晰的产品迭代之路。
在2024年5月之前,DeepSeek相继推出了DeepSeek Coder(第一个免费开源模型)、DeepSeek LLM(第一个大语言模型),其中DeepSeek LLM的参数达到670亿,训练数据集包含2万亿token(用于表示单词或短语的符号)。在中文表现上,该模型声称超越了当时的GPT-3.5。
这两款模型最初并没有引起太多关注,直到DeepSeek发布DeepSeek-V2,才让DeepSeek引起了圈内的目光。DeepSeek-V2是一种混合专家(MoE)语言模型,参数总量达到2360亿,每个token激活210亿个参数。在一些行业测试中,DeepSeek-V2的表现相当不错。
有趣的是,当时国内业界对这款模型似乎并没有太多技术层面的重视。DeepSeek-V2之所以引人瞩目,主要是因为它在大模型行业引发了一场价格战——DeepSeek在5月宣布,DeepSeek-V2的输入价格降至每百万Tokens为1元、输出价格为2元,开发者还能获得500万Tokens的免费额度。
这个价格大约是GPT-4 Turbo的七十分之一。
随即,许多互联网大厂纷纷跟进,甚至有些厂商将价格降得比DeepSeek-V2还要低。就在国内玩家为价格战打得火热时,硅谷的从业者们发现,DeepSeek-V2采用的多头潜在注意力机制,显著提升了大模型的性能。
这可能是硅谷开始关注这家中国初创公司的原因。
据行业相关人士介绍,多头潜在注意力机制是DeepSeek-V2提出的一种注意力架构,能够显著减少推理过程中的KV缓存。KV缓存是指在大模型推理过程中,用于存储先前计算结果的技术。
到2024年底,DeepSeek继续迭代,推出了DeepSeek-V3模型,终于迎来了它的GPT-3时刻。
今年1月20日,DeepSeek-R1发布,在数学、代码、自然语言推理等任务上,宣称性能已对标OpenAI的o1正式版。而它的蒸馏小模型也超越了OpenAI的o1-mini。此外,在开源和闭源的争议中,DeepSeek宣布R1开源,允许用户进行“模型蒸馏”,以促进技术共享。
DeepSeek-R1可谓是一个重磅炸弹,性能引起全球业界的广泛关注,更重要的是——它的成本相比竞品大幅降低。一周后,DeepSeek趁热打铁,又推出了开源的多模态模型,被认为在图文生成方面超越了OpenAI的DALL-E3。至此,外界对DeepSeek的讨论达到了高潮。
能够与先进大模型保持相近的性能,同时在训练成本、运行费用和服务定价上全面大幅降低,这就是DeepSeek震撼科技圈的原因。在这样的现象级产品出现之前,过去两年多,由于AI行业对高性能显卡的追逐,英伟达一路高歌猛进。无论是资本市场还是产业链,这一逻辑似乎已经固化,没想到DeepSeek的横空出世搅动了这一局面。
DeepSeek的冲击波:未来走向何方?
不过,这股冲击波到底能持续多久,还是个谜。虽然DeepSeek的表现相当抢眼,但它是否真的缩短了国产大模型与国际技术之间的差距,现在大家都在讨论呢。而且,DeepSeek通过算法的优化来提升效率,这是不是就意味着对算力需求会大幅降低呢?下定论似乎还为时尚早。
在热闹的背后,冷静观察的声音也越来越多。“针对最近几天的动态,我个人认为还是要保持冷静,尽管DeepSeek取得了不少成就,但我们也需要避免过于情绪化的反应。”一位投资专家如是说。

DeepSeek的崛起真是出乎意料,背后强大的技术积累让人刮目相看。量化投资与大模型的结合,未来可能会引领更多创新。
DeepSeek的成功让我对国产大模型充满期待,尤其是在技术与量化投资的结合上,或许会开辟新的市场机会。
DeepSeek的快速崛起确实令人惊讶,尤其是它在量化投资领域的应用,显示出技术与市场的强大结合潜力。期待它能继续带来更多突破。
DeepSeek的崛起不仅是技术的胜利,更是量化投资理念的创新,未来值得关注它如何进一步改变市场格局。
DeepSeek的成功体现了量化投资与AI技术的深度融合,让人对未来的市场变化充满期待。这样的创新或许会改变整个投资生态。
DeepSeek的迅速崛起展示了量化投资与AI的强大结合,未来或许会改变行业格局,值得持续关注其后续发展。
DeepSeek的成功让人感受到量化投资与AI结合的巨大潜力,未来的发展值得期待,或许会引发行业的更多变革。
量化投资与AI的结合让DeepSeek展现出不凡的潜力,未来或将引发更多投资方式的转变,值得关注它的后续发展。
DeepSeek的迅速崛起令人瞩目,量化投资与AI的结合确实带来了新的突破,未来的市场会因此变得更加有趣。