机器之心报道
编辑:杜伟、+0
“百度回来了!”这样的感叹声在业内响起,特别是在LMArena这个大模型评测平台刚刚发布了最新的文本竞技场排名之后。

根据11月8日凌晨LMArena最新的排名,百度的文心5.0 Preview模型成功跻身全球并列第二,成为国内第一。
这个模型的得分高达1432,与OpenAI的gpt-4.5-preview-2025-02-27,以及Anthropic的claude-opus-4-1-0805、claude-sonnet-4-5-20250929等国际顶级模型不相上下。

网友们在评论区对百度新模型的优异表现纷纷表示祝贺,甚至有人说“我已经迫不及待想要亲自试试了”。


毫无疑问,这次榜单的结果进一步巩固了百度文心系列模型在全球智能模型竞争中的领先地位。
全球 LLM 实战擂台,文心 5.0 Preview 静悄悄地登场
在人工智能的世界里,LMArena是由加州大学伯克利分校的研究人员创建的一个开放AI模型评测平台,已经成为OpenAI、谷歌等多家国际和国内大模型厂商激烈竞争的主要战场。
用户可以在这个平台上提交提示,系统会随机选取两个匿名的语言模型分别生成回答。用户会根据这两条回答来选择自己更喜欢的,可能是“哪一个更好”或者“两个都不行”等等。具体来说,LMArena会为每个模型分配一个初始的Elo分数,并在每轮对决结束后及时更新这些分数。
与传统的静态数据集或自动评分的评测平台不同,LMArena通过真实用户对模型输出的偏好投票,形成了一种更贴近现实的动态排名机制。这让模型之间的较量更符合实际使用情况,同时也让榜单的权威性更高。
在LMArena榜单上名列前茅的模型,不仅在学术指标上表现优异,还在用户体验、语言理解、创意生成和指令执行等实际应用方面得到了广泛认可。文心 5.0 Preview正是在这样的真实竞争场域中表现出色。
具体而言,文心 5.0 Preview在创意写作、复杂长问题理解和指令遵循方面表现突出,整体成绩超越了包括GPT-5-High在内的多款国内外主流大模型。
其中,在创意写作这一重要指标上,文心 5.0 Preview排名第一,这表明它在生成文章、营销文案和剧本等内容时,不论速度还是质量都有显著提升;在复杂长问题理解的测试中,它的排名第二,更适合处理学术问答、报告分析和知识推理等高难度任务;而在指令遵循任务中,它的排名第三,在智能助手、代码生成和业务自动化等应用场景的适用性都得到了极大的增强。

这些核心语言能力的卓越表现,显示了文心 5.0 Preview在复杂语义理解、逻辑推理和任务执行一致性上占据了领先优势,为高质量、高效率的多场景内容生产和智能应用落地提供了有力支持。
不仅如此,这款全方位提升能力的基础模型将成为推动AI与AIGC产业化落地的关键引擎,价值正逐渐从单纯的文本辅助转向系统性赋能内容生产、企业智能体及办公自动化等多种场景。
接下来,机器之心将针对文心 5.0 Preview的几大突出能力进行测试。
文本能力,实测结果揭晓
创意写作
首先,我们将它放在“营销”场景中,看看它的生产力如何。
我们选择了同样在文本能力方面表现出色,并在排行榜中并列第二的claude-sonnet-4.5-20250929,在LMArena的“Side By Side”模型对比中进行横向评测。
你是一家顶级广告公司的创意总监。请为 [一个文本能力出众的模型] 策划一个为期3个月的线上营销活动。你的方案必须包括:一个核心营销洞察(Insight),一个响亮的战役口号,一封致所有创作者的公开信,以及一个30秒短视频的创意脚本大纲。
现在我们先来比较一下核心营销洞察和口号。

可以看到两个模型的思路都是围绕“表达自由”这个主题展开,但文心 5.0 Preview在措辞和立意上都更胜一筹。
Claude的方案定位为“一个更懂你的工具”,虽然功能上是准确的,但品牌形象却显得有些保守。
而文心 5.0 Preview则更进一步,它抓住了“情绪价值”这个热门话题,把AI塑造成“灵感的合伙人”,实现了从功能到价值的跃升。而它的口号“心有所思,言必达意”也显得更具诗意和品牌气质。
接下来,我们来聊聊给创作者的信。

Claude的文笔真是又精准又真诚,简直是为每一个需要用文字交流的人量身定做的,包括学生、上班族、创业者和运营人员等。他特别强调“理解”和“表达”的重要性。
但文心5.0 Preview可不止是停留在“让你说话更清楚”的表面功能,它深刻触及了创作者内心的世界。它的一句话,正好戳中了当下AI时代人们最深的焦虑:那就是关于原创性和灵魂被稀释的担忧。
你所珍惜的,正是字里行间的独特气质,是逻辑链中的缜密思考,还有故事背后那独一无二的灵魂。这些,任何机器都无法给予。
文心不仅仅是个工具,它还在描绘一种未来:随着AI的不断强大,人类的创造力反而愈加珍贵,自由度也随之提升。
接下来是一个颇具挑战性的主题:短视频创意脚本大纲。

这是文心5.0 Preview最让人惊艳的部分,它创作出一份非常成熟的脚本,专业程度简直让人叹为观止。方案里涵盖了画面内容、剪辑点、特效、音效和台词等所有执行所需的要素。
复杂长问题的理解
我们设定了一个常见的应用场景:为AI模型提供一份产品介绍,让它当客服,依托这份介绍回答我们的提问。
为了确保测试的客观性和专业性,我们首先请Gemini 2.5 Pro帮助设计了标准问题和答案。接着,我们主要关注文心5.0 Preview的表现,并与claude-sonnet-4.5-20250929的回答进行对比。
第一轮:直接信息检索
我们来考察一下模型能否从文档中准确且高效地获取信息。


你看啊,两个模型都给出了正确的答案,不过文心5.0 Preview还特意加了一句“差不多跟一个大苹果的重量相当”,这让人一下子就有了直观的概念。这样的细节设计真的是为用户体验加分,让大家能更快理解产品的特点,显示出它不是单纯的“信息抓取”,而是很有服务意识的。
第二轮:条件与推断
接下来,我们要看看模型能不能理解用户的特定场景以及隐含的条件,并做出恰当的判断。


依旧是两个模型都给出了正确答案,不过在表达风格上有点不同。文心5.0 Preview的回答简洁明了,迅速击中用户的顾虑;而claude则显得更随意,口语化的感觉更强。
第三轮:「负面」查询与边界测试
这一轮主要考察模型如何处理那些文档里没有的信息(也就是边界问题),还有就是如何解读用户可能存在的误解。

模型对比:谁更能理解复杂指令?

两个模型都能找到文档里没有提到的信息,不过 claude 还额外考虑到了15秒的恢复时间。
总体而言,在「客服」的角色扮演方面,文心5.0 Preview的回答不仅清晰,还展现了专业的服务意识。
指令遵循能力
我们继续测试文心5.0 Preview的指令遵循能力。这项能力可是判断模型是否「靠谱」和「可控」的重要标准,直接影响它在专业领域的应用价值。
我们先从一个简单的「回避型」指令入手。
写一段关于苹果公司(Apple)的简短介绍,但不要提到「iPhone」或「乔布斯」。

轻松搞定!模型准确地执行了「不要提X」的指令,这可是现在主流大模型应该具备的基本能力。
接下来,我们就把难度提升了一点,设置了一个复杂的多层任务,同时与claude-sonnet-4.5-20250929进行对比。
请你写一段关于「月球」的描述,至少100字。【【【绝对刚性约束】】】:在你的回答中,绝对不能出现一个「的」字。回答完后,请另起一行,用「【合规性检查:是/否】」来说明你是否遵守了这个要求。在不使用「的」字的前提下,模型生成的描述依然保持了很高的可读性和信息量,涵盖了月球的身份、外观、地貌、环境、科研价值和文化意义。不过如果不算标点符号,这段描述并未达到100字的标准。

两个模型的回答都没有使用「的」字,并且准确地在回答后另起一行进行了合规性检查。文心5.0 Preview在文笔上更具意境,而claude则更注重信息的密度。
让我们再提高一下挑战的难度。
请你写一段关于「北京」的介绍,正文(不含编号和标题)至少150字。在撰写时,必须同时满足以下所有【【【绝对刚性约束】】】: 全文不得使用「的」字。 全文不允许使用逗号(「,」)和顿号(「、」)。 (注:可以使用句号「。」或分号「;」等其他标点) 回答必须明确分为三个带编号的段落。
(例如:「1. …」「2. …」「3. …」) 【元指令(自我审计)】在你的回答(三个段落)全部完成后,请另起一行,使用「【自我审查】」作为标题。然后,你必须准确报告你在这篇介绍中使用了多少个「的」字,以及多少个「逗号和顿号」。你必须严格按照以下格式报告: 【自我审查】 违规字「的」使用:[此处填写数字] 次 违规标点「,、」使用:[此处填写数字] 次
百度的强势回归,文心 5.0 Preview 来了!
这两个回答真的是非常棒,展现了超强的指令执行能力。它们不仅搞懂了那些复杂且反常的规则,还准确地执行了“自我定量审计”的指令。就像之前提到的,文心 5.0 Preview 的语言更加通俗易懂,带着些许文艺气息,而 claude 的信息密度则更高。
百度,凭什么回归?
通过实际测试,我们感受到了文心 5.0 Preview 的强大实力。显然,这种实力的迅速提升并不是偶然的,背后有着百度构建的“芯片-框架-模型-应用”四层全栈布局作为支撑。
放眼全球大模型厂商,百度可是为数不多拥有完整 AI 技术架构的公司。从算力到算法,再到模型应用和生态建设,百度已经形成了一条成熟的技术闭环。
值得注意的是,在框架层面,飞桨(PaddlePaddle)深度学习平台发挥了重要作用。这个平台是国内较早自主研发的深度学习框架,具备分布式训练和推理能力。百度方面表示,飞桨和文心的联合优化(包括训练吞吐、分布式扩展、多模型结构混合并行以及硬件通信等),是提升模型性能的技术基础之一。
根据公开数据,飞桨的核心框架目前已经更新到v3.2版本,升级了大模型训练、硬件适配和生态支持,并同步更新了大模型开发工具 ERNIEKit 和高效部署套件 FastDeploy。截止到2025年9月,飞桨文心的生态开发者数量已经达到了2333万,服务的企业数量也达到了76万家。
在应用层面,百度借助文心大模型的能力,正在构建自己的产品矩阵,试图覆盖内容、搜索、办公和开发等多个场景。它的代表性产品包括面向消费者的智能助手文心、面向企业的百度智能云千帆大模型平台,以及百度文库的 AI 助手、智能办公平台如流、智能代码助手文心快码等。从布局来看,百度显然希望通过这些应用的拓展,推动技术在各行业的落地。
在芯片层面,百度强调了自己研发的昆仑芯。根据报道,昆仑芯的第三代万卡集群已经在今年年初正式启用,目标是为大模型的训练和推理提供算力支持,特别是确保“集群效能最大化”下的训练吞吐和通信效率。
综合来看,这四个层面的协同进化,构成了百度在通用人工智能领域布局的核心逻辑。
此次,文心 5.0 Preview 在 LMArena 文本榜单上取得了国内第一的成绩,可以视为百度在 AI 底层架构上长期技术投入后的阶段性成果。同时,业内也有观点认为,这显示出中国 AI 技术体系正从“技术追赶”向“能力引领”转变。
总结一下
进入11月,国内大模型的发展步伐依旧没有停下,好消息不断传来。
例如,月之暗面等国产模型相继推出了 Kimi K2 Thinking 等推理模型,而在通用模型领域,百度文心 5.0 Preview 凭借“全球并列第二、国内第一”的成绩强势回归。
听说下周在百度世界 2025 大会上,文心正式版将亮相?
这可让我们期待一下了!

文心5.0 Preview的表现真是让人刮目相看,尤其是在创意写作和复杂问题理解上都能取得如此佳绩,期待未来的更多应用!
文心5.0 Preview能在全球排名中占据一席之地,真的是一项了不起的成就,特别是在创意写作和指令遵循方面的优异表现,值得期待更多实际应用。
文心5.0 Preview的排名令人振奋,尤其在创意写作上表现出色,展现了很强的竞争力。期待它在更多领域的应用!
文心5.0 Preview的强劲实力让我感到惊喜,特别是在复杂问题理解上表现不俗,期待它能为实际应用带来更多创新!
文心5.0 Preview在全球排名中脱颖而出,尤其是在创意写作和复杂问题理解方面的表现非常亮眼,这让我对它未来的应用充满期待。
文心5.0 Preview在国际舞台上的表现让我充满期待,尤其是它在创意写作上的领先地位,真的非常值得关注。希望未来能看到更多实用的应用案例。
文心5.0 Preview的排名无疑是个好消息,特别是在指令遵循和创意写作上的表现,真是让人期待它的实际应用效果。希望能看到更多创新!
文心5.0 Preview的排名让我感到惊喜,特别是在创意写作上的表现如此突出,期待它的实际应用能够带来更多惊喜。
看到文心5.0 Preview在复杂问题理解方面能排第二,真是为国内的AI技术感到骄傲,希望能继续保持这样的势头。
文心5.0 Preview的实力在榜单上得到了验证,尤其在指令遵循任务上的表现值得关注,期待它能够帮助更多企业实现智能化。
文心5.0 Preview在LMArena的出色表现,展现了其在多场景应用中的潜力,尤其是在创意写作方面的领先地位让人期待。