“百度文心一言5.0正式版测评：你绝对不能错过的全新体验！”

小结：宝剑锋从磨砺出
基本情况：
百度在国内算是为数不多坚持开发原生多模态模型的团队之一。文心一言5.0在11月发布时，凭借两万亿的模型规模引起了广泛关注，但一周后Gemini 3 Pro的亮相，让大家看到了多模态技术的更高水准。毕竟，北美的资源环境让他们培养出来的模型，确实不是国内团队能靠努力和算法轻易追赶的。不过，这并不意味着百度的方向就是错的。
经过两个月的打磨，文心一言5.0的正式版虽然没有实现质的飞跃，但在认真解决了预览版的一些问题后，整体的可用性有了明显提升，稳稳地在国产模型的第二梯队站住了脚。
虽然Token的使用量增加了18%，但平均耗时基本没有变化。两万亿的模型在推理时依然有些吃力，这恐怕短期内难以解决。

逻辑表现：

*1 表格中只展示了部分可对照模型，以便突出对比关系，并不是完整的排序。
*2 题目及测试方法详见：大语言模型-逻辑能力横评 25-12月榜，新增#55题。
*3 完整榜单更新请查看 https://llm2014.github.io/llm_benchmark/

相比11月的预览版，正式版在以下几方面有了明显改进：

改进：

长链推理：正式版在长链推理方面的准确率和稳定性明显优于预览版，可以进行更长时间的推理。预览版在处理复杂问题时，Token消耗平均也不会超过36K，而正式版最高能达到61K，接近MaxToken的限制。这意味着在需要穷举推理的问题上，正式版的表现更为出色。不过，对于需要技巧的题目，提升幅度却不明显，还可能因为过于思考而浪费Token和时间。
计算能力：正式版的计算能力整体上优于预览版，简单运算的准确率也很高，稳定性好。小数计算的精度大约在4位，超过这个范围就可能因为误差累积而出错。在科学计算方面，正式版的劣势还是挺明显的。
指令遵循：正式版在直接遵循指令的能力上稍微强于预览版，在相关测试中，遵循的比例也普遍高于预览版。不过，这并不意味着完美，经过多次尝试后随机性会偏高，实际应用中可能会出现“失控”的情况，或者需要额外提示词来引导模型的输出。
多轮能力：正式版在多轮对话能力上明显优于预览版，后者通常在运行7到8轮后就会遗忘最初的提示，而正式版可以稳定运行超过30轮。在猜词测试中，正式版凭借丰富的世界知识能够猜出一些较为冷门的词汇。不过也有不足，比如在一开始用二分法推进，但中途会突然改变思路，深入某个领域，碰壁后才再回到二分法上，这也显示出正式版能够及时调整方向的能力。
写作：预览版因为推理能力不足，虽然知识面广却难以发挥。而正式版在写作任务上有了一些改善，输出的格式更加规范，但文风上有点“有限的发散”。与DeepSeek的奇妙比喻相比，文心在严肃主题的写作上较为严谨，而在需要开脑洞的话题时，也不会走得过于偏离。

不足：

上下文幻觉：预览版的幻觉问题不算乐观，正式版的改善也有限，30%的中位数差距就能看出端倪。之前预览版存在的一些问题，正式版基本上也还有，部分题目得分有所分化。比如#42题需要从文本中提取多个数字，预览版可能会得高分，而正式版却很难得分。在#41题中，预览版完全没理解题意，而正式版对部分内容有了理解并能给出正确回答。文心的幻觉问题，除了可能与设定温度偏高有关，也与其偏文科的调教风格有关。

赛博史官说：
如果想要成为一家优秀的大模型公司，就得对未来有自己的看法，并为之付出持续的努力。Anthropic的使命是解决白领工作场景中的所有高价值内容，因此Claude系列在编程、数据分析和写作领域表现突出。而OpenAI则希望通过大模型推动人类科技的进步，所以GPT系列在逻辑推理和数据分析上遥遥领先。
虽然百度在过去三年的大模型竞赛中可能有些迷失方向，但文心5.0无疑是一个训练有素的新起点，具备不错的基本功、足够的智力水平、稳定的多轮能力以及丰富的世界知识。这让文心有机会在日益激烈的多模态模型竞争中占有一席之地。不过，单有实力可不代表有应用场景，百度若能清晰定义文心的未来，那这样的未来也许会给百度带来微笑。

所有评测文章均在公众号：大模型观测员同步更新。

来源：知乎

原文标题：百度文心一言 5.0 正式版测评

原文链接：https://zhuanlan.zhihu.com/p/1997814978829362468

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

《“百度文心一言5.0正式版测评：你绝对不能错过的全新体验！”》有7条评论