为什么百度文心和腾讯元宝在AI体验排行榜上总是排在最后？

其实，评测这些模型的表现，得先了解主流排行的规则。

网上有不少排名，主要是那些专业机构的评比，咱们不谈个人自媒体的体验分享。

这些排名一般分为四种考试类型：

1、首先是“标准化闭卷考”，就像学术界的“高考”或“考研”，也就是通过固定题库来给模型打分。

比如说GSM8K / MATH，这类考试专门考数学推理能力。文心和混元在这一块的表现都没有那么突出。DeepSeek是国内最早进行此类测试的，也是做得最好的。虽然今年第二季度后，DeepSeek的领先地位有所动摇，但在一些国际排行榜上，它依然名列前茅。

2、接下来是人类偏好测评，这种测试用的是“双盲对决”的方法。系统同时展示两个匿名模型的答案，让人类用户来选出更优秀的那个。
在2025年12月的LMSYS Chatbot Arena（全球最权威的人类偏好盲测榜单）上，百度的文心5.0 (ERNIE 5.0)曾一度超越GPT-5.2等国际顶尖模型，登上全球文本能力榜单第一。这是中国大模型首次在这个指标上取得如此成绩。

而腾讯的混元（元宝）走的是实用主义路线，虽然在国际总榜排名上不如文心，但在国内的SuperCLUE行业场景评测中，元宝的表现相当亮眼，尤其是在“职场办公”和“专业研报”这两个维度上，人类评分非常高。

3、第三类是行业与应用基准，最知名的便是SuperCLUE（中文综合榜），它每月更新，不仅考察基础能力，还会评估模型在“角色扮演”、“创意写作”和“幻觉控制”上的表现。
在这一层面上，文心和混元的表现也都还不错。

4、最后是六维能力模型：

语义理解，比如绕口令、反讽和潜台词的识别；

逻辑推理，包括归纳总结、因果推断和长文本逻辑一致性；

多模态能力，比如看图说话、图文生成和视频解析；

安全性，是否会生成歧视、暴力或违禁内容；

响应速度，每秒能生成多少个Token（出字速度）；

长文本能力，能否处理10万字甚至100万字的内容。

在这个维度上，DeepSeek、通义千问（Qwen）和豆包的比较并不是谁更强，而是各自能力的差异。

值得一提的是，文心一言在中文环境中对文学梗的理解，以及对那些难度极大的中文考试题的把握，像是成语、诗词和历史典故的运用，仍然稍强于DeepSeek和豆包。

不过在多模态能力方面，各家就有明显差距了。