8月大模型热潮回顾：国内外最新动态你一定不能错过！

从这个月开始，我决定每个月底对过去一个月AI大模型行业的变化做一个总结。现在先简单罗列一下这个月的一些更新，并加上我的个人看法，待后续再进行改进。

本月更新汇总

Gemini：新推出了生图模型Gemini 2.5 Flash Image；
通义千问：新增了代码平台Qoder和生图模型Qwen-Image。
字节Seed：发布了开源推理模型Seed-OSS；
DeepSeek：更新了混合推理模型DeepSeek-V3.1；
智谱AI：推出了多模态混合推理模型GLM-4.5V；
OpenAI：发布了更新版混合推理模型GPT-5和开源推理模型gpt-oss；
Anthropic：更新了混合推理模型Opus 4.1；

OpenAI

GPT-5

2025年8月7日，OpenAI正式推出了新一代旗舰模型GPT-5。这个模型可不是单纯的“智力”飞跃，而是经过深度工程优化，专注于“现实世界”的应用，反映了OpenAI从追求AGI的艺术性转向打造高效的企业级工具的战略变化。GPT-5通过统一架构，把之前的GPT数字系列（像GPT-4o）和OpenAI o系列推理模型（如o3）整合在一起，实现了文本、图像、音频和视频的全方位多模态输入输出能力。

它推出了两个主要版本：gpt-5-main作为通用主模型，gpt-5-thinking则专注于增强推理能力。根据官方的数据，gpt-5-main的事实错误率比前代GPT-4o减少了44%，而gpt-5-thinking在与o3的比较中，事实错误率竟然下降了78%。在效率方面，OpenAI报告称，GPT-5在视觉推理、代理编码和研究生级别的科学问题解决等功能上输出token数量比OpenAI o3减少了50%至80%，并且还进行了降价，性价比显著提升。

你可能感兴趣：Qoder帮你轻松升级，从“执行者”变身“架构师”！

不过，这样的性能提升并不是没有代价的。很多长期用户和评测机构发现，GPT-5在文学表现和创造力上有所下降。诗歌变得无聊，哲学对话缺乏深度，长篇叙事也显得机械化。这意味着OpenAI为了更高的事实准确性和推理能力，牺牲了模型的艺术性和探索性。这种取舍正好反映了行业的“实用主义”趋势。

总的来说，尽管GPT-5上线后在LMSYS竞技场的排名一直保持在前三，但相比于给行业带来震撼的GPT-3和GPT-4，GPT-5似乎没有带来太多惊喜。在顶尖人才不断流失的情况下，OpenAI这位曾经的王者能否找到出路呢？

gpt-oss

在发布旗舰模型的同一天，OpenAI也做出了一个重大的决定：8月5日，发布了其在GPT-2之后的第一个开源模型系列gpt-oss，包括20B和120B两个版本，并采用了宽松的Apache 2.0许可证。

从技术上看，gpt-oss是一个纯文本推理模型，其MoE架构和4-bit MXFP4量化技术使其能够在单张80GB或16GB GPU上高效运行。模型内置了CoT能力，开发者可以通过系统消息调节推理强度（低、中、高），在延迟和性能之间找到合适的平衡。在通用基准测试（像MMLU）中，gpt-oss-120b在性能上接近OpenAI自家的o4-mini模型，并在竞赛数学等特定领域表现优异。

这一战略举措表明OpenAI意识到，单靠闭源API可能会面临开发者流失和生态萎缩的风险。在开源模型日益增多的背景下，OpenAI需要在技术标准、开发者社区和企业级市场中，建立新的话语权和生态壁垒。通过提供一个性能优秀且可控的开源“替代方案”，OpenAI希望将自己的影响力扩展到企业私有部署和Agent应用开发等更广泛的领域。

Anthropic

Claude Opus 4.1

8月5日，Anthropic发布了其旗舰模型Claude Opus 4的升级版Opus 4.1。此次更新主要集中在Agent任务、实际编码和推理能力的增强。

在技术和性能上，Opus 4.1在SWE-bench Verified编码基准测试中的得分提升至74.5%，在多文件代码重构和准确错误修复方面取得了显著进步。该模型也是“混合推理”模型，开发者可以通过API调节“思考预算”（thinking budgets），以在性能和成本之间找到平衡。

上线仅半个月，Opus 4.1便稳居LMSYS竞技场总榜首位。Anthropic的实力依然不可小觑。

智谱AI

GLM-4.5V

8月11日，智谱AI正式发布了其开源视觉推理模型GLM-4.5V。这个模型是基于其旗舰文本基座GLM-4.5-Air构建的，采用了视觉编码器、MLP适配器和语言解码器的三部分架构，总参数量达106B，激活参数量为12B。

GLM-4.5V的技术亮点在于引入了三维旋转位置编码（3D-RoPE），显著提升了模型对空间关系的感知能力。在多模态基准测试中，该模型在41个公开榜单上刷新了同级别开源模型的记录，并在精准视觉定位、复杂文档解析、前端复刻和GUI智能体交互等任务中表现突出。

不过，GLM-4.5V在与某些工具（如aider）合作时表现不佳，这暴露了模型在通用Agent任务中的“数据覆盖范围”挑战。尽管它在多模态能力上有了突破，但面临的挑战也反映了AI从模型能力到实际Agent应用过渡阶段的共性问题。

DeepSeek

DeepSeek-V3.1

8月21日，DeepSeek发布了V3.1版本，主要亮点是混合推理架构和更强的Agent能力。

DeepSeek-V3.1的混合推理架构允许用户通过API或网页按钮自由切换“思考模式”和“非思考模式”。这种设计使得模型在需要快速反应时可以迅速给出答案，而在需要深度推理时又能进行复杂的思维链生成，从而在响应时间和性能之间实现动态平衡。经过思维链压缩训练，V3.1-Think在输出token数量减少20%-50%的情况下，仍能保持与旧模型相当的性能，直接为开发者提供了成本优化的空间。

在Agent能力方面，新模型通过后期训练优化，在编程智能体（SWE）和搜索智能体（browsecomp, HLE）等任务中表现显著提升，部分指标大幅领先于前代模型。

DeepSeek年初时的形象是行业的先锋，如今却有些追随友商以迎合市场。

我个人觉得，DeepSeek毕竟不是Deepmind（谷歌），以它的行业积累和人才储备，最多只能当一段时间的黑马，等被全行业关注和模仿之后，能否继续保持领先地位是个大问题。

如果你关注国产大模型的发展，肯定也注意到像Kimi K2和GLM-4.5这样的最新国产旗舰模型，在技术报告中提到它们是基于DeepSeek-V3的改进而来的。另外，今年转为开源的国产旗舰模型也大多是因为在竞争中落后而加入了DeepSeek带头的开源阵营。

所以大家可以适度降低对DeepSeek这样的明星企业的期待，让它在更宽松的环境中自由发展。这样的企业也许不一定能保持行业领头羊的地位，但它对行业的贡献是其他友商无法替代的。

字节Seed

Seed-OSS

8月21日，字节跳动的AI研究团队Seed正式开源了Seed-OSS系列模型，其最大的亮点是实现了业界领先的512K超长上下文窗口。这一突破性技术重新定义了LLM处理长文档和复杂代码库的极限，极大地拓展了AI在知识密集型和代码库级任务中的应用边界。

Seed团队的创新之路

说到Seed团队，最近他们在数据处理上搞了个大新闻，推出了一种叫“模型中心”的新方式。这个方法特别厉害，利用一个专门训练的评分模型，能自动筛选出高质量的代码数据。这个评分模型基于DeepSeek-V2-Chat，能从可读性、模块性、清晰度和可重用性四个维度来评估代码的好坏，结果是原始数据量竟然减少了约98%！而他们的指令微调模型Seed-OSS-36B-Instruct在各种基准测试中表现出色，甚至超越了不少知名模型，比如Qwen3-32B、Gemma3-27B和gpt-oss-20B。

展望2025年，字节Seed的模型能力和应用生态发展，跟OpenAI相比不遑多让。就在OpenAI开源gpt-oss模型仅过了一周半，字节Seed的Seed-OSS也顺势发布并开源了。我个人觉得，字节Seed无论在综合实力上还是在国内市场上，都是数一数二的。而且，字节还有自己的云服务火山引擎，这让他们走开源路线的理由比OpenAI更充足哦。

阿里巴巴的Qoder平台

Qoder平台

在8月22日，阿里巴巴向全球发布了新一代AI编程平台Qoder。这个平台结合了最先进的编程模型（Qwen3-Coder）和强大的上下文工程能力，核心理念是“以AI为中心的集成开发环境”。

Qoder的一个亮点是它的“Quest模式”。在这个模式下，开发者只需简单描述需求，AI Agent就能自动拆解任务，编写代码并进行测试，开发者最后只需验收或做些调整。Qoder通过“上下文工程”等技术，解决了传统编程助手记忆力差和多文件协同难的问题。

到了8月底，阿里集团发布了本财年第一季的财报，云业务增长了26%，是近三年来的最高水平；而AI产品的营收也实现了三位数的持续增长，占到了云业务的20%以上，通义大模型的全球下载量已经超过了3亿次。此外，阿里还透露未来三年将投入3800亿元用于建设AI基础设施，这个规模超过了过去十年的总和；在应用生态上，他们计划推动“全栈AI能力”，涵盖基础设施、模型、开源生态到应用（比如高德的AI化、钉钉的升级）。

总的来说，阿里的AI生态战略发展得很顺利，前景也很广阔，相信在行业中会受到长期的关注。