谷歌新推「深度研究」强势挑战GPT-5.2 - 今日头条

编辑：定慧

【新智元导读】谷歌和OpenAI现在可是火药味十足，真是针锋相对！这两家公司用新产品互相较劲，真是热闹非凡。

就在昨晚，OpenAI推出了超级强大的GPT-5.2，成功反击了Gemini 3！

而在GPT-5.2发布之前的一个多小时，谷歌就抢先发布了全新的Gemini Deep Research Agent。

谷歌对Gemini深度研究进行了彻底革新，让它比以往更加强大。

这款新版Deep Research Agent是基于Gemini 3 Pro开发的；
通过多步强化学习进行训练，提升了准确性，减少了错误信息；
它能处理大量上下文，并能为每个观点提供引用来源的验证。

除了Deep Research Agent的功能更新，谷歌还推出了另外两项全新的能力：

开源新网络研究Agent基准DeepSearchQA，用来验证智能体在网络研究任务中的全面性；
还有全新的交互API（Interactions API）。

虽然无法直接对比刚发布的GPT-5.2，但谷歌DeepMind的产品经理Lukas Haas在社交媒体X上透露：

全新的Gemini Deep Research Agent在谷歌的最新测试中取得了46.4%的得分，表现与GPT-5 Pro相差无几，但价格却便宜得多。

深度研究，真的是更「深度」了

Gemini Deep Research这款智能体，专门为处理长时间上下文的收集和整合任务而设计。

它的推理核心基于目前最为准确的Gemini 3 Pro模型，经过特别训练，能有效减少在复杂任务中出现的错误信息，并提升报告的质量。

通过加强多步强化学习的应用，这个智能体可以在复杂的信息环境中，以极高的准确率进行自主导航。

深度研究：让AI为你解锁知识的秘密

Gemini Deep Research在完整的人类最后考试（HLE）测试中，表现得相当不错，达到了46.4%的领先水平。在DeepSearchQA上，它也取得了66.1%的好成绩，而在BrowseComp测试中更是拿下了59.2%的高分。

这个深度研究工具采用了一种迭代式的研究规划方式，它会不断制定查询，阅读结果，识别知识上的不足，然后再进行搜索。

在最新版本中，网络搜索功能得到了显著提升，可以深入网站提取特定的信息。

经过优化后，这款智能体能够以更低的成本生成经过深度研究的报告，真是太实用了。

与传统的聊天机器人不同，Deep Research的设计使其成为一个长时间运行的系统，擅长处理那些需要时间沉淀的复杂任务。

谈谈深度研究的那些事

说到深度研究，感觉在日常使用AI工具时，它真的是最常用的功能之一。

每个月只需20美元，就能享受多次“博士级”的服务，谁不想呢？

我觉得，深度研究是普通人用来快速获取知识服务的AI工具，简直是降维打击的利器。

Deep Research并不是仅仅依靠单一模型的强大计算能力，而是通过复杂的智能体工作流（Agentic Workflow）来实现的。

这个工作流模拟了人类专家在陌生领域时的思考方式，主要包括规划、执行、推理和报告这几个环节。

当用户提交一个模糊的宏观指令，比如“分析2030年量子传感器的商业化路径”，DeepResearch首先启动的就是它的规划模块。

深入了解DeepResearch的动态规划与测试机制

Gemini 3 Pro的推理能力可真是强大啊！系统在面对一些大问题时，不会急于搜索答案，而是采用了一种叫做「后退一步提示」的技术，把复杂的问题拆解成几个小的研究方向，比如技术的成熟程度、供应链的瓶颈、政策环境以及主要竞争对手的分析。

这个规划过程是灵活多变的。传统的方法通常是一条线性的思路，而在DeepResearch里，规划是可以随时扩展和调整的。

如果在初步的搜索中发现了意想不到的新概念，系统会马上更新研究计划，增加新的分支来深入探讨。

DeepSearchQA：深度研究智能体的评测标准

在刚才的基准测试中，你可能会注意到一个名为DeepSearchQA的东西。

这是谷歌为深度研究智能体特意开发的评测标准，用来评估智能体在复杂的多步骤信息检索任务中的表现。

DeepSearchQA涉及17个领域，共有900个经过人工设计的因果链任务，每个步骤都与之前的分析紧密相关。

与传统的基于事实的测试不同，DeepSearchQA通过要求智能体生成详细的答案集来评估研究的完整性，同时还测试研究的准确性和信息的召回率。

而且，DeepSearchQA也可以作为评估思考时间效率的工具。

在内部评估时，谷歌发现允许智能体进行更多搜索和推理步骤时，性能会有显著提升。

通过比较pass@8与pass@1的结果，验证了让智能体并行探索多条路径来确认答案的重要性。

这些结果是根据DeepSearchQA的200个提示子集得出的。

交互API：专为Agent应用而生

让智能体更聪明的交互API，你了解吗？

最近，谷歌推出了一款交互API，特别为Agent应用而生。这套接口能高效地处理各种复杂的消息、思维链和工具调用，简直就像为开发者的工作减轻了不少负担。

除了Gemini模型套件，这个API还带来了一个强大的新成员——内置的Gemini Deep Research Agent。

接下来，谷歌计划扩展这个内置Agent，允许开发者构建和引入自己的Agent，从而能通过一个API轻松连接Gemini模型、谷歌自带的Agent以及自定义的Agent。

这个交互API提供了一个简单的RESTful端点，用于和模型及Agent进行互动。

而且，Interactions API不仅扩展了生成内容的核心功能，还为现代智能体应用提供了一系列实用特性，比如：

可选的服务器端状态管理：可以把历史记录的管理放到服务器上，简化客户端的代码，减少出错的可能性，同时提高缓存效率，降低成本。
清晰易懂且可组合的数据模型：这个架构专门为复杂智能体的历史记录设计，能够让你轻松调试和处理交错的消息、思维过程及其结果。
后台执行：不需要保持客户端连接，就可以把长时间的推理过程移到服务器端。
远程MCP工具支持：模型可以直接调用模型上下文协议（MCP）服务器作为工具。

通过这个Interactions API的推出，谷歌希望改变开发者构建AI应用的方式，从传统的无状态请求响应模式转向更智能的有状态交互模式。

目前大多数大型语言模型（LLM）API都是无状态的。开发者需要在客户端保存对话历史，并将大量的上下文数据每次都发送到服务器，这样不仅增加了延迟和带宽成本，还让构建复杂的Agent变得非常麻烦。

而Interactions API的引入则实现了服务器端的状态管理。

开发者只需通过/interactions端点创建一个会话，谷歌的服务器会自动维护这个会话的所有上下文、工具调用结果和Agent的思维状态，这点实在是太酷了！

我觉得这就是谷歌最新API的厉害之处。

最让人兴奋的是，Interactions API允许开发者直接调用谷歌预训练的高级Agent，而不仅仅是基础模型。

例如，开发者可以通过简单的API调用（指定agent=
deep-research-pro-preview-12-2025）将谷歌的顶尖研究能力直接嵌入到自己的ERP、CRM或科研软件中。

考虑到DeepResearch一次任务可能需要处理数十万token的内容，单次深度研究的成本可能会达到几美元。

不过，相比于人类初级分析师花费数小时甚至数天的工作成本，这个价格仍然是相当划算的。

DeepMind与英国政府展开合作

最后，还有个消息特别值得关注。

在谷歌和OpenAI的竞争中，谷歌的DeepMind已经在国家层面上开始合作了。

作为一个在伦敦诞生的人工智能巨头，DeepMind正在通过DeepResearch和其核心技术，与英国政府展开一项前所未有的“人工智能治理”实验。

这次合作不仅限于科学研究，还深入到公共管理的方方面面，尤其是在解决英国长期存在的住房问题和提升规划效率上，已经取得了显著的进展。

Project Extract：打破城市规划中的“数据孤岛”

在英国，城市规划系统一直被当作经济增长和住房建设的绊脚石。

每年，地方政府需要处理大约35万份规划申请，而许多历史规划记录仍然以纸质、扫描PDF或手绘地图的形式保存。

规划师们常常要花费数小时在满是灰尘的档案中翻找几十年前的地下管线或保护区的边界。

为了解决这个难题，DeepMind与英国政府的AI孵化器（i.AI）合作研发了Extract工具。

这可不是简单的OCR软件，而是一个基于Gemini多模态推理能力的复杂地理空间智能系统。

理解非结构化信息：
Extract首先利用Gemini的视觉语言能力来读取那些质量不高的扫描文件。它不仅能识别文本，还可以理解手写注释的意思（比如能分辨旁注中的“批准日期”和“申请日期”），其日期识别准确率高达94%。
视觉推理与多边形提取：

颠覆传统的技术创新：从地图到科学实验室

这可是个大新闻！Gemini技术的突破让它能够解读地图上的各种视觉符号，像是能清楚地区分“红色实线”代表的产权边界，和“蓝色虚线”代表的排水渠。一旦系统锁定了目标区域，就会运用OpenCV和SAM等计算机视觉工具，像一把数字手术刀一样，从像素图中精确提取出地理多边形，形状匹配度高达90%呢。

时空特征匹配：历史地图的比例和坐标系与现在的卫星图可不一样哦。Extract利用LoFTR算法，能在老地图和现代地图中找到共同的特征点，比如古老的教堂、十字路口。这样，它就能精确计算出变换矩阵，把几十年前的手绘红线准确地映射到现今的数字地图上。

全流程自动化：通过这样的系统，Extract让处理一份复杂的规划文档的时间从原来的2小时缩短到40秒到3分钟。这意味着一个地方议会每天能高效数字化处理数百份档案，效率提升了整整百倍！

目前，Extract已经在威斯敏斯特（Westminster）、希灵登（Hillingdon）等四个地方进行了试点。

而且，英国政府计划到2026年春季，将这项技术推广到全国所有地方议会。

这不仅能释放出上千小时的行政人力，更重要的是，它将构建一个统一的数字规划数据库，为英国政府承诺的“建设150万套新住房”计划提供数据支持。

这真是DeepResearch技术在特定领域应用的超棒例子——将通用的多模态推理能力具体化为行政生产力。

科学新基建：从AlphaFold到自动化材料实验室

在基础科学领域，DeepMind与英国政府的合作瞄准了通过AI来加速科学发现的目标。

DeepMind宣布将在2026年在英国建立首个自动化AI科学实验室。

闭环发现系统：这个实验室会运作一个由Gemini和GNoME（Graph Networks for Materials Exploration）驱动的闭环系统。AI将根据量子化学原理设计新的晶体结构，并预测其稳定性。
机器人合成：这些设计指令将直接传递给全自动化的机器人平台，由它们负责配料、合成、烧结和测试。
数据反馈：实验结果会实时反馈给AI，用于修正下一轮的预测。我们的目标是将新材料（像室温超导体、高效电池电解质）的发现周期从几十年缩短到几个月甚至几天。这一计划直接服务于英国的净零排放（NetZero）战略和能源安全。

除了硬件实验室，DeepMind还将向英国科学家开放一系列最新的AI模型：

国家安全与数字免疫系统

在安全领域，目前的合作重点已经从“进攻性能力”转向了“防御性韧性”。

谷歌与DeepMind的合作：网络安全新突破

最近，DeepMind和英国AI安全研究所携手，推出了一款基于DeepResearch技术的网络防御工具，旨在提升网络安全。

BigSleep（前称Project Naptime）：这个智能体利用大型语言模型（LLM）在海量代码库中寻找潜在的安全漏洞。它曾在SQLite等重要开源项目中发现了一些人类专家未曾察觉的内存漏洞，可见其威力不容小觑。
Code Mender：与BigSleep相辅相成，这款工具不仅能识别漏洞，还能自动生成修复补丁。这一「发现-修复」的闭环系统，旨在为英国的关键信息基础设施（CII）建立一个实时的「数字免疫系统」，以抵御愈发复杂的网络攻击。

这就是谷歌近期针对GPT 5.2的更新亮点。

我觉得目前谷歌的实力依然是最强的。

虽然GPT 5.2在与Gemini 3的对比中表现出色，但在多模态能力方面仍有些许不足，或许到年底会有一款与Nano Banana Pro相抗衡的产品问世。

而且，从最新的深度研究智能体来看，加上DeepMind在英国的战略布局，谷歌在这方面已经走在前面。

这种优势让我们对AI技术的未来发展有了更清晰的认识：

通用人工智能（AGI）的雏形正逐渐突破对话框的限制，向能够感知、规划并改变现实与虚拟世界的智能体演变。

来源：今日头条

原文标题：谷歌最新版「深度研究」反击GPT-5.2 – 今日头条

原文链接：https://www.toutiao.com/article/7582806381405733402/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！