这一周，AI界发生了哪些让人惊讶的大事件？

在人工智能领域，技术的迅猛发展正不断改变全球商业环境，影响着各行各业。为了让大家及时了解这些变化，阿里云云栖号特意推出了《一周AI大事件》，为大家汇聚全球人工智能的最新消息。

01 模型风向标

Veo 3.1升级，支持素材生视频与4K竖屏输出

在1月14日，谷歌正式发布了Veo 3.1这一视频生成模型的更新版本，新增了“素材生视频”功能。用户只需上传图片，结合文本提示，就能生成角色一致、场景连贯的短视频。这一功能特别适合9:16的竖屏格式，非常符合YouTube Shorts等移动平台的需求，而无需进行后期裁剪。在画质上，用户可以选择1080p或4K超高清，提升了视频的细节表现。系统能够保持角色、背景和物体的一致性，支持跨场景的复用。这一新版本已在Gemini应用中上线，并将逐步推送至Flow、Vertex AI等专业平台，非常适用于宣传片、数字人内容以及创意短片的制作。

Midjourney发布Niji V7模型，提升二次元图像生成能力

在2026年1月8日，AI绘画工具Midjourney推出了专注于动漫和插画风格的Niji V7模型。这个新版本在角色眼神、肢体动作以及画面细节上都有了显著优化，增强了对于复杂姿势和多人互动场景的理解与表现。而且，它还支持通过参考图来统一多幅作品的画风。这个模型非常适合漫画、游戏原画等创作场景，现已在Discord和网页端上线，用户可以通过选择版本或添加指令来使用。

你可能感兴趣：Qoder，助你从“执行者”华丽转身为“架构师”！

谷歌推出MedGemma 1.5，支持CT与MRI三维影像分析

在1月13日，谷歌推出了开源医疗AI模型MedGemma 1.5及其配套的语音识别模型MedASR。新版本首次加入了对CT、MRI等三维医学影像和数字病理切片的分析，明显提升了在MRI疾病分类、X光纵向对比和电子病历问答等任务上的准确率。特别是在医疗口述场景中，MedASR的词错误率远低于通用模型。这两款模型目前已上线Hugging Face和Google Cloud，支持DICOM格式，适用于研究和商业开发，但谷歌强调，不能直接用于临床诊断。

02 应用抢先看

千问App上线400多项新功能，全面接入多个阿里生态业务

在1月15日，千问App宣布全面接入淘宝、支付宝、闪购、飞猪、高德等阿里生态的业务，实现点外卖、购物、订机票等AI购物功能，向所有用户开放测试。这次升级推出了超过400项AI办事功能，标志着AI行业从“聊天对话”进入了“办事时代”。

Qoder上线Quest 1.0智能体，可自我学习与进化

在2026年1月14日，阿里Qoder推出了自主智能体Quest 1.0，这个智能体可以自我学习和迅速进化，无需用户干预。它可以自主理解需求、规划方案、修复BUG并最终验证交付，让不懂代码的用户也能完成应用开发。

谷歌推Gemini“个人智能”功能，打通四大应用构建用户生活图谱

在1月15日，谷歌推出了由Gemini 3驱动的“Personal Intelligence”功能，打通了Gmail、Photos、YouTube和Search四大应用的数据。这让AI能够跨应用调取用户的历史信息，构建个性化生活图谱。这个功能不仅能基于真实行为提供针对性建议，还支持自然语言纠错。目前该功能正面向Google AI Pro等付费用户进行Beta测试，未来会覆盖到免费用户。与苹果的做法不同，谷歌采用了云端一体化架构，强调长期记忆与生态协同。

Anthropic推出AI办公助手Cowork，支持自主完成日常任务

在1月13日，Anthropic发布了办公工具Cowork的研究预览版，面向Claude Max订阅用户在macOS平台上线。这个工具基于与Claude Code相同的底层技术，允许用户通过自然语言指令授权AI访问本地文件夹，自主完成文档创建、数据整理、计划制定等任务，并实时同步进度。Cowork强调用户控制权，关键操作需要确认，用户也可以随时中止。Anthropic表示未来会支持Windows并增强安全防护，目标是打造一个通用智能办公代理。

03 科技第一线

DeepSeek开源“记忆”模块Engram，提升大模型推理与检索能力

在1月13日，DeepSeek与北京大学联合发布了新论文，并开源了名为Engram的“条件记忆”模块。这个模块通过哈希N-gram机制实现高效知识检索，分离静态知识存储与动态计算，在不增加计算负担的情况下提升模型性能。实验结果显示，集成Engram的模型在知识问答、通用推理、代码及数学任务上均优于同规模的混合专家（MoE）模型，并显著增强了长上下文的理解能力。项目代码已公开，被认为是下一代大模型架构的重要探索。

1X为机器人NEO搭载世界模型，实现无需预训练的自主任务执行

在1月18日，挪威的1X公司推出了基于视频预训练的世界模型1XWM，并将其集成到家用机器人NEO中。该模型通过分析海量网络视频和第一视角操作录像，学习物理世界的规律。在接收到指令后，它首先生成“成功完成任务”的模拟视频，然后反推执行对应动作。NEO无需大量的实际操作数据或远程操控，就能在新环境或新物体中完成抓取、开门等任务。测试显示，生成的视频与实际执行过程高度一致，尽管部分复杂操作仍存在挑战。

xAI建成全球首个GW级超算集群Colossus 2，算力达1GW

在1月18日，埃隆·马斯克宣布，他旗下的xAI公司建成了全球首个算力达到1吉瓦（GW）的超算集群Colossus 2，正式投入使用。这个集群配备了大约55.5万张GPU，全部用于训练Grok系列大模型。据计划，算力将在2026年4月升级至1.5GW，最终达到2GW，相当于一座中等城市的用电量。为了减轻电网压力，xAI在本地部署了168个特斯拉Megapack储能系统。这一算力规模将支持Grok 5等下一代模型的快速迭代。

谷歌联合零售巨头推出AI购物开放协议

在2026年1月，谷歌与沃尔玛、Shopify、Etsy、塔吉特等20多家零售与电商平台联合推出了“通用商业协议”（UCP），旨在为AI智能体购物建立统一的开放标准。这个协议涵盖了商品搜索、比价、下单、支付和售后全流程的自动化，允许不同商家的AI系统之间进行协作。用户在使用谷歌搜索或Gemini时，可以通过AI直接完成购买，支付方式包括Google Pay，并即将接入PayPal。品牌也可以部署专属商务AI与用户互动，并推送定向优惠。

ChatGPT官宣加广告，将面向美国成年用户展开测试

在1月17日，OpenAI宣布将在ChatGPT的免费版和8美元/月的“Go”订阅版中引入广告。这些广告将出现在回答底部，并清晰标注，不会影响对话体验。付费的Plus、Pro及企业用户将不受影响。OpenAI称此举为“对话式广告”，目的是降低使用门槛，同时强调不会出售用户的对话数据。这一举措被视为应对高昂算力成本、探索AI商业化的重要一步，但也引发了对用户体验和“AI带货”风险的担忧。

以上就是小七为大家整理的AI领域的热门事件，每周更新，欢迎大家持续关注~

——以上内容综合自：量子位、新智元、机器之心、智东西、通义大模型、阿里巴巴等公众号

/END/

来源：知乎

原文标题：一周AI大事件

原文链接：https://zhuanlan.zhihu.com/p/1996882516523635935

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！