
01 模型风向标
Veo 3.1升级,支持素材生视频与4K竖屏输出
在1月14日,谷歌正式发布了Veo 3.1这一视频生成模型的更新版本,新增了“素材生视频”功能。用户只需上传图片,结合文本提示,就能生成角色一致、场景连贯的短视频。这一功能特别适合9:16的竖屏格式,非常符合YouTube Shorts等移动平台的需求,而无需进行后期裁剪。在画质上,用户可以选择1080p或4K超高清,提升了视频的细节表现。系统能够保持角色、背景和物体的一致性,支持跨场景的复用。这一新版本已在Gemini应用中上线,并将逐步推送至Flow、Vertex AI等专业平台,非常适用于宣传片、数字人内容以及创意短片的制作。
Midjourney发布Niji V7模型,提升二次元图像生成能力
在2026年1月8日,AI绘画工具Midjourney推出了专注于动漫和插画风格的Niji V7模型。这个新版本在角色眼神、肢体动作以及画面细节上都有了显著优化,增强了对于复杂姿势和多人互动场景的理解与表现。而且,它还支持通过参考图来统一多幅作品的画风。这个模型非常适合漫画、游戏原画等创作场景,现已在Discord和网页端上线,用户可以通过选择版本或添加指令来使用。

谷歌推出MedGemma 1.5,支持CT与MRI三维影像分析
在1月13日,谷歌推出了开源医疗AI模型MedGemma 1.5及其配套的语音识别模型MedASR。新版本首次加入了对CT、MRI等三维医学影像和数字病理切片的分析,明显提升了在MRI疾病分类、X光纵向对比和电子病历问答等任务上的准确率。特别是在医疗口述场景中,MedASR的词错误率远低于通用模型。这两款模型目前已上线Hugging Face和Google Cloud,支持DICOM格式,适用于研究和商业开发,但谷歌强调,不能直接用于临床诊断。
02 应用抢先看
千问App上线400多项新功能,全面接入多个阿里生态业务
在1月15日,千问App宣布全面接入淘宝、支付宝、闪购、飞猪、高德等阿里生态的业务,实现点外卖、购物、订机票等AI购物功能,向所有用户开放测试。这次升级推出了超过400项AI办事功能,标志着AI行业从“聊天对话”进入了“办事时代”。
Qoder上线Quest 1.0智能体,可自我学习与进化
在2026年1月14日,阿里Qoder推出了自主智能体Quest 1.0,这个智能体可以自我学习和迅速进化,无需用户干预。它可以自主理解需求、规划方案、修复BUG并最终验证交付,让不懂代码的用户也能完成应用开发。

谷歌推Gemini“个人智能”功能,打通四大应用构建用户生活图谱
在1月15日,谷歌推出了由Gemini 3驱动的“Personal Intelligence”功能,打通了Gmail、Photos、YouTube和Search四大应用的数据。这让AI能够跨应用调取用户的历史信息,构建个性化生活图谱。这个功能不仅能基于真实行为提供针对性建议,还支持自然语言纠错。目前该功能正面向Google AI Pro等付费用户进行Beta测试,未来会覆盖到免费用户。与苹果的做法不同,谷歌采用了云端一体化架构,强调长期记忆与生态协同。
Anthropic推出AI办公助手Cowork,支持自主完成日常任务
在1月13日,Anthropic发布了办公工具Cowork的研究预览版,面向Claude Max订阅用户在macOS平台上线。这个工具基于与Claude Code相同的底层技术,允许用户通过自然语言指令授权AI访问本地文件夹,自主完成文档创建、数据整理、计划制定等任务,并实时同步进度。Cowork强调用户控制权,关键操作需要确认,用户也可以随时中止。Anthropic表示未来会支持Windows并增强安全防护,目标是打造一个通用智能办公代理。
03 科技第一线
DeepSeek开源“记忆”模块Engram,提升大模型推理与检索能力
在1月13日,DeepSeek与北京大学联合发布了新论文,并开源了名为Engram的“条件记忆”模块。这个模块通过哈希N-gram机制实现高效知识检索,分离静态知识存储与动态计算,在不增加计算负担的情况下提升模型性能。实验结果显示,集成Engram的模型在知识问答、通用推理、代码及数学任务上均优于同规模的混合专家(MoE)模型,并显著增强了长上下文的理解能力。项目代码已公开,被认为是下一代大模型架构的重要探索。
1X为机器人NEO搭载世界模型,实现无需预训练的自主任务执行
在1月18日,挪威的1X公司推出了基于视频预训练的世界模型1XWM,并将其集成到家用机器人NEO中。该模型通过分析海量网络视频和第一视角操作录像,学习物理世界的规律。在接收到指令后,它首先生成“成功完成任务”的模拟视频,然后反推执行对应动作。NEO无需大量的实际操作数据或远程操控,就能在新环境或新物体中完成抓取、开门等任务。测试显示,生成的视频与实际执行过程高度一致,尽管部分复杂操作仍存在挑战。

xAI建成全球首个GW级超算集群Colossus 2,算力达1GW
在1月18日,埃隆·马斯克宣布,他旗下的xAI公司建成了全球首个算力达到1吉瓦(GW)的超算集群Colossus 2,正式投入使用。这个集群配备了大约55.5万张GPU,全部用于训练Grok系列大模型。据计划,算力将在2026年4月升级至1.5GW,最终达到2GW,相当于一座中等城市的用电量。为了减轻电网压力,xAI在本地部署了168个特斯拉Megapack储能系统。这一算力规模将支持Grok 5等下一代模型的快速迭代。
谷歌联合零售巨头推出AI购物开放协议
在2026年1月,谷歌与沃尔玛、Shopify、Etsy、塔吉特等20多家零售与电商平台联合推出了“通用商业协议”(UCP),旨在为AI智能体购物建立统一的开放标准。这个协议涵盖了商品搜索、比价、下单、支付和售后全流程的自动化,允许不同商家的AI系统之间进行协作。用户在使用谷歌搜索或Gemini时,可以通过AI直接完成购买,支付方式包括Google Pay,并即将接入PayPal。品牌也可以部署专属商务AI与用户互动,并推送定向优惠。
ChatGPT官宣加广告,将面向美国成年用户展开测试
在1月17日,OpenAI宣布将在ChatGPT的免费版和8美元/月的“Go”订阅版中引入广告。这些广告将出现在回答底部,并清晰标注,不会影响对话体验。付费的Plus、Pro及企业用户将不受影响。OpenAI称此举为“对话式广告”,目的是降低使用门槛,同时强调不会出售用户的对话数据。这一举措被视为应对高昂算力成本、探索AI商业化的重要一步,但也引发了对用户体验和“AI带货”风险的担忧。
以上就是小七为大家整理的AI领域的热门事件,每周更新,欢迎大家持续关注~
——以上内容综合自:量子位、新智元、机器之心、智东西、通义大模型、阿里巴巴等公众号
/END/












谷歌的Gemini功能提升了个人智能的应用范围,能否真正打通生态系统还需时间验证。
Veo 3.1支持4K输出,这对于视频质量要求高的创作者来说是个福音,值得尝试。
新推出的Veo 3.1功能听起来不错,但生成视频的质量有多稳定呢?值得关注。
自我学习的Quest 1.0是否会给开发者带来更多便利?希望它的表现能超出预期。
Quest 1.0的自我学习能力听上去很神奇,不知道它的学习效果会不会真的很强。
Veo 3.1的新功能非常实用,尤其是在移动平台的应用,期待后续的使用体验。
千问App的功能更新让人眼前一亮,可是使用起来会不会很复杂?
谷歌的Gemini功能能否真正实现应用打通?它的实际表现值得期待。
Midjourney的Niji V7模型真是太强了,动漫画风的细节提升很吸引人!