“老罗,你是AI吗?”
当数字人罗永浩在直播中轻松回应观众,“能喝!我已经600多个月了,谁还不是个宝宝呢?继续吧,下一个!”时,很多用户都惊讶不已。
这次直播让普通观众感受到了数字人的魅力,数据也很震撼:近7小时的直播吸引了1300万人观看,销售额达到5500万元。
更有趣的是,背后的一些数据揭示了这场极具真实感的直播所依赖的AI技术:AI生成了近10万字的直播内容,互动量是真人直播的三倍,完成了8300多个AI动作,并调用了1.3万次知识库。
AI大模型的能力正在逐渐渗透到我们的生活中。一个多月前,百度发布了文心大模型4.5 Turbo,只需GPT4.5价格的0.2%,便在行业内引起了轰动;而在文本理解和文风创作方面的表现,更是在老罗的数字人直播中展现得淋漓尽致。
“600多个月的宝宝”这个概念、老罗和朱萧木的默契配合、以及老罗抬头时那“抬头纹”的动作,都是得益于文心4.5T的强大支持。而那些8300个AI动作则是依靠百度的语言、语音、视觉等多个模型协同工作而成的。
李彦宏曾强调:“应用才是大模型的真正价值。”虽然百度尚未推出通用的视频生成模型,但它正通过特定场景来发展模型能力,成功实现了“用AI创造GMV”,在行业中开辟了新的应用模式。
四大突破,百度数字人再造一次购物节狂欢
百度的罗永浩数字人直播首秀,成为了今年618电商盛事中的一大亮点。
最终的数据表明,这可不是一次空洞的技术实验。5500万元的销售额超出预期,部分3C、食品等核心商品的带货量甚至超过了老罗5月真人直播的同期数据,创造了数字人直播的新纪录。
今年4月,李彦宏在百度2025 Create大会上推出了具备高说服力的数字人,标志着数字人进入了3.0时代,这是一个新的里程碑。这一代数字人不仅像真人一样,还具有高度协调的形态、声音和思考能力,可以协同完成特定任务。
在6月17日的百度AI DAY上,百度电商总经理平晓黎介绍了基于高说服力数字人的新突破,这次打造的超头主播罗永浩数字人,再次在体验、内容、视觉和效果四个方面取得了重大进展:
首先,推出了业界首个双数字人互动直播间,提升了营销转化率和用户体验;
其次,基于文心4.5T的升级,剧本模式让数字人能够“懂创作”、“有个性”;
第三,实现了业内首个多模态高度融合的数字人,使其能够长时间稳定运行;
最后,成功攻克了多任务复杂场景,数字人带货效果媲美真人。

直播期间,观众看到罗永浩与助播数字人朱萧木的配合非常自然,互动频频。他们不仅能模仿喝奶茶、提可乐等细微动作,还可以实时与直播间的观众进行互动。

整场直播中,AI调用知识库达到1.3万次,生成了9.7万字的产品介绍内容,双数字人搭档完成了8300多个动作。
罗永浩数字人:基于文心大模型的最佳实践
这场近7小时的直播背后,离不开百度领先的大模型多模态能力的支持。
数字人能够在长时间内保持一致性和高度逼真的表现,这可不是单一模型所能解决的,百度的整体方案以语言模型为核心,生成剧本,并通过剧本指导语音和视觉进行多模态的协同和动态互动。
在6月17日的AI DAY上,百度集团副总裁吴甜详细介绍了多模协同的数字人技术。
百度开发的多模协同数字人技术,基于文心4.5T,实现了多模规划与深度思考的剧本生成,通过剧本驱动数字人的多模协同,达到动态决策的实时互动,使数字人的“神、形、音、容、话”高度统一。最终,呈现出一个高表现力、内容吸引人、能够自由与“人—物—场”进行交互的超拟真数字人。
其中,剧本生成技术是一个关键环节,涵盖了台词生成、多模驱动和动态交互三个部分。
数字人技术的背后:罗永浩案例解读
以罗永浩的数字人直播为例,这个基于文心大模型4.5 Turbo打造的剧本,展现了他独特的个性和那种“罗氏幽默”的风格。更酷的是,它还能支持双人主播之间的内容协作,实时互动变得丰富多彩。通过文本自控的语音合成技术,合成的声音非常自然流畅,完全符合直播的需求。

为了克服数字人直播中双人声音配合的挑战,百度引入了对话上下文编码器,这样一来,不论是对话历史还是当前对话的语音合成都能在同一推理中完成,最终的效果是双人对话变得更加流畅和自然。
在数字人的形象生成和驱动方面,百度结合了多模态视频理解、跨模态信号生成和视频生成等技术,克服了高可控交互和长时间一致性的难题,成功实现了超拟真罗永浩数字人的长视频生成。
作为国内较早投入大模型研究和开发的公司之一,百度在芯片、框架、模型和应用这四个技术层面上都有布局,显示出其在AI大模型领域的技术创新优势。

在今年上半年,百度推出了四款基座大模型,包括文心大模型4.5/4.5T和文心大模型X1/X1 Turbo。其中,文心4.5的价格仅为GPT的1%,而X1 Turbo在信通院的测试中获得了最高评分。
最近,国际权威市场研究机构IDC发布了《中国基础大模型产品综合评估报告,2025》,文心大模型在8个核心评估维度中拿下了7项最高分,成为本次评估中唯一一款获得这么多满分的大模型。
吴甜认为,罗永浩数字人是文心大模型的成功实践之一。她表示,百度在大模型技术上的不断探索和创新,将为用户带来更卓越的体验,并为行业提供更具创新力的商业模式。
百度AI应用:不仅仅是落地,更是成就
到2025年,大模型将赋能各行各业已经成为大家的共识。在618这个重要节点上,百度适时推出了罗永浩数字人直播间,并实现了与行业一线直播带货水平相当的GMV,这也意味着用户对数字人的接受度已经得到了验证。
作为一名顶尖主播,罗永浩将发挥重要的引领作用,吸引更多的顶尖主播加入,共同打造慧播星数字人矩阵,推动中国直播电商的竞争迎来新的变化。

百度的副总裁兼电商总经理平晓黎表示,百度优选作为智能电商平台,已经陆续推出了搜索智能导购、商品对比和全网比价等新功能。目前,每天有超过2000万用户在百度使用智能导购来做购买决策。数据显示,使用数字人直播的商家,其GMV平均提升了62%,直播运营成本降低了80%,真正实现了“降本增效”的双丰收。
在罗永浩所属的交个朋友公司,副总裁吴加录认为,百度的AI能力与交个朋友的直播运营经验和供应链资源形成了完美结合,这种“技术加IP”的协同模式也将为行业智能化转型提供实践样本。
与此同时,百度电商还推出了两个重要计划:“梦蝶计划”旨在通过流量支持、超头主播数字人打造和预算扶持,将百度优选的超头主播数量倍增;而“繁星计划”则将再增加10万个慧播星数字人,并投入1亿元的消费补贴以及千万级的运营支持,帮助更多普通人和中小企业开启数字人直播。这些举措更进一步体现了百度在电商领域深耕的决心。
数字人实际上是百度大模型多模态能力的综合体现。它聚焦于特定的垂直领域,与通用的视频生成模型相比,数字人能够更精准地优化模型,追求极致的人机互动体验,具备实时交互能力,技术门槛较低,应用场景也非常清晰,更容易形成可复制的商业模式。
数字人的成功其实就是百度AI应用落地的一个典范。李彦宏在多个场合强调,应用才是大模型真正的价值所在。因此,无论是在研发文心大模型,还是在构建作为AI应用基础的云平台,百度始终是从实际需求出发,让模型成本更低、云平台的端到端性能更强。
可以预见,未来大模型的应用能力不仅限于单一的APP产品,叠加多模态能力后,AI将能发挥更大的作用。
今年,百度还推出了无代码生成工具“秒哒”,让每个人都能轻松开发应用,而AI代码辅助工具“文心快码”也已经服务了760万开发者,为百度贡献了40%以上的新代码。在视觉大模型的落地应用方面,百度在无人驾驶领域也加大了投入,今年“萝卜快跑”加速出海,全球服务次数已超1100万。
在行业面临同质化竞争的背景下,百度早已迅速调整了方向,专注于满足商业场景的实际需求。这种策略的核心是以解决各行各业的问题为导向,推动模型能力的不断优化与升级。可以说,这种“应用驱动模型”的方法,让AI技术能够迅速转化为可衡量的商业价值,进而加速了整个AI行业从单纯技术竞争向实际问题解决和真实商业价值创造的转型。
