量子位
整合编辑:太平洋科技
发布于:2025-06-19 16:32
百度慧播星数字人技术再进化!罗永浩数字人直播惊艳618,GMV超5500万元。首次双数字人互动直播间、大师级剧本模式突破,实现多模态高度融合。百度AI驱动的数字人技术解决方案引领行业变革,助力商家GMV平均提升62%。新发布梦蝶计划和繁星计划扶持更多普通主播及中小企业开启数字人直播时代。
|
罗永浩,干不过罗永浩??? 今年618大促,罗永浩数字人百度电商直播上岗,“一不小心”就创造了个纪录—— 带货单量超5月罗永浩真人百度电商直播首秀同期数据! 只见交个朋友直播间中,不单单罗永浩一个数字人现身,还有朱萧木(交个朋友直播间副主播)数字人担任“助播”。
俩“人”全程互动配合默契,说话、动作、神态那叫一个自然。 看视频效果,和真人直播不能说一毛一样吧,那也是真假难辨的程度! 甚至有人在评论区问老罗“你是不是真人在扮演AI,要是被威胁了就眨眨眼”。 就连罗永浩本人“罗氏幽默”的特色直播风格,数字人也能高度复刻。 比如罗永浩数字人卖花生油:
各种花式回答,让人眼前一亮又一亮,自嘲式回复网友问“棉柔巾脸大得用几张”,be like:
一场直播下来俩数字人真的是赢麻了,战绩斐然: 不仅直播吸引了超1300万人次观看,GMV(商品交易总额)突破5500万元。 甚至部分3C、食品等核心品类商品带货单量,罗永浩数字人超过了罗永浩真人5月份在百度电商直播首秀的同期数据,用户平均观看直播的时长也超过了5月真人首秀。
这究竟是怎么做到的? 数字人直播现在都进化成啥样了? 在最新百度AI开放日慧播星专场现场,百度同步智能电商进展,其中就揭秘了罗永浩数字人背后的秘诀。
原来,这次出战618的罗永浩数字人,是由百度电商数字人直播工具慧播星打造的高说服力数字人,本质上是一个具备形象+感知决策+行动的超级智能体。 相比以往数字人,慧播星高说服力数字人实现了四大突破。 首先,上线了业界首个双数字人互动直播间,体验大突破。罗永浩和朱萧木两个数字人能默契配合进行互动讲解就是基于此。 双数字人互动直播间还原了“主播+助播”真实直播状态。 得益于百度视觉大模型+语音大模型的全面升级,双人讲解时采用双音轨,不仅衔接更自然,而且支持打断说、同时说,能适配更复杂的场景。 观众在观看时很难看出什么破绽,就像是在看真人直播。 其次,慧播星推出了全新大师级别剧本模式,直播内容实现了突破。 现在,直播剧本生成不再是简单的脚本生成了,文心大模型4.5 Turbo加持,数字人能轻松复刻出个人直播风格。 这种人格化表达让数字人直播告别机械感,有网感,懂热点。 比如结合刚结束的四六级考试也能讲段广告词: 另外一大突破是视觉上的,慧播星高说服力数字人在业内率先实现了多模高度融合。 数字人由动作驱动,动作、表情、语调等多模态都能自动贴合话术表达进行配合。 比如在介绍护肤品的功效时,数字人会一边摸着自己的抬头纹、颈纹,一边讲解。 另外,它还能基于脚本实时调度素材,画面衔接也更流畅自然。
第四点是整体直播效果上的突破,负责直播控场的AI大脑全面升级。
在直播过程中,AI大脑会主动邀评,吸引直播间用户参与互动;同时能即时回复用户评论,哪怕是复杂直播场景,应对起来也游刃有余。 除此之外还有多种玩法,比如发福袋、在评论区抽幸运观众送礼物等,智能体能够实时控场促进转化。 活动现场,百度还宣布了百度优选和交个朋友正式达成战略合作,罗永浩成为慧播星首席体验官。 交个朋友副总裁吴加录直言,看到罗永浩数字人的表现有被惊吓到,逼近真的效果让他担忧——罗永浩本人要失业了?
背后“黑科技”:多模协同的数字人技术 深入探究这一系列突破的底层逻辑,会发现百度采用的是自研的以语言模型为核心驱动、多模协同的数字人技术解决方案。
从技术上来看,数字人若要在长时间内维持高水准的一致性与拟真性表现,单一模型显然无法满足需求。 百度的技术路径是以语言模型作为核心驱动单元,通过语言模型生成直播剧本,再通过剧本指导协调语音、视觉等多模态系统实现动态交互,最终塑造出有高表现力、形神兼备的数字人形象。
具体来看其中关键环节的技术。首先是剧本生成,其重点之一在于数字人台词生成。 台词包括多样化风格、拟真化人设和具有吸引力的内容。 其中多样化风格,涉及风格建模、风格生成和风格定制;拟真化人设,需要模型在台词生成上建设相应的能力,包括人设建模、人设还原、多角色协同;吸引力内容靠的是内容规划、深度思考以及知识增强。 此外,基于大语言模型的剧本生成也包含视觉标签、语音标签生成,以实现多模驱动的协同。 在大模型协同过程中,这些标签是开放级的,由这些标签驱动的语言来进行语调和风格的控制。
以罗永浩数字人剧本为例,基于文心大模型4.5 Turbo生成的剧本,需要展现主播的个人特色,具备典型的罗氏幽默风格,并能够实现双人主播的内容协同,动态实现丰富的实时互动。 剧本生成后,关键环节还包括语音合成和视频生成。 语音合成方面,数字人场景对语音合成提出了更高的要求,和以往朗诵式语音合成有很大区别。 最主要的区别在于数字人需要语音自然流畅,但在讲述不同内容时还要有抑扬顿挫感,在一些情况下甚至需要激情澎湃感以感染观众。 百度在这方面的做法是: 通过文本自控的语音合成大模型的,实现高复原的语音合成能力,再结合直播台词及发音人特征,合成风格适当、自然流畅的声音。
具体到罗永浩数字人的这场直播,还要面对老罗和朱萧木直播中双人声音配合的难点,对此百度采用了对话上下文编码器,把对话历史输入和当前对话进行语音合成的统一推理计算,最终才让我们看到了流畅、自然的双人对话效果。 还有一个关键环节是数字人形象生成与驱动。 视频生成方面需要进行高表现力动作对齐,以及支撑唇动、表情生成和对齐。更重要的是,数字人不只是一个视频,数字人还要和用户实时进行动态交互。 目前市面上存在大量视频生成模型,可以生成10s、20s,甚至30s的视频。但数字人要进行直播工作,这些还远远不够。 数字人需要的是小时级的一致性,而且还要高表现力,人、物、场要能自由交互。 百度为此建设了数字人形象生成和驱动的一整套技术,让数字人具备多模协同、高表现力、复杂交互能力。 该技术是一个可控的、长视频的生成工作;通过视频、剧本、语言、骨骼等特征,结合多模态视频理解、跨模态信号生成、视频生成等技术,实现了高一致性数字人长视频的生成。
普通人都能人均一个“主播”头衔 数字人技术的突破,不只促成了罗永浩数字人直播的成功。现在使用数字人技术的门槛越来越低,即使没有团队、没有直播经验的新人主播,也能轻松get数字人分身。 一些中小商家早就用这种模式,实现7×24小时不间断直播,订单量猛涨。 真实案例如三农领域创作者东北翠花,通过短视频分享东北的风土人情和美食,之前对于直播却缺少经验,效果一直不理想。 而通过慧播星,翠花的数字人直播间深度结合生活场景,利用极具地域特色的乡村环境、贴近日常的呈现方式,构建强代入感的消费氛围。 用户产生了情感联结与消费信任,驱动订单量实现10倍增长。 另一个案例是新会陈皮的源头产地商家广芸堂。 过去做真人直播时,广芸堂一直受主播差旅、时间调配这些高额成本所困。数字人突破了这一限制,借助技术优势,一边直观呈现原料生长的真实环境,一边通过灵活切镜,把陈皮的色泽纹理、触感细节等细微品质,全方位清晰展示。 “产地直采、品质可控”的概念转化为可视化、可感知的体验,大幅强化消费说服力,直接助推GMV实现160%的增长。 数字人技术的规模化落地,正是百度AI战略深度实践的重要印证。百度优选平台作为国内最早提出智能电商的平台,率先探索AI应用场景实践。
数据显示,目前已经有累计超过10万的商家在百度通过数字人直播,覆盖电商、教育、医生、法律等几十个行业,使用了数字人直播的商家GMV平均提升62%,降低了80%的开播运营成本。 现在,伴随618大促,百度还发布了两大计划扶持商家: 梦蝶计划,通过流量扶持,超头主播数字人打造、预算扶持,实现百度优选超头主播的数量倍增。
繁星计划,再次追加10万个慧播星数字人,投入1亿元数字人消费补贴,千万级别的运营扶持,帮助更多的普通人、中小企业开启数字人直播。
数字人技术不是顶级主播的专属,而是普惠共享的新型生产力。 本文来源:量子位 |
IT百科
网友评论
聚超值•精选


