6月21日,由内容科技产业推进方阵、中国信通院云计算与大数据研究所、中国通信标准化协会TC602联合主办的“2022内容科技成果发布会”落地线上。会上公布了首批数字人系统基础能力评测结果,火山引擎虚拟数字人平台榜上有名,在技术、工程化、安全保障等方面均满足评测要求。
作为中国信通院为进一步推动产业界对数字人概念达成共识,提升其工程化落地能力而启动的首届评测,该评测共计48个测试项,主要通过“采用人员访谈、系统操作演示和材料审查”相结合的方法,分别从基础技术能力、基础工程化能力、基础安全保障能力三大维度、综合涵盖语音技术能力、交互技术能力、易用可靠性以及形象版权保障、内容风险控制等在内的多项指标对参评数字人系统进行全面评估。
此次参与评测的火山引擎虚拟数字人平台属于火山语音“AI虚拟员工解决方案”的核心产品,方案以人机交互为核心,涵盖语音识别、语义理解、对话交互、语音合成以及双工控制等多项业界领先的核心技术,打造从形象、感知、理解、表达能力都趋近于真人的数字员工,为企业提供高度拟人化的客户服务。此次平台成功获得信通院评测的权威认证,也充分表明火山语音支持下的数字人技术能力和产品成熟度获得了业界认可。
深入了解火山引擎数字人,从形象类型划分主要涵盖2D、3D卡通、3D超写实,其中2D数字人是由真人在专业录影棚录制的视频训练而成,AI驱动效果与真人几乎无异,适用于严谨专业的业务场景;而3D卡通数字人则因其卡通化的外形,更能展现生动活泼的数字人个性,常用在轻松娱乐的场景;3D超写实数字人介于两者之间,一方面依托于快速突破的3D建模技术,外观形象高度还原真人发肤,另一方面又保留了3D空间感和信息载体优势,适用于对形象空间感、3D特效或XR等信息载体要求较高的创新场景。
除了形象特征的千差万别,2D数字人和3D数字人的技术实现路径也大有不同。2D数字人通过行业领先的非自回归模型的唇形生成网络,合成与输入文本或语音完全匹配的唇形,有效减小误差累积,准确率高达98.55%。“此外还通过头部姿态与唇形的解耦实现头部姿态的灵活控制,并借助光流插帧实现语义相关的肢体动作的自然过渡。让火山引擎数字人具备业内领先的自然表现力,目前整体自然度MOS可达3.8以上。”火山语音团队总结道。
对比而言,3D数字人则通过原画、建模、绑定、AI训练、渲染等流程制作,自研基于IPA的细粒度唇形驱动方案来实现高精度的唇形、表情驱动,目前唇形自然度MOS可达4.0;通过不断打磨的Pose Matching算法实现同级动作的自然打断与切换,灵活的图层控制策略支持3D渲染结果的后期处理,整体自然度MOS可达3.8以上。
从场景适配出发,目前火山引擎数字人包括“播报型数字人”和“交互型数字人”两种类型。其中播报型数字人,即输入文本或语音,就可生成自然生动的数字人播报视频;交互数字人作为播报型数字人的形态升级,依托于火山语音长期积累的成熟语音交互技术,让数字人“善听”、“会说”、“能想”,与用户面对面实时交互。
具体来说在语音识别方面,火山语音通过业内领先的端到端语音识别模型,以及长期深耕金融、汽车、泛互等行业所积累的数据经验,在数十个领域中、真实场景数据反馈下,字准均可达到 92% 以上;语音合成方面,凭借行业优势的端到端交互式合成技术,细粒度还原真人韵律、笑声、副语言等,对象感极强,测听人员已无法分辨出合成的语音与真人录音。综合而言,目前交互数字人集成了全双工语音交互链路,前向兼容语音以及文本输入,后向兼容2D与3D数字人表现力,整体端到端交互延迟在500ms左右,性能效果达到业内领先水平。未来火山引擎数字人还将集成火山视觉“可看”的能力,实现数字人语音交互向多模态交互的升级。
如今火山语音“AI虚拟数字员工解决方案”已具备标准平台的快速交付能力,面向金融、大消费、泛互等行业为客户提供涵盖“金融客服”、“智慧导览”、“智能助理”、“虚拟直播”等场景细分解决方案,为用户带来全新的互动服务和便捷体验。
在“激发无限创意,提升业务增长”的目标驱动下,火山引擎AI基于多年沉淀的人工智能技术,将音视频、直播、AR等多种内容形态下的创作能力,灵活高效地赋能企业内部工具以及用户产品中,持续为用户体验和业务增长注入创新势能。未来,以此为基,火山语音在持续提供全球领先的语音AI技术能力以及卓越的全栈语音产品解决方案的同时,将继续深耕AI数字人技术,不断探索前沿科技与业务场景的高效结合,以实现更大的用户价值。
“