摘要
我们介绍了VASA,这是一个框架,用于在给定单个静态图像和语音音频剪辑的情况下,生成具有吸引人的视觉情感技能(VAS)的虚拟人物的逼真的会说话的脸。我们的首款型号VASA-1不仅能够产生与音频完美同步的嘴唇动作,还能够捕捉大量面部细微差别和自然的头部动作,有助于感知真实性和生动性。核心创新包括在面部潜在空间中工作的整体面部动力学和头部运动生成模型,以及使用视频开发这样一个富有表现力和解开纠缠的面部潜在空间。通过广泛的实验,包括对一组新指标的评估,我们表明我们的方法在各个维度上都显著优于以前的方法。我们的方法不仅提供了逼真的面部和头部动态的高视频质量,还支持以高达40 FPS的帧速率在线生成512x512视频,启动延迟可忽略不计。它为模拟人类对话行为的逼真化身的实时互动铺平了道路。
通义千问的全民舞台功能是阿里通义实验室自研的人像视频生成模型EMO的一部分,允许用户通过上传人像图片配合音乐,生成个性化的AI视频MV。该功能集成了先进的AI技术,能够将人物表情、嘴型与歌曲韵律同步,创造出逼真的AI数字人视频。【请在手机应用商店中下载通义千问APP】