SadTalker:学习现实的3D运动系数风格化音频驱动的单图像说话的脸动画。
摘要 通过人脸图像和一段语音音频生成说话头视频仍然存在许多挑战。例如,不自然的头部运动,扭曲的表情和身份修改。我们认为这些问题主要是因为从耦合的二维运动场中学习。另一方面,明确使用3D信息也会遇到僵硬的表达和不连贯的视频问题。我们提出了SadTalker,它可以生成3英寸的3D运动系数(头部姿势,表情)。
Meshy是一款高效、用户友好的AI 3D模型生成器,能够轻松将文本和图像转化为吸引人的3D模型。
Lingo语音大模型是西湖心辰推出的一款集成了实时打断和实时控制能力的智能语音交互系统。
MetaHuman 是由 Epic Games 开发的云端虚拟人物创作工具,可以快速创建逼真的数字人物,并可用于游戏、电影、电视和虚拟制作等领域。
Poe是一款由人工智能驱动的平台,用户可以提问并即时获得答案,也可以进行互动对话。
为HumanPlus的开源项目,专注于人形机器人模仿和学习人类行为的研究。该项目包含了人形模仿转换器(Humanoid Shadowing Transformer, HST)和人形模仿学习转换器(Humanoid Imitation Transformer, HIT)的最新实现,以及全身体态估计和相关的硬件代码库。
一个开源的实时人像美化和背景替换工具,基于深度学习技术,为视频通话、直播和虚拟背景应用提供高级视觉效果。
Meshy是一款高效、用户友好的AI 3D模型生成器,能够轻松将文本和图像转化为吸引人的3D模型。