SadTalker:学习现实的3D运动系数风格化音频驱动的单图像说话的脸动画。
摘要 通过人脸图像和一段语音音频生成说话头视频仍然存在许多挑战。例如,不自然的头部运动,扭曲的表情和身份修改。我们认为这些问题主要是因为从耦合的二维运动场中学习。另一方面,明确使用3D信息也会遇到僵硬的表达和不连贯的视频问题。我们提出了SadTalker,它可以生成3英寸的3D运动系数(头部姿势,表情)。
Gen-2 是 RunwayML 提供的一款 AI 视频生成工具,它允许用户通过文本提示或图像转换成视频。用户可以输入简单的文本提示,如“a waterfall”(一个瀑布),并添加修饰词来影响生成视频的风格、构图和整体情绪。
一个本地且开源的CharacterAI替代工具,提供了一个用户友好的界面,允许用户在桌面上与虚拟角色互动。你可以自定义创建各种角色,让每个虚拟角色都有自己的独特个性和语言风格。
Mamba-2是由普林斯顿大学和卡内基梅隆大学的华人研究人员共同开发的新一代AI架构,它通过结构化状态空间对偶性(SSD)统一了状态空间模型(SSM)和注意力机制(Attention),实现了性能的显著提升。
mini-omni 是一个开源的多模态大型语言模型,具备实时端到端的语音输入和流式音频输出的会话能力。
一款旨在帮助用户提升工作效率和专注力的应用,通过管理任务和时间,让用户更容易进入心流状态。
Deep-Live-Cam是一个开源的实时面部交换和一键式视频深度伪造工具,它允许用户仅使用单张图片即可生成深度伪造视频。
Gen-2 是 RunwayML 提供的一款 AI 视频生成工具,它允许用户通过文本提示或图像转换成视频。用户可以输入简单的文本提示,如“a waterfall”(一个瀑布),并添加修饰词来影响生成视频的风格、构图和整体情绪。