一体式大规模多语言和多模式机器翻译模型,可为近 100 种语言的语音和文本提供高质量翻译。
AniPortrait是一个根据音频和图像输入生成会说话、唱歌的动态视频的项目。它能够根据音频和静态人脸图片生成逼真的人脸动画,口型保持一致。支持多种语言和面部重绘、头部姿势控制。功能包括音频驱动的动画合成、面部再现、头部姿势控制、支持自驱动和音频驱动的视频生成、高质量动画生成以及灵活的模型和权重配置。
一个由清华大学、阿里巴巴和华中科大共同开发的一个基于扩散模型可以让人物照片说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配让人物头像说话的框架。
VideoCrafter2是一个视频生成AI模型,能够根据文本描述生成高质量、流畅的视频。它通过克服数据局限,实现了高质量视频生成的目标。该模型可以生成照片级质量的视频,支持精细的运动控制和概念组合。用户只需要提供文本描述,VideoCrafter2就可以自动生成剧本级别的视频作品,可用于视频创作、动画制作等领域。
MagicEdit明确地解开了外观和运动的学习,以实现高保真和时间连贯的视频编辑。它支持各种编辑应用程序,包括视频风格化、本地编辑、视频MagicMix 和视频绘制。
MagicAvatar是一个多模式框架,能够将各种输入模式(文本、视频和音频)转换为运动信号,随后生成动画。
一体式大规模多语言和多模式机器翻译模型,可为近 100 种语言的语音和文本提供高质量翻译。