Pippo是由Meta Reality Labs推出的图像到视频生成模型,能够从单张照片生成1K分辨率的多视角高清人像视频。
一、主要功能
多视角生成:Pippo可以从单张全身或面部照片生成多视角的高清视频,支持全身、面部或头部的生成。
高效内容生成:通过多视角扩散变换器,Pippo能生成多达5倍于训练视角的视频内容。
高分辨率支持:首次实现了1K分辨率下的一致多视角人像生成。
空间锚点与ControlMLP:通过ControlMLP模块注入像素对齐的条件,如Plücker射线和空间锚点,实现更好的3D一致性。
自动补全细节:在处理单目视频时,Pippo可以自动补全缺失的细节,如鞋子、面部或颈部等。
二、技术原理
多阶段训练策略:
预训练阶段:Pippo首先在30亿张无结构的人像图像上进行预训练。
中间训练阶段:在高质量工作室数据集上,模型联合生成多个视角的图像,使用低分辨率的视图进行去噪。
后训练阶段:在高分辨率下对少量视图进行去噪,引入像素对齐控制,实现3D一致性。
像素对齐控制(ControlMLP模块):通过注入像素对齐的条件,如Plücker射线和空间锚点,确保生成内容的3D一致性。
注意力偏差技术:在推理阶段,支持模型同时生成比训练阶段多5倍以上的视角。
3D一致性评估指标:引入重投影误差(Re-projection Error)作为评估多视角生成3D一致性的指标。
三、应用场景
虚拟现实与增强现实:为VR/AR应用生成高质量的3D人像视频。
影视制作:快速生成虚拟角色的多视角视频,节省拍摄成本。
虚拟人像生成:用于社交媒体、虚拟直播等领域。
游戏开发:为游戏角色生成高质量的多视角动画。
四、使用方法
克隆仓库:
复制
git clone git@github.com:facebookresearch/pippo.git
cd pippo
export PATH=$PATH:$PWD
安装依赖:
复制
conda create -n pippo python=3.10.1 -c conda-forge
conda activate pippo
conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.0 -c pytorch -c nvidia
pip install -r requirements.txt
下载并训练样本:
复制
python scripts/pippo/download_samples.py
python train.py config/full/128_4v.yml
计算重投影误差:
复制
python scripts/pippo/reprojection_error.py
```[^17^][^18^]。
五、适用人群
研究人员:专注于计算机视觉、图像生成和虚拟现实领域的专业人士。
开发者:希望基于Pippo的代码架构开发新的图像生成应用。
影视制作团队:用于虚拟角色生成和特效制作。
游戏开发者:为游戏角色生成高质量的多视角动画。
六、优缺点介绍
优点:
高质量生成:能够从单张照片生成1K分辨率的多视角高清人像视频。
3D一致性高:通过ControlMLP模块和重投影误差评估,确保生成内容的3D一致性。
自动补全细节:能够自动补全缺失的细节,如鞋子、面部或颈部。
开源免费:代码已开源,用户可以根据需求自行训练。
缺点:
训练资源需求高:需要较高的计算资源,如A100或T4 GPU。
训练复杂性:虽然代码开源,但需要用户自行训练模型。
应用场景有限:主要适用于人像视频生成,其他场景可能需要进一步优化。
分类标签
图像生成、视频生成、人工智能、虚拟现实、开源工具
Creatify是一个利用人工智能技术帮助用户创建引人入胜的视频广告的工具。用户只需输入产品链接或上传自己的视觉素材和描述,Creatify就能自动生成视频广告。