腾讯PCG ARC实验室推出Mira(Mini-Sora):迈向类似 Sora 的长视频生成的一小步。目前Mira还在非常早期的阶段,和Sora在许多关键领域还存在显着差距。
Mira项目是研究和完善类似Sora的轻量级T2V框架的整个数据模型训练流程,并初步展示上述 Sora 特性。
相关链接
项目主页:https://mira-space.github.io/
代码链接:github.com/mira-space/Mira
数据地址:https://github.com/mira-space/MiraData
项目介绍
我们推出 Mira (Mini-Sora),这是对 Sora 风格的高质量、长时间视频生成领域的初步尝试。 Mira 在几个关键方面从现有的文本到视频 (T2V) 生成框架中脱颖而出:
扩展序列长度:虽然大多数框架仅限于生成短视频(2 秒/16 帧),但 Mira 的设计目的是生成更长的视频序列,可能持续 10 秒、20 秒或更长时间。
增强动态:Mira 能够创建具有丰富动态和复杂动作的视频,使其有别于当前视频生成技术的静态输出。
强大的 3D 一致性:尽管存在复杂的动态和对象交互,Mira 仍可确保整个视频中保留对象的 3D 完整性,避免明显的扭曲。
请注意,我们在 Mira 上的工作正处于实验阶段。 Mira 和 Sora 在许多关键领域存在显着差距:
交互式对象和环境:Sora 支持生成对象和周围环境进行动态交互的视频,增加了一层复杂性和真实感。
持续的对象一致性:Sora 保持一致的对象形状,即使它们暂时退出并重新进入框架,确保连续性和连贯性。
Mira 项目是我们努力研究和完善类似 Sora 的轻量级 T2V 框架的整个数据模型训练流程,并初步展示上述 Sora 特性。我们的目标是促进创新并使内容创作领域民主化,为更易于使用和更先进的视频生成工具铺平道路。
我们目前正在对 Mini-Sora 进行初步实验。我们这个项目的主要目标不是完全重现 Sora,而是探索 Sora 框架内的特定关键组件,并与社区分享我们的发现。
MiraData 是一个具有长时长和结构化字幕 的大规模视频数据集。它专为长视频生成任务而设计。
Mira Data
视频数据集在视频生成(如sora)中起着至关重要的作用。然而,当涉及到处理长视频序列和捕捉镜头转换时,现有文本视频数据集往往不足。为了解决这些限制,我们引入了MiraData(Mini-Sora Data),这是一个专门为长视频生成任务设计的大规模视频数据集。
Mira Data的主要特点
视频时长长:与以前的数据集不同,视频剪辑通常很短(通常小于 6 秒),MiraData 专注于时长在 1 到 2 分钟之间的未剪辑视频片段。这种延长的持续时间允许对视频内容进行更全面的建模。
结构化字幕:MiraData 中的每个视频都附有结构化字幕。这些标题从不同角度提供了详细描述,增强了数据集的丰富性。字幕平均长度为349字,保证了视频内容的全面呈现。
当前状态
在此初始版本,Mira Data包括两个场景:
游戏:与游戏体验相关的视频。
城市/风景探索:捕捉城市或风景的视频。
MiraData仍处于早期阶段,我们将在不久的将来发布更多场景并提高数据集的质量。
无需穿戴特殊的装备或使用追踪标记,仅需单镜头摄像设备即可实现全身运动捕捉并创建动态数字人。