字节 豆包 VideoWorld:自回归视频生成模型
AI 机器人 AI开源项目 科研 视频生成
字节 豆包 VideoWorld:自回归视频生成模型

一款自回归视频生成模型,能够通过未标注的视频数据学习知识,并在围棋和机器人控制等任务中表现出色。

广告也精彩

VideoWorld 是由字节跳动联合上海交通大学等机构推出的一款自回归视频生成模型,能够通过未标注的视频数据学习知识,并在围棋和机器人控制等任务中表现出色。
主要功能
视频生成:能够根据输入的视频帧生成连贯的后续视频帧。
知识学习:通过大规模未标注视频数据学习复杂任务的规则、推理和规划能力。
任务操作映射:将生成的视频帧映射为具体的任务操作,如机器人控制。
技术原理
VQ-VAE(矢量量化-变分自编码器):将视频帧编码为离散的 token 序列,通过矢量量化将连续的图像特征映射到离散的码本中。
自回归 Transformer:基于离散 token 序列预测下一个 token,利用自回归机制生成连贯的视频序列。
潜在动态模型(LDM):将多步视觉变化压缩为紧凑的潜在代码,捕捉视频中的短期和长期动态。
逆动态模型(IDM):将生成的视频帧映射为具体任务操作。
应用场景
围棋对战:在 Video-GoBench 数据集上表现出色,达到 5 段专业水平。
机器人控制:在 CALVIN 和 RLBench 数据集上学习机器人控制操作,表现出良好的泛化能力。
使用方法
环境配置:需要安装 Python 3.10 和 PyTorch 等依赖。
安装 VideoWorld:克隆 GitHub 仓库并运行安装脚本。
推理:提供围棋对战和机器人任务推理的脚本。
训练:分为 LDM 训练和自回归 Transformer 训练两个阶段。
适用人群
研究人员:可用于研究视频生成和知识学习。
开发者:可用于开发基于视频生成的应用。
围棋爱好者:可通过与 VideoWorld 对战提升棋艺。
优缺点介绍
优点:
高效学习:通过未标注数据学习,减少人工标注成本。
性能出色:在围棋和机器人任务中表现出色。
开源:代码和数据公开,便于研究和开发。
缺点:
计算资源要求高:训练需要高性能 GPU。
应用场景有限:目前主要应用于围棋和机器人任务。
分类标签
人工智能、视频生成、知识学习、围棋、机器人控制

相关导航