微软开源视频Tokenizer新SOTA 显著优于Cosmos Tokenizer - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

微软开源视频Tokenizer新SOTA 显著优于Cosmos Tokenizer

2024-12-26 / 阅读约9分钟

来源：cnBeta

Sora、Genie等模型会都用到的Tokenizer，微软下手了——开源了一套全能的Video Tokenizer，名为VidTokSora等视频生成模型工作中，都会利用Tokenizer将原始的高维视频数据（如图像和视频帧）转换为更为紧凑的视觉Token，再以视觉Token为目标训练生成模型。而最新的VidTok，在连续和离散、不同压缩率等多种设定下，各项指标均显著优于SOTA模型。

以下是涵盖PSNR、SSIM、FVD、LPIPS指标的性能比较雷达图，面积越大表示性能越好。

从图中可以看出对于离散Tokenizer，VidTok显著优于英伟达Cosmos Tokenizer；对于连续Tokenizer，VidTok也比Open-Sora、CogVideoX有更高的性能。

这项研究由来自微软亚研院、上海交通大学、北京大学的研究人员共同完成。

目前，VidTok代码不仅开源了，还支持用户在自定义数据集上的微调，为研究者和开发者提供了一个高性能、易用的工具平台。

性能全面领先，适用各种场景

近年来，视频生成以及基于此的世界模型已经成为人工智能领域的热门研究方向，这两者的核心在于对视频内容的高效建模。

视频中蕴含了丰富的视觉信息，不仅能够提供真实的视觉体验，更能作为具身场景中模型理解世界的中间媒介。

然而，由于视频像素级表示信息高度冗余，如何通过Tokenizer对视频数据进行高效压缩和表示成为关键课题。

当下很多工作如Sora，Genie等都会通过Tokenizer将原始的高维视频数据（如图像和视频帧）转换为更为紧凑的视觉Token，再以视觉Token为目标训练生成模型。

可以说，视觉Token的表示能力对于最终的效果至关重要，甚至决定了模型能力的上限。

Tokenizer的主要作用是将高维的原始数据转换为隐空间中高效的压缩表示，使得信息的生成和处理可以在该隐空间中进行。上图展示了一个视频的Token化过程，通过转换为Token建模，能够有效降低模型训练和推理时的计算需求。

根据不同的使用需求，视频Tokenizer通常有如下分类：

连续型和离散型。根据隐空间的数值分布，Tokenizer可以分为连续型和离散型，分别适用于从连续分布中采样的模型（如扩散模型等）和从离散分布中采样的模型（如语言模型等）。
因果型和非因果型。因果结构使得模型只依赖历史帧来对当前帧进行Tokenization，这与真实世界系统的因果性质保持一致。非因果模型则可以同时根据历史帧和未来帧对当前帧进行Tokenization，通常具有更优的重建质量。
不同的压缩率模型。Sora等众多工作采用了如4x8x8的视频压缩率（时间压缩4倍、空间压缩8倍），实现更高的视频压缩率而保持高质量的视频重建是目前的研究趋势。

目前业界领先的视频模型多为闭源状态，而开源的视频Tokenizer大多受限于单一的模型设定或欠佳的重建质量，导致可用性较差。

由此，来自微软亚研院、上海交通大学和北京大学的研究人员最近正式发布了开源视频Tokenizer——VidTok。

在测试中，VidTok性能全面领先，适用各种场景。

如下表所示，VidTok支持多样化的隐空间且具有灵活的压缩率，同时支持因果和非因果模型，以适应不同的使用需求。

对于连续型Tokenizer，支持不同的视频压缩率、不同的隐空间通道数，同时支持因果和非因果模型。
对于离散型Tokenizer，支持不同的视频压缩率、不同的码本大小，同时支持因果和非因果模型。

更多模型在持续更新中。

为了全面评估VidTok在各个设定下的重建性能，作者将VidTok与最先进的连续和离散视频Tokenizer分别进行了对齐设定下的比较。所有模型均为4x8x8倍视频压缩率的因果模型，主要包含以下三种设定：

VidTok-FSQ：离散型，码本大小各异。基线方法包括MAGVIT-v2，OmniTokenizer，Cosmos-DV等。
VidTok-KL-4chn：连续型，隐空间通道数为4。基线方法包括CV-VAE，Open-Sora-v1.2，Open-Sora-Plan-v1.2等。
VidTok-KL-16chn：连续型，隐空间通道数为16。基线方法包括CogVideoX，Cosmos-CV等。

定量实验结果表明，VidTok在上述三种设定下均达到了SOTA性能，在常见的视频质量评估指标PSNR、SSIM、FVD、LPIPS上具有全面的优势。