就在今日凌晨,DeepSeek工程师们已经在Hugging Face平台上传了Janus Pro 7B和1.5B模型。这俩模型是去年DeepSeek 10月发布的Janus模型升级版。
据DeepSeek介绍,Janus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。Janus-Pro 是基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 模型构建的。
在多模态理解任务中,Janus-Pro 采用 SigLIP-L 作为视觉编码器,支持 384 x 384 像素的图像输入。而在图像生成任务中,Janus-Pro 使用一个来自特定来源的分词器,降采样率为 16。