VLM 和扩散模型被整合到一起了。
ModelScope(魔搭)团队发布 Nexus-Gen V2,一个同时支持图像理解、生成和编辑的统一模型,而且模型权重、训练流程和数据集全部开源。
这事儿有多重要?今年以来,GPT-4o-Image、Gemini、Blip3O 这些大厂的统一模型都在证明一件事:把图像理解和生成能力塞进一个模型,不仅仅是为了省事,更是因为两种任务的有机结合能带来意想不到的效果。
魔搭团队其实早在五月就发布了 V1 版本,但他们很快发现了问题:图像理解能力相比原始 VLM 掉点严重,图像生成对提示词太敏感,编辑细节也保持不好。
于是他们憋了几个月大招,从三个方向全面优化,终于拿出了这个 V2 版本。
在图像理解上,优化了模型的训练策略,极大程度地保留了 VLM 的理解能力;
在图像生成上,对所有图像生成样本进行了重标注,采用长短描述同时标注并采样选取的策略,提升了图像生成的鲁棒性,同时加入了中文标注样本,支持了基于中文的图像生成。
在图像编辑上,团队系统性地研究了图像重建效果与图像编码 token 数量之间的关系,并设计了全新的编辑方案。经过以上优化,Nexus-Gen V2 达到了第一梯队统一模型的水平,模型的模型权重和全链路训练流程全部开源。
此外,Nexus-Gen V2 使用 2600 万样本进行训练,包括 580 万图像理解、1330 万图像生成和 630 万图像编辑样本,这个大规模数据集已经在 ModelScope 主站上开源。
Nexus-GenV2 模型的图像编辑和生成可视化效果下:
△图 1 Nexus-Gen 图像生成效果
△图 2 Nexus-Gen 图像编辑效果模型架构设计
Nexus-Gen V2 沿用了 V1 的模型架构设计,如图 3 a 所示,其核心是将扩散模型作为自回归语言模型(Autoregressive Model)的视觉解码器(Vision Decoder),并使用一个统一的图像编码空间(Image Embedding Space)来连接两者,并统一建模图像理解、生成和编辑任务。
输入图像由视觉编码器(Vision Encoder)编码到统一编码空间中,由自回归模型处理。自回归模型使用预填充自回归策略预测输出图像在编码空间的特征向量,然后由视觉解码器解码为输出图像。
△图 3 Nexus-Gen 的模型架构和训练策略 Autoregressive Model 自回归模型
如图 3 b 所示,Nexus-Gen 采用 Qwen2.5-VL-7B-Instruct 的语言模型部分作为自回归,并采用其 ViT 作为视觉编码器,将视觉编码器的输出空间作为统一图像编码空间。
在训练时,模型输出的图像特征的 token 数量固定为 N_e(N_e 的取值涉及到模型间和效果上的权衡,将在后续进行讲解),图像特征采用 MSE 和余弦相似度作为损失函数;对于模型输出的文本 token,Nexus-Gen 采用标准的交叉熵来作为损失函数。
Nexus-Gen 的自回归模型在图像理解、生成和编辑三个任务上进行了预训练和视觉质量微调。预训练用上了全部 26M 数据;视觉质量微调只采用了 4.3M 数据,其中图像生成部分仅采用高质量样本。
Generation Decoder 图像生成解码器
如图 3 c 所示,Nexus-Gen 采用 Flux.1-Dev 作为视觉解码器。图像生成任务的解码器 ( Generation Decoder ) 采用图像重建的方式训练:输入图像被视觉编码器编码为 N_e 个特征向量,这些特征被作为图像生成解码器的输入条件,用于重建输入图像。训练采用的损失函数为标准 Flow Matching 的 MSE 损失函数。这一训练过程仅使用 2M 高质量的图像生成数据。
图像 Embedding 数量的权衡
Nexus-Gen 采用的视觉编码器拥有动态分辩率的编码能力,图像分辨率越大,编码得到的 token 数量越多,编码包含的细节信息越多,信息损失也越少;反之,分辨率越小,编码更偏向高层语义信息,信息损失越多。使用不同数量的图像特征来训练图像生成解码器时,图像重建对比效果如图 4 所示。
考虑 128x128, 256x256, 512x512 三种分辨率和他们对应的 25,81 和 324 三种 token 数量,实验现象为,token 数量越少,重建效果越差,25 个 token 重建的图像已经出现了语义缺失和图像畸变的情况。81 和 324token 都能较好地重建出图像,324token 细节重建更好。
△图 4 不同 token 数量的重建效果
进一步地,考虑使用 81 和 324 两个 token 数量训练了自回归模型,再接上对应的解码器,对比生成效果,如图 5 所示。可以发现,324 token 训练的模型出现了严重的语义重复现象,生成的图像质量也远不如 81 token。
主要原因是 324 个 token 严重增加了图像特征预测任务的复杂度,7B 的自回归模型没法胜任这个任务。经过权衡,Nexus-Gen 最终采用 81 作为自回归模型的输出和图像生成解码器的输入 token 数量。
△图 5 81 和 324 图像 token 数量下的 Nexus-Gen 生成效果对比 Editing Decoder 图像编辑解码器
理论上,只要重建效果足够好,图像生成解码器就能直接完成图像编辑任务,因为自回归模型预测的就是编辑后图像特征。然而,自回归和图像生成解码器采用的 token 数量是 81,在这个数量下,图像重建能保证整体布局和语义正确,但细节重建效果不足,这就导致 Nexus-Gen V1 版本的图像编辑功能的细节保持效果不足。
因此,Nexus-Gen V2 版本重新设计了图像编辑解码器(editing decoder),架构如图 3 d 所示。编辑解码器的输入条件有两个,第一个是自回归模型输出的 81 个目标图像 token,第二个则是图像编码器直接编码的 324 个原图 Token,用作细节信息的补充条件。团队对两种条件采用不同的位置编码,并在 ImagePulse 这个高质量图像编辑数据集上训练编辑解码器,训练的损失函数仍然是标准 Flow Matching 的 MSE 损失函数。 图像生成和编辑解码器在图像编辑任务上的效果对比如图 6 所示。可以看到编辑解码器的细节保持能力显著提高。
△图 6 generation 和 editing decoder 的编辑效果对比
Prefilled Autoregression 策略
自回归模型在训练时采用 teacher-forcing 的策略,在推理时则采用 token-by-token 的预测方法。将这种自回归范式直接运用在连续特征空间的图像特征预测上,会带来比较严重的误差累积问题。误差累积的本质是训练和推理行为不一致。为了解决这个问题,提出了预填充自回归的策略,这一策略与可学习 Qeury 的思路类似,如图 7 所示。
在训练时,使用一组可学习特殊 token 填充对应位置的图像特征向量,这样就可以让模型学习直接预测任意位置的图像特征的能力。在推理阶段,只要预测到图像的起始 token BOI,就直接预填充 N_e 个特殊 token 到输入序列中。通过这种方式,能够保证训练和推理阶段行为的一致性,从而消除误差累积。
△图 7 预填充自回归的策略训练策略
Nexus-Gen V2 的训练分成自回归模型的训练和视觉解码器的训练。V1 版本发现模型在理解能力上退化严重,经过消融实验,主要是由于学习率过大导致知识遗忘导致的,Nexus-GenV2 版本采用的自回归模型的学习率为 1e-5。所有训练阶段的详细训练参数如表 1 所示。
△表 1 Nexus-Gen 训练超参数训练数据集构建
为了对 Nexus-Gen 的自回归模型进行多任务协同优化,团队构建了一个涵盖图像理解、生成和编辑任务的大规模数据集,数据集已经在 ModelScope 开源。除了按照 Nexus-Gen V2 的训练过程划分的图像标注外,还针对盖图像理解、生成和编辑任务三个任务划分了数据集,方便后续在各个任务上的使用,详细请参考 ModelScope 数据集页面,链接在文末获取。
△图 8 Nexus-Gen 训练数据分布
Nexus-Gen 的数据分布如图 8 所示。
图像理解的数据源主要是 Cambrian-7M,为了提升数据质量,使用 Qwen2.5-VL-72B 对视觉问答问题的所有答案进行了重标注。
图像生成数据既包含真实图像数据源(Laion-HR,AnyWord),也包含合成图像数据源(EliGen、FLUX-ARS、FLUX-T2I、JourneyDB)。为了提升模型对图像生成 prompt 的鲁棒性,使用 Qwen2.5-VL-72B 对所有图像进行重标注;在标注时,模型同时生成简短和详细两种图像描述,训练时以 20% 的概率采用简短图像描述,80% 的概率采用详细图像描述。
图像编辑的数据源来自于 HQ-Edit,UltraEdit,OmniEdit,StyleBooth 等。然而,现有开源图像编辑的图像质量较差,直接用于 Diffusion 模型的训练会破坏图像分布,严重降低图像质量。为此,团队创建了 ImagePulse 这一高质量图像编辑数据集,包含物体的添加、修改和删除,风格迁移和任务一致性保持几个子集。
为了支持使用中文进行图像生成和编辑,Nexus-Gen V2 使用中文标注了部分数据,对应分布图中的 FLUX-ZH 和 ImagePulse-ZH 子集。经过实验验证,仅仅 2.5M 中文标注数据就完全模型的中文生成和编辑能力。
模型评测效果图像理解
团队在多个 Benchmark 上对 Nexus-Gen 进行了评测,如表 2 所示,在这些 benchmark 上,Nexus-Gen V2 比之前经过联合优化的统一模型表现更好。此外,与 VLM Baseline 模型 ( Qwen2.5-VL-Instruct-7B ) 的对比结果表明,Nexus-Gen 以较小的理解能力损失,为自回归模型增加了图像生成和编辑能力,这是符合预期的。
△表 2 Nexus-Gen 图像理解能力评测图像生成
在图像生成 benchmark GenEval 的评测结果如表 3 所示。实验结果表明,经过多任务联合优化的 Nexus-Gen 模型可以取得 0.77 的总分。如果进一步在 blip3o-60k 数据集上做对图像生成做一次指令微调,可以将总分提升到 0.81。
△表 3 Nexus-Gen 图像生成能力评测图像编辑
在图像编辑 benchmark ImagePulse TestSet 的评测结果如表 4 所示。CLIP-T 表明模型与目标图像的语义信息对齐良好。而 L1、CLIP-O 和 DINO-O 分数则表明模型与目标图像的细节特征对其良好,也证明了此前设计的图像编辑解码器起到了作用。
△表 4 Nexus-Gen 图像编辑能力评测展望
Nexus-Gen 采用了 VLM+Diffusion 的统一模型路线,同期的 MetaQuery、Blip-3o、Uniworld 和 OmniGen2 等都是采用这一路线,每个工作都很出色,都有各自的独特之处。Nexus-Gen 的独特之处在于并没有将自回归模型冻住,而是在图像理解、生成和编辑任务上完成了语言模型的统一训练,团队始终认为多任务统一训练和协同优化是统一模型不能逃避的问题,它是统一模型走向更远应用的关键一步。统一模型的潜力在于理解生成模型相互促进的愿景、在于将多模态推理向前推再推进一步的可能,更在于它也许就是下一个世界模型的雏型,这些都是需要统一训练来激发的。
当然,Nexus-Gen 模型仍然不是一个成熟完美的模型,模型仍然具有一定的局限性。比如图像生成的融洽性比不上纯 Diffusion 模型,图像编辑效果对不同图像不太稳定,图像生成和编辑的引入也一定程度降低了模型的指令遵行能力。此外,由于类 CLIP 图像特征不可避免的信息损失,当前架构并不能保证完美的图像重建。但团队也把模型、数据、训练过程和经验全部分享和开源,希望促进统一模型的快速发展,欢迎社区对 Nexus-Gen 和统一理解与生成模型的技术未来进行广泛交流。
论文链接:https://arxiv.org/pdf/2504.21356
代码链接:https://github.com/modelscope/Nexus-Gen
Nexus-Gen V2 模型链接:https://www.modelscope.cn/models/DiffSynth-Studio/Nexus-GenV2
2600 万统一模型数据集链接:https://www.modelscope.cn/datasets/DiffSynth-Studio/Nexus-Gen-Training-Dataset
在线体验 Demo:https://www.modelscope.cn/studios/DiffSynth-Studio/Nexus-Gen
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见
股市配资开户.加杠网.万联配资.股票10倍杠杆平台提示:文章来自网络,不代表本站观点。