阿里智能引擎团队突破AI生图速度极限:2步生成2K高清图,5秒即现四张佳作

   时间:2026-01-30 22:25 来源:天脉网作者:钟景轩

在AI图像生成领域,扩散模型因其出色的生成效果备受关注,但传统模型生成速度慢的问题一直困扰着用户。如今,阿里智能引擎团队带来了一项重大突破——仅需5秒,就能生成4张2K级高清大图,将图像生成效率提升到了全新高度。

针对Qwen最新开源模型,该团队实现了SOTA压缩水平的巨大飞跃,将原本需要80 - 100步前向计算才能完成的图像生成,骤降至仅需2步,速度整整提升了40倍。以往像Qwen - Image生成一张图片需要近一分钟,现在眨眼间就能完成,大大节省了用户的时间。

这一成果的背后,是团队对传统蒸馏方案的深入研究和创新改进。早期的轨迹蒸馏方案,如Progressive Distillation和Consistency Distillation,主要思想是让蒸馏后的学生模型(student model)模仿原模型(teacher model)在多步生成的路径。但在实践中,这类方法在低迭代步数下难以实现高质量生成,生成的图像模糊,尤其是对于一些细节部分,如文字、人物五官等,因占比低而学习不充分,导致学生模型的细节出现明显扭曲。这是因为轨迹蒸馏直接对学生模型的生成样本做约束,对所有图像patch一视同仁,没有突出细节部分的重要性。

为了解决这一问题,团队将目光投向了基于概率空间的蒸馏方案。近期,这类方案在较少步数场景(4 - 8步)取得了巨大成功,其中DMD2算法最具影响力。DMD2将约束从样本空间转换到了概率空间,其Loss设计为典型的Reverse - KL蒸馏Loss。这种设计有一个显著特性:当学生模型生成的图片不符合真实图片分布时,Loss会爆炸。因此,DMD2算法的本质是让学生模型自己生成图片,然后由教师模型指导哪里不对,而不是直接告诉学生模型应该模仿什么。这种设计显著提升了生成图片的细节性和合理性,成为当下扩散步数蒸馏的主要策略。

然而,Reverse - KL也存在一些问题,如mode - collapse和分布过于锐化,具体表现为多样性降低、饱和度增加、形体增加等,在2步蒸馏的设定下这些问题尤为突出。为了缓解分布退化问题,团队使用PCM蒸馏进行模型热启动,给模型一个更合理的初始化。实验表明,热启动后的模型的形体扭曲问题得到明显改善。

虽然DMD2极大提升了方案的普适性,但它也有局限,即学生模型永远学习教师模型的生成分布,无法超越教师模型。同时,由于loss设计的问题,DMD2蒸馏在高质量细节纹理(如苔藓、动物毛发等)上生成的效果往往不尽如人意。为了增强2步学生模型在细节上的表现能力,团队引入了对抗学习(GAN)来进一步提升监督效果。

GAN的Loss包括生成Loss和判别Loss,生成Loss是让生成图骗过判别器,判别Loss是区分真假图。简单来说,对抗训练一方面需要判别器尽可能判定学生模型生成的图片为假,另一方面需要学生模型尽可能欺骗判别器。为了提升对抗训练的稳定性和效果,团队做了多项改进,如采用真实数据混合策略,按固定比例混合高质量真实数据和教师生成图,提升泛化度和训练稳定性;引入额外的DINO模型作为特征提取器,提供更鲁棒的特征表示;增加对抗训练在loss中的占比。经实验验证,增加对抗训练后,学生模型的画面质感和细节表现发生显著提升。

目前,团队已将相应的Checkpoint发布至HuggingFace和ModelScope平台,开发者可下载体验。同时,该模型已经集成到呜哩AI平台上,支持调用。尽管在大多数场景下Wuli - Qwen - Image - Turbo能够和原模型比肩,但在一些复杂场景下,受限于去噪步数,仍存在可改进空间。团队表示,在后续的版本中将会持续发布速度更快、效果更好的生成模型,并迭代更多扩散加速技术,开源模型权重。

 
 
更多>同类内容
全站最新
热门内容