Z-Image Edit 是阿里通义实验室(Tongyi-MAI)基于 Single-Stream DiT 架构研发的图像编辑模型。
相比 Flux 的过度艺术化和 SDXL 的结构不稳,它专注于“结构保真”与“真实照片编辑”,旨在成为开源界的 Photoshop Generative Fill。
现有的开源模型本质上是“重绘模型”,而不是真正的“编辑模型”。
Flux 追求极致的艺术风格,这导致它会“重塑”面部结构。你只是想换个背景,Flux 却根据自己的审美把模特的脸给换了,甚至改变了原本真实的照片质感(变得太像 CG)。
SDXL 的扩散范围往往难以精确控制。即使你画了 Mask,潜空间的扩散依然会影响周边区域,导致边缘模糊、光影断层,或者物体透视关系被破坏。
Z-Image 引入了Mask-constrained Diffusion。它严格区分编辑区与保护区,非 Mask 区域像素级锁死。这让它能做到“换背景但不换脸”、“换衣服颜色但不改变褶皱”。
基于官方 Roadmap 及代码结构推断,Z-Image Edit 将覆盖以下高频真实场景。
这是电商最痛的需求。不同于 SDXL 容易把物体改变形,Z-Image Edit 能保持物体的透视关系和光影一致性。比如把桌上的马克杯换成玻璃杯,它不会丢失桌面的投影。
类似魔法橡皮擦,但更智能。它能理解背景纹理,移除电线杆、乱入的行人或水印后,自动补全区域的纹理和光线,且不破坏背景结构,边缘融合度远超传统 Inpaint。
电商和自媒体神器。它能在完全锁定人物主体 (Identity Lock) 的情况下,将背景替换为“咖啡厅”或“纯色摄影棚”。发丝边缘处理自然,绝不会出现“抠图贴图感”。
利用强大的 VAE 解码能力,向四周无限延伸画面。生成的扩展区域能完美继承原图的色彩、胶片颗粒感和光照方向,没有明显的“拼接缝”。
修复老照片缺损、去除衣服污点或修补拍摄瑕疵。依靠 Mask-guided 机制,它只修改你指定的区域,绝对不会像 Flux 那样“一修图就顺便给模特整了个容”。
支持基于自然语言指令 (Instruction-based) 的微调。它不会破坏原图的几何结构(房子还是那个房子),仅仅调整色调和纹理氛围,比传统滤镜更智能。
| 维度 | Z-Image Edit (预测) | SDXL Inpaint | Flux Edit | Photoshop GF |
|---|---|---|---|---|
| 结构保真度 (Identity) | ⭐⭐⭐⭐⭐ (极强,不改脸) | ⭐⭐⭐ (易结构崩坏) | ⭐⭐⭐⭐ (易改变特征) | ⭐⭐⭐⭐⭐ |
| 中文语义理解 | ⭐⭐⭐⭐⭐ (原生双语优化) | ⭐ (基本不懂) | ⭐ (不懂中文) | ⭐⭐ (较弱) |
| 真实感 / 去AI味 | ⭐⭐⭐⭐⭐ (电商/实拍训练) | ⭐⭐⭐ (强AI涂抹感) | ⭐⭐⭐⭐ (艺术感太强) | ⭐⭐⭐⭐⭐ |
| 边缘融合自然度 | ⭐⭐⭐⭐⭐ (强 VAE 支撑) | ⭐⭐ (常见糊边) | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 开源与商用 | ✅ (Apache 2.0 预期) | ✅ | ✅ | ❌ (付费闭源) |
根据 GitHub 代码 (`model.py`, `infer.py`) 及 Turbo 表现推断,Z-Image Edit 采用了先进的混合架构来解决传统 Diffusion 编辑的不稳定性:
不同于 U-Net,Z-Image 使用 Transformer 统一处理文本、图像潜空间和噪声。这意味着它对上下文 (Context) 的理解能力极强,能完美处理“物体与背景的物理关系”。
这是解决“换背景脸变了”的关键。模型严格区分“编辑区”和“保护区”。在推理过程中,非 Mask 区域的像素被底层锁定,从根本上杜绝了对主体特征的意外修改。
Z-Image 配备的 VAE 解码器极其强大,能保留图像的微小纹理(如布料织纹、皮肤毛孔)。这避免了传统 SD Inpaint 常见的“糊边”现象,让编辑后的区域看起来像原生拍摄。
训练集包含大量电商和真实生活照(而非仅仅是 AI 生成图或插画)。这让它天生适合处理照片级任务,生成的图片光影自然,没有油腻的“AI 塑料感”。
非常适合。这是 Z-Image Edit 最大的潜在爆发点。它可以做到:1) 一键换背景,比如把杂乱背景换成高端木纹桌面;2) 颜色替换,保留材质和光影,只换颜色,快速制作多色SKU图;3) 瑕疵修补,无需 PS 技巧也能修掉衣服褶皱或灰尘。
是的。大多数 AI 模型(如 SDXL)换背景时会重绘人脸,导致“变样”。Z-Image Edit 采用了 Identity Preservation(结构保真) 技术,结合 Mask 约束,能锁定人物主体像素,只改变环境光影,非常适合小红书/IG 博主。
Z-Image Edit 的设计目标就是低 AI 味。因为它的训练数据包含大量电商实拍和生活照片,而非全是 AI 生成图。所以它生成的纹理(如皮肤毛孔、布料质感)更接近真实相机拍摄,而不是油腻的 CG 风格。
预计可以。Z-Image Turbo 已经验证了 6B 参数模型可以在消费级显卡(如 RTX 30/40 系)上流畅运行。相比商业闭源模型(如 Photoshop GF),这也是 Z-Image Edit 最大的优势之一——私有化、免费、无 API 限制。