官方代码结构已现 · 等待权重发布 · S3-DiT 架构

不仅是生成，更是
精准可控的图像编辑

Z-Image Edit 是阿里通义实验室（Tongyi-MAI）基于 Single-Stream DiT 架构研发的图像编辑模型。
相比 Flux 的过度艺术化和 SDXL 的结构不稳，它专注于“结构保真”与“真实照片编辑”，旨在成为开源界的 Photoshop Generative Fill。

S3-DiT 架构

统一潜空间建模

6B 参数量

消费级显卡可跑

中英双语

原生中文指令理解

电商级真实

实拍数据微调

为什么我们需要 Z-Image Edit？

现有的开源模型本质上是“重绘模型”，而不是真正的“编辑模型”。

Flux Edit 的问题：乱改人脸

Flux 追求极致的艺术风格，这导致它会“重塑”面部结构。你只是想换个背景，Flux 却根据自己的审美把模特的脸给换了，甚至改变了原本真实的照片质感（变得太像 CG）。

SDXL Inpaint 的问题：结构崩坏

SDXL 的扩散范围往往难以精确控制。即使你画了 Mask，潜空间的扩散依然会影响周边区域，导致边缘模糊、光影断层，或者物体透视关系被破坏。

Z-Image Edit 的解法：结构锁死

Z-Image 引入了Mask-constrained Diffusion。它严格区分编辑区与保护区，非 Mask 区域像素级锁死。这让它能做到“换背景但不换脸”、“换衣服颜色但不改变褶皱”。

Capabilities

六大核心玩法预测

基于官方 Roadmap 及代码结构推断，Z-Image Edit 将覆盖以下高频真实场景。

物体替换 (Object Replace)

"把白鞋换成蓝鞋，但保留鞋面褶皱。"

这是电商最痛的需求。不同于 SDXL 容易把物体改变形，Z-Image Edit 能保持物体的透视关系和光影一致性。比如把桌上的马克杯换成玻璃杯，它不会丢失桌面的投影。

一键去路人 (Object Remove)

"Remove Anything. Keep Everything Else Untouched."

类似魔法橡皮擦，但更智能。它能理解背景纹理，移除电线杆、乱入的行人或水印后，自动补全区域的纹理和光线，且不破坏背景结构，边缘融合度远超传统 Inpaint。

背景更换 (Background Swap)

"人脸不变，只换环境。"

电商和自媒体神器。它能在完全锁定人物主体 (Identity Lock) 的情况下，将背景替换为“咖啡厅”或“纯色摄影棚”。发丝边缘处理自然，绝不会出现“抠图贴图感”。

智能扩图 (Outpainting)

"把 4:5 的照片扩展为 16:9 的壁纸。"

利用强大的 VAE 解码能力，向四周无限延伸画面。生成的扩展区域能完美继承原图的色彩、胶片颗粒感和光照方向，没有明显的“拼接缝”。

局部修复 (Inpainting Pro)

"修复老照片折痕，不给模特换脸。"

修复老照片缺损、去除衣服污点或修补拍摄瑕疵。依靠 Mask-guided 机制，它只修改你指定的区域，绝对不会像 Flux 那样“一修图就顺便给模特整了个容”。

氛围与风格调整

"让画面看起来更像黄昏。"

支持基于自然语言指令 (Instruction-based) 的微调。它不会破坏原图的几何结构（房子还是那个房子），仅仅调整色调和纹理氛围，比传统滤镜更智能。

深度对比：为什么选择 Z-Image Edit？

维度	Z-Image Edit (预测)	SDXL Inpaint	Flux Edit	Photoshop GF
结构保真度 (Identity)	⭐⭐⭐⭐⭐ (极强，不改脸)	⭐⭐⭐ (易结构崩坏)	⭐⭐⭐⭐ (易改变特征)	⭐⭐⭐⭐⭐
中文语义理解	⭐⭐⭐⭐⭐ (原生双语优化)	⭐ (基本不懂)	⭐ (不懂中文)	⭐⭐ (较弱)
真实感 / 去AI味	⭐⭐⭐⭐⭐ (电商/实拍训练)	⭐⭐⭐ (强AI涂抹感)	⭐⭐⭐⭐ (艺术感太强)	⭐⭐⭐⭐⭐
边缘融合自然度	⭐⭐⭐⭐⭐ (强 VAE 支撑)	⭐⭐ (常见糊边)	⭐⭐⭐	⭐⭐⭐⭐⭐
开源与商用	✅ (Apache 2.0 预期)	✅	✅	❌ (付费闭源)

Technical Deep Dive

技术揭秘：它是如何工作的？

根据 GitHub 代码 (`model.py`, `infer.py`) 及 Turbo 表现推断，Z-Image Edit 采用了先进的混合架构来解决传统 Diffusion 编辑的不稳定性：

1

Single-Stream DiT 架构

不同于 U-Net，Z-Image 使用 Transformer 统一处理文本、图像潜空间和噪声。这意味着它对上下文 (Context) 的理解能力极强，能完美处理“物体与背景的物理关系”。
2

Mask-constrained Diffusion (硬约束)

这是解决“换背景脸变了”的关键。模型严格区分“编辑区”和“保护区”。在推理过程中，非 Mask 区域的像素被底层锁定，从根本上杜绝了对主体特征的意外修改。
3

高质量 VAE (纹理保留)

Z-Image 配备的 VAE 解码器极其强大，能保留图像的微小纹理（如布料织纹、皮肤毛孔）。这避免了传统 SD Inpaint 常见的“糊边”现象，让编辑后的区域看起来像原生拍摄。
4

真实数据微调 (去 AI 味)

训练集包含大量电商和真实生活照（而非仅仅是 AI 生成图或插画）。这让它天生适合处理照片级任务，生成的图片光影自然，没有油腻的“AI 塑料感”。

z_image_edit/inference_mock.py

from tongyi_mai import ZImageEdit

# 1. Load Model (6B Params)

model = ZImageEdit.load("z-image-edit-v1")

# 2. Define Task: Change Color, Keep Texture

result = model.edit(

image=input_img,

mask=cloth_mask,

prompt="把T恤换成米白色，保留布料褶皱",

strength=0.85,

identity_lock=True # 关键：锁定非编辑区

)

result.save("output_ecommerce.png")

常见问题 (FAQ)

Z-Image Edit 适合电商卖家吗？对商品图片有帮助吗？

非常适合。这是 Z-Image Edit 最大的潜在爆发点。它可以做到：1) 一键换背景，比如把杂乱背景换成高端木纹桌面；2) 颜色替换，保留材质和光影，只换颜色，快速制作多色SKU图；3) 瑕疵修补，无需 PS 技巧也能修掉衣服褶皱或灰尘。

它真的能做到“换背景不换脸”吗？

是的。大多数 AI 模型（如 SDXL）换背景时会重绘人脸，导致“变样”。Z-Image Edit 采用了 Identity Preservation（结构保真） 技术，结合 Mask 约束，能锁定人物主体像素，只改变环境光影，非常适合小红书/IG 博主。

编辑之后的照片会不会有“AI味”？

Z-Image Edit 的设计目标就是低 AI 味。因为它的训练数据包含大量电商实拍和生活照片，而非全是 AI 生成图。所以它生成的纹理（如皮肤毛孔、布料质感）更接近真实相机拍摄，而不是油腻的 CG 风格。

可以本地部署吗？配置要求高吗？

预计可以。Z-Image Turbo 已经验证了 6B 参数模型可以在消费级显卡（如 RTX 30/40 系）上流畅运行。相比商业闭源模型（如 Photoshop GF），这也是 Z-Image Edit 最大的优势之一——私有化、免费、无 API 限制。

不仅是生成，更是 精准可控的图像编辑