diff --git a/docs.json b/docs.json index e0b3441f4..584dc3a54 100644 --- a/docs.json +++ b/docs.json @@ -333,6 +333,7 @@ "tutorials/utility/video-segment-sam3", "tutorials/utility/remove-background-birefnet", "tutorials/utility/moge", + "tutorials/utility/pid-latent-upscale/pid-latent-upscale", { "group": "Face Detection", "pages": [ @@ -2759,6 +2760,7 @@ "zh/tutorials/utility/video-segment-sam3", "zh/tutorials/utility/remove-background-birefnet", "zh/tutorials/utility/moge", + "zh/tutorials/utility/pid-latent-upscale/pid-latent-upscale", { "group": "人脸检测", "pages": [ @@ -5190,6 +5192,7 @@ "ja/tutorials/utility/video-segment-sam3", "ja/tutorials/utility/remove-background-birefnet", "ja/tutorials/utility/moge", + "ja/tutorials/utility/pid-latent-upscale/pid-latent-upscale", { "group": "顔検出", "pages": [ diff --git a/ja/tutorials/utility/pid-latent-upscale/pid-latent-upscale.mdx b/ja/tutorials/utility/pid-latent-upscale/pid-latent-upscale.mdx new file mode 100644 index 000000000..5a6ec4e94 --- /dev/null +++ b/ja/tutorials/utility/pid-latent-upscale/pid-latent-upscale.mdx @@ -0,0 +1,106 @@ +--- +title: "PiD 潜在空間アップスケール ComfyUI ワークフロー例" +description: "PiD(ピクセル拡散デコーダー)は、拡散モデルの潜在表現を4ステップのピクセル空間蒸留で4倍超解像画像に変換します。個別のVAEデコードは不要です。" +sidebarTitle: "PiD 潜在空間アップスケール" +--- + +import UpdateReminder from '/snippets/ja/tutorials/update-reminder.mdx' + +**PiD(ピクセル拡散デコーダー)** は、拡散モデルの **潜在表現** を 4 ステップのピクセル空間蒸留で直接 **4 倍超解像画像** に変換します。個別の VAE デコードは不要です。このワークフローでは、PiD を使用して Z-Image-Turbo の潜在表現を **1024px から 4096px** にアップスケールする方法を紹介します。 + +**関連リンク**: +- [Comfy-Org/PixelDiT Hugging Face リポジトリ](https://huggingface.co/Comfy-Org/PixelDiT) +- [nvidia/PixelDiT-1300M-1024px(公式リリース)](https://huggingface.co/nvidia/PixelDiT-1300M-1024px) + +PiD 潜在空間アップスケールワークフロー + + + + + + JSON をダウンロード、またはテンプレートライブラリで "PiD Latent Upscale" を検索 + + + +## PiD の動作原理 + +PiD は、アップストリームモデルの **VAE/潜在空間** に基づいてチェックポイントを選択します(モデル名だけでは判断しません)。初期生成に使用したモデルの VAE 潜在空間に対応する PiD チェックポイントを選択する必要があります。 + +このワークフローでは **Z-Image-Turbo**(1024px 潜在空間 → 4096px 出力)を使用します。Z-Image-Turbo は Flux.1 と同じ 16チャンネル VAE を共有しています。 + + + このワークフローはサブグラフノードを使用してモジュール化された処理を行います。サブグラフのドキュメントを参照して、ワークフローをカスタマイズおよび拡張する方法を学んでください。 + + +### 利用可能な PiD チェックポイント + +すべてのチェックポイントは [Comfy-Org/PixelDiT](https://huggingface.co/Comfy-Org/PixelDiT) からダウンロードします → `models/diffusion_models/`。 + +| チェックポイント | 入力 → 出力 | 互換性のある潜在空間(VAE バックボーン) | +|---|---|---| +| [`pid_flux1_512_to_2048_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_flux1_512_to_2048_4step_bf16.safetensors) | 512 → 2048 | Flux1-dev 16-ch VAE(Flux.1, Z-Image) | +| [`pid_flux1_1024_to_4096_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_flux1_1024_to_4096_4step_bf16.safetensors) | 1024 → 4096 | Flux1-dev 16-ch VAE(Flux.1, Z-Image)**(本ワークフロー)** | +| [`pid_flux2_512_to_2048_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_flux2_512_to_2048_4step_bf16.safetensors) | 512 → 2048 | Flux2-dev 128-ch VAE(Flux.2) | +| [`pid_flux2_1024_to_4096_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_flux2_1024_to_4096_4step_bf16.safetensors) | 1024 → 4096 | Flux2-dev 128-ch VAE(Flux.2) | +| [`pid_sd3_512_to_2048_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_sd3_512_to_2048_4step_bf16.safetensors) | 512 → 2048 | SD3 medium 16-ch VAE | +| [`pid_sd3_1024_to_4096_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_sd3_1024_to_4096_4step_bf16.safetensors) | 1024 → 4096 | SD3 medium 16-ch VAE | + +### サブグラフ設定 + +**Latent Upscale Decode (PiD)** サブグラフノードで以下のパラメータを設定します: + +| パラメータ | 値 | 説明 | +|---|---|---| +| `latent_format` | `flux` | `flux` は Flux.1/Flux.2/Z-Image、`sd3` は SD3 用(Flux.2 は 128 チャンネルで自動検出) | +| `degrade_sigma` | `0.0` | 入力潜在表現の「完成度」。`0.0` は完全ノイズ除去済み(デフォルト)、`0.1–0.8` は部分ノイズ除去、`1.0` は純粋ノイズ | + +### 実行手順 + +1. **潜在表現を生成** — T2I ワークフロー(例:Z-Image-Turbo)で潜在画像を生成 +2. **PiD に接続** — 潜在表現を **Latent Upscale Decode (PiD)** サブグラフノードに入力 +3. **チェックポイントを選択** — アップストリームモデルの VAE 潜在空間に一致する PiD チェックポイントを選択 +4. **出力サイズを設定** — PiD の出力サイズを入力潜在解像度の **4倍** に設定 +5. **実行** — サブグラフが 1 回の 4 ステップ推論でデコードと超解像を実行 + +## モデルダウンロード + +PiD は PixelDiT モデルファミリーの一部です。このワークフローでは初期生成に Z-Image-Turbo モデルも必要です。 + + + + pid_flux1_1024_to_4096_4step_bf16.safetensors — Flux.1 / Z-Image 潜在空間用 PiD チェックポイント + + + z_image_turbo_bf16.safetensors — PiD アップスケール前の初期生成に使用 + + + + + + qwen_3_4b.safetensors — Z-Image-Turbo テキストエンコーダー + + + ae.safetensors — Z-Image-Turbo の VAE + + + +> PiD は内蔵の **pixel_space** VAE を使用するため、PiD 自体に別途 VAE ファイルは不要です。 + +### モデル保存場所 + +``` +📂 ComfyUI/ +├── 📂 models/ +│ ├── 📂 text_encoders/ +│ │ └── qwen_3_4b.safetensors +│ ├── 📂 diffusion_models/ +│ │ ├── pid_flux1_1024_to_4096_4step_bf16.safetensors +│ │ └── z_image_turbo_bf16.safetensors +│ └── 📂 vae/ +│ └── ae.safetensors +``` + + +### サンプル出力 + +PiD サンプル出力 diff --git a/tutorials/utility/pid-latent-upscale/pid-latent-upscale.mdx b/tutorials/utility/pid-latent-upscale/pid-latent-upscale.mdx new file mode 100644 index 000000000..af5e833d6 --- /dev/null +++ b/tutorials/utility/pid-latent-upscale/pid-latent-upscale.mdx @@ -0,0 +1,106 @@ +--- +title: "PiD Latent Upscale ComfyUI Workflow Example" +description: "PiD (Pixel Diffusion Decoder) turns a diffusion latent into a 4× super-resolved image in 4 distilled pixel-space steps — no separate VAE decode needed." +sidebarTitle: "PiD Latent Upscale" +--- + +import UpdateReminder from '/snippets/tutorials/update-reminder.mdx' + +**PiD (Pixel Diffusion Decoder)** turns a diffusion **latent** into a **4× super-resolved image** in 4 distilled pixel-space steps — no separate VAE decode needed. This workflow demonstrates using PiD to upscale a Z-Image-Turbo latent from **1024px → 4096px**. + +**Related Links**: +- [Comfy-Org/PixelDiT on Hugging Face](https://huggingface.co/Comfy-Org/PixelDiT) +- [nvidia/PixelDiT-1300M-1024px (official release)](https://huggingface.co/nvidia/PixelDiT-1300M-1024px) + +PiD Latent Upscale workflow + + + + + + Download JSON or search "PiD Latent Upscale" in Template Library + + + +## How PiD works + +PiD matches checkpoints by the **VAE / latent space** of the upstream model (the encoder side), not the diffusion model name alone. You need to select the PiD checkpoint that corresponds to the latent space of the model used for initial generation. + +This workflow uses **Z-Image-Turbo** (1024px latent → 4096px output) which shares Flux.1's 16-ch VAE. + + + This workflow uses Subgraph nodes for modular processing. Check out the Subgraph documentation to learn how to customize and extend the workflow. + + +### Available PiD checkpoints + +All checkpoints are downloaded from [Comfy-Org/PixelDiT](https://huggingface.co/Comfy-Org/PixelDiT) → `models/diffusion_models/`. + +| Checkpoint | Input → Output | Compatible latent (VAE backbone) | +|---|---|---| +| [`pid_flux1_512_to_2048_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_flux1_512_to_2048_4step_bf16.safetensors) | 512 → 2048 | Flux1-dev 16-ch VAE (Flux.1, Z-Image) | +| [`pid_flux1_1024_to_4096_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_flux1_1024_to_4096_4step_bf16.safetensors) | 1024 → 4096 | Flux1-dev 16-ch VAE (Flux.1, Z-Image) **(this workflow)** | +| [`pid_flux2_512_to_2048_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_flux2_512_to_2048_4step_bf16.safetensors) | 512 → 2048 | Flux2-dev 128-ch VAE (Flux.2) | +| [`pid_flux2_1024_to_4096_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_flux2_1024_to_4096_4step_bf16.safetensors) | 1024 → 4096 | Flux2-dev 128-ch VAE (Flux.2) | +| [`pid_sd3_512_to_2048_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_sd3_512_to_2048_4step_bf16.safetensors) | 512 → 2048 | SD3 medium 16-ch VAE | +| [`pid_sd3_1024_to_4096_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_sd3_1024_to_4096_4step_bf16.safetensors) | 1024 → 4096 | SD3 medium 16-ch VAE | + +### Subgraph settings + +Configure these on the **Latent Upscale Decode (PiD)** subgraph: + +| Setting | Value | Description | +|---|---|---| +| `latent_format` | `flux` | `flux` for Flux.1/Flux.2/Z-Image, `sd3` for SD3 (Flux.2 is auto-detected by 128 channels) | +| `degrade_sigma` | `0.0` | How "finished" the input latent is. `0.0` for fully denoised (default), `0.1–0.8` for partially denoised, `1.0` for pure noise | + +### Steps to run + +1. **Generate a latent** — use a T2I workflow (e.g., Z-Image-Turbo) to produce a latent image +2. **Connect to PiD** — feed the latent into the **Latent Upscale Decode (PiD)** subgraph node +3. **Select checkpoint** — choose the PiD checkpoint matching your upstream model's VAE latent space +4. **Set output size** — set PiD output size to **4×** the input latent resolution +5. **Run** — the subgraph decodes and upscales in a single 4-step pass + +## Model downloads + +PiD is part of the PixelDiT model family. This workflow also requires the Z-Image-Turbo model for initial generation. + + + + pid_flux1_1024_to_4096_4step_bf16.safetensors — PiD checkpoint for Flux.1 / Z-Image latent space + + + z_image_turbo_bf16.safetensors — used for initial generation before PiD upscale + + + + + + qwen_3_4b.safetensors — text encoder for Z-Image-Turbo + + + ae.safetensors — VAE for Z-Image-Turbo + + + +> PiD uses a built-in **pixel_space** VAE — no separate VAE file is needed for PiD itself. + +### Model storage location + +``` +📂 ComfyUI/ +├── 📂 models/ +│ ├── 📂 text_encoders/ +│ │ └── qwen_3_4b.safetensors +│ ├── 📂 diffusion_models/ +│ │ ├── pid_flux1_1024_to_4096_4step_bf16.safetensors +│ │ └── z_image_turbo_bf16.safetensors +│ └── 📂 vae/ +│ └── ae.safetensors +``` + + +### Sample output + +PiD sample output diff --git a/zh/tutorials/utility/pid-latent-upscale/pid-latent-upscale.mdx b/zh/tutorials/utility/pid-latent-upscale/pid-latent-upscale.mdx new file mode 100644 index 000000000..8a5898dd5 --- /dev/null +++ b/zh/tutorials/utility/pid-latent-upscale/pid-latent-upscale.mdx @@ -0,0 +1,106 @@ +--- +title: "PiD 潜空间超分 ComfyUI 工作流示例" +description: "PiD(像素扩散解码器)可将扩散模型的潜空间张量在 4 步像素空间蒸馏中直接 4 倍超分辨率解码为图像,无需单独的 VAE 解码。" +sidebarTitle: "PiD 潜空间超分" +--- + +import UpdateReminder from '/snippets/zh/tutorials/update-reminder.mdx' + +**PiD(像素扩散解码器)** 可将扩散模型的 **潜空间张量** 在 4 步像素空间蒸馏中直接 **4 倍超分辨率解码** 为图像,无需单独的 VAE 解码。此工作流演示了使用 PiD 将 Z-Image-Turbo 的潜空间从 **1024px 放大到 4096px**。 + +**相关链接**: +- [Comfy-Org/PixelDiT Hugging Face 仓库](https://huggingface.co/Comfy-Org/PixelDiT) +- [nvidia/PixelDiT-1300M-1024px(官方发布)](https://huggingface.co/nvidia/PixelDiT-1300M-1024px) + +PiD 潜空间超分工作流 + + + + + + 下载 JSON 或在模板库中搜索 "PiD Latent Upscale" + + + +## PiD 工作原理 + +PiD 通过上游模型的 **VAE/潜空间** 来匹配合适的检查点,而不仅仅通过模型名称。你需要根据初始生成所使用的模型,选择对应的 PiD 检查点。 + +此工作流使用 **Z-Image-Turbo**(1024px 潜空间 → 4096px 输出),它与 Flux.1 共享 16 通道 VAE。 + + + 本工作流使用子图节点进行模块化处理。查看子图文档了解如何自定义和扩展工作流。 + + +### 可用的 PiD 检查点 + +所有检查点从 [Comfy-Org/PixelDiT](https://huggingface.co/Comfy-Org/PixelDiT) 下载 → `models/diffusion_models/`。 + +| 检查点 | 输入 → 输出 | 兼容潜空间(VAE 骨干) | +|---|---|---| +| [`pid_flux1_512_to_2048_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_flux1_512_to_2048_4step_bf16.safetensors) | 512 → 2048 | Flux1-dev 16-ch VAE(Flux.1, Z-Image) | +| [`pid_flux1_1024_to_4096_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_flux1_1024_to_4096_4step_bf16.safetensors) | 1024 → 4096 | Flux1-dev 16-ch VAE(Flux.1, Z-Image)**(本工作流)** | +| [`pid_flux2_512_to_2048_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_flux2_512_to_2048_4step_bf16.safetensors) | 512 → 2048 | Flux2-dev 128-ch VAE(Flux.2) | +| [`pid_flux2_1024_to_4096_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_flux2_1024_to_4096_4step_bf16.safetensors) | 1024 → 4096 | Flux2-dev 128-ch VAE(Flux.2) | +| [`pid_sd3_512_to_2048_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_sd3_512_to_2048_4step_bf16.safetensors) | 512 → 2048 | SD3 medium 16-ch VAE | +| [`pid_sd3_1024_to_4096_4step_bf16`](https://huggingface.co/Comfy-Org/PixelDiT/resolve/main/diffusion_models/pid_sd3_1024_to_4096_4step_bf16.safetensors) | 1024 → 4096 | SD3 medium 16-ch VAE | + +### 子图设置 + +在 **Latent Upscale Decode (PiD)** 子图节点上配置以下参数: + +| 参数 | 值 | 说明 | +|---|---|---| +| `latent_format` | `flux` | `flux` 对应 Flux.1/Flux.2/Z-Image,`sd3` 对应 SD3(Flux.2 通过 128 通道自动检测) | +| `degrade_sigma` | `0.0` | 输入潜空间的"完成度"。`0.0` 为完全去噪(默认),`0.1–0.8` 为部分去噪,`1.0` 为纯噪声 | + +### 运行步骤 + +1. **生成潜空间** — 使用文生图工作流(如 Z-Image-Turbo)生成潜空间图像 +2. **连接到 PiD** — 将潜空间输入到 **Latent Upscale Decode (PiD)** 子图节点 +3. **选择检查点** — 选择与上游模型 VAE 潜空间匹配的 PiD 检查点 +4. **设置输出尺寸** — 将 PiD 输出尺寸设为输入潜空间分辨率的 **4 倍** +5. **运行** — 子图在单次 4 步推理中完成解码和超分 + +## 模型下载 + +PiD 属于 PixelDiT 模型系列。此工作流还需要 Z-Image-Turbo 模型进行初始生成。 + + + + pid_flux1_1024_to_4096_4step_bf16.safetensors — Flux.1 / Z-Image 潜空间对应的 PiD 检查点 + + + z_image_turbo_bf16.safetensors — 用于 PiD 超分前的初始生成 + + + + + + qwen_3_4b.safetensors — Z-Image-Turbo 文本编码器 + + + ae.safetensors — Z-Image-Turbo 的 VAE + + + +> PiD 使用内置的 **pixel_space** VAE,无需单独的 VAE 文件。 + +### 模型存放位置 + +``` +📂 ComfyUI/ +├── 📂 models/ +│ ├── 📂 text_encoders/ +│ │ └── qwen_3_4b.safetensors +│ ├── 📂 diffusion_models/ +│ │ ├── pid_flux1_1024_to_4096_4step_bf16.safetensors +│ │ └── z_image_turbo_bf16.safetensors +│ └── 📂 vae/ +│ └── ae.safetensors +``` + + +### 示例输出 + +PiD 示例输出