From 032180bb734828d620630385a7f3e2e8689ce84a Mon Sep 17 00:00:00 2001
From: zR <2448370773@qq.com>
Date: Fri, 9 Aug 2024 20:36:17 +0800
Subject: [PATCH] update vae demo
---
README_ja.md | 66 ++++++++++++++++++-----------
inference/cli_demo.py | 18 ++++----
inference/encoded.pt | Bin 0 -> 2247580 bytes
inference/gradio_web_demo.py | 79 +++++++++++++++++++----------------
sat/README_ja.md | 17 +++++---
sat/README_zh.md | 1 -
6 files changed, 105 insertions(+), 76 deletions(-)
create mode 100644 inference/encoded.pt
diff --git a/README_ja.md b/README_ja.md
index f697e48..de7dabf 100644
--- a/README_ja.md
+++ b/README_ja.md
@@ -21,10 +21,13 @@
## 更新とニュース
-- 🔥 **ニュース**: ```2024/8/7```: CogVideoX は `diffusers` バージョン 0.30.0 に統合されました。単一の 3090 GPU で推論を実行できます。詳細については [コード](inference/cli_demo.py) を参照してください。
+- 🔥 **ニュース**: ```2024/8/7```: CogVideoX は `diffusers` バージョン 0.30.0 に統合されました。単一の 3090 GPU
+ で推論を実行できます。詳細については [コード](inference/cli_demo.py) を参照してください。
- 🔥 **ニュース**: ```2024/8/6```: **CogVideoX-2B** で使用される **3D Causal VAE** もオープンソース化しました。これにより、ビデオをほぼ無損失で再構築できます。
- 🔥 **ニュース**: ```2024/8/6```: **CogVideoX-2B**、CogVideoXシリーズのビデオ生成モデルの最初のモデルをオープンソース化しました。
-- 🌱 **ソース**: ```2022/5/19```: **CogVideo** (現在 `CogVideo` ブランチで確認できます) をオープンソース化しました。これは、最初のオープンソースの事前学習済みテキストからビデオ生成モデルであり、技術的な詳細については [ICLR'23 CogVideo 論文](https://arxiv.org/abs/2205.15868) をご覧ください。
+- 🌱 **ソース**: ```2022/5/19```: **CogVideo** (現在 `CogVideo` ブランチで確認できます)
+ をオープンソース化しました。これは、最初のオープンソースの事前学習済みテキストからビデオ生成モデルであり、技術的な詳細については [ICLR'23 CogVideo 論文](https://arxiv.org/abs/2205.15868)
+ をご覧ください。
**より強力なモデルが、より大きなパラメータサイズで登場予定です。お楽しみに!**
@@ -50,11 +53,13 @@
### プロンプトの最適化
-モデルを実行する前に、[このガイド](inference/convert_demo.py) を参照して、GLM-4 モデルを使用してプロンプトを最適化する方法を確認してください。これは重要です。モデルは長いプロンプトでトレーニングされているため、良いプロンプトは生成されるビデオの品質に直接影響します。
+モデルを実行する前に、[こちら](inference/convert_demo.py)
+を参考にして、GLM-4(または同等の製品、例えばGPT-4)の大規模モデルを使用してどのようにモデルを最適化するかをご確認ください。これは非常に重要です。モデルは長いプロンプトでトレーニングされているため、良いプロンプトがビデオ生成の品質に直接影響を与えます。
### SAT
-[sat_demo](sat/README.md) の指示に従ってください: SATウェイトの推論コードと微調整コードが含まれています。CogVideoXモデル構造に基づいて改善することをお勧めします。革新的な研究者は、このコードを使用して迅速なスタッキングと開発を行うことができます。
+[sat_demo](sat/README.md) の指示に従ってください:
+SATウェイトの推論コードと微調整コードが含まれています。CogVideoXモデル構造に基づいて改善することをお勧めします。革新的な研究者は、このコードを使用して迅速なスタッキングと開発を行うことができます。
(推論には18GB、lora微調整には40GBが必要です)
### Diffusers
@@ -94,19 +99,26 @@ CogVideoXは、[清影](https://chatglm.cn/video?fr=osm_cogvideox) と同源の
以下の表は、現在提供しているビデオ生成モデルのリストと関連する基本情報を示しています:
-| モデル名 | CogVideoX-2B |
-|-------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
-| プロンプト言語 | 英語 |
-| 単一GPU推論 (FP16) | 18GB using [SAT](https://github.com/THUDM/SwissArmyTransformer)
23.9GB using diffusers |
+| モデル名 | CogVideoX-2B |
+|------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+| プロンプト言語 | 英語 |
+| 単一GPU推論 (FP16) | 18GB using [SAT](https://github.com/THUDM/SwissArmyTransformer)
23.9GB using diffusers |
| 複数GPU推論 (FP16) | 20GB minimum per GPU using diffusers |
-| 微調整に必要なGPUメモリ(bs=1) | 40GB |
-| プロンプトの最大長 | 226 トークン |
-| ビデオの長さ | 6秒 |
-| フレームレート | 8フレーム |
-| 解像度 | 720 * 480 |
-| 量子化推論 | サポートされていません |
-| ダウンロードリンク (HF diffusers モデル) | 🤗 [Huggingface](https://huggingface.co/THUDM/CogVideoX-2B) [🤖 ModelScope](https://modelscope.cn/models/ZhipuAI/CogVideoX-2b) [💫 WiseModel](https://wisemodel.cn/models/ZhipuAI/CogVideoX-2b) |
-| ダウンロードリンク (SAT モデル) | [SAT](./sat/README.md) |
+| 微調整に必要なGPUメモリ(bs=1) | 40GB |
+| プロンプトの最大長 | 226 トークン |
+| ビデオの長さ | 6秒 |
+| フレームレート | 8フレーム |
+| 解像度 | 720 * 480 |
+| 量子化推論 | サポートされていません |
+| ダウンロードリンク (HF diffusers モデル) | 🤗 [Huggingface](https://huggingface.co/THUDM/CogVideoX-2B) [🤖 ModelScope](https://modelscope.cn/models/ZhipuAI/CogVideoX-2b) [💫 WiseModel](https://wisemodel.cn/models/ZhipuAI/CogVideoX-2b) |
+| ダウンロードリンク (SAT モデル) | [SAT](./sat/README.md) |
+
+## 友好的リンク
+
+コミュニティからの貢献を大歓迎し、私たちもオープンソースコミュニティに積極的に貢献しています。以下の作品はすでにCogVideoXに対応しており、ぜひご利用ください:
+
++ [Xorbits Inference](https://github.com/xorbitsai/inference):
+ 強力で包括的な分散推論フレームワークであり、ワンクリックで独自のモデルや最新のオープンソースモデルを簡単にデプロイできます。
## プロジェクト構造
@@ -116,14 +128,17 @@ CogVideoXは、[清影](https://chatglm.cn/video?fr=osm_cogvideox) と同源の
+ [diffusers_demo](inference/cli_demo.py): 推論コードの詳細な説明が含まれており、一般的なパラメータの意味についても言及しています。
+ [diffusers_vae_demo](inference/cli_vae_demo.py): VAE推論コードの実行には現在71GBのメモリが必要ですが、将来的には最適化される予定です。
-+ [convert_demo](inference/convert_demo.py): ユーザー入力をCogVideoXに適した形式に変換する方法。CogVideoXは長いキャプションでトレーニングされているため、入力テキストをLLMを使用してトレーニング分布と一致させる必要があります。デフォルトではGLM4を使用しますが、GPT、Geminiなどの他のLLMに置き換えることもできます。
-+ [gradio_web_demo](inference/gradio_web_demo.py): CogVideoX-2Bモデルを使用してビデオを生成する方法を示すシンプルなgradio Web UI。
++ [convert_demo](inference/convert_demo.py):
+ ユーザー入力をCogVideoXに適した形式に変換する方法。CogVideoXは長いキャプションでトレーニングされているため、入力テキストをLLMを使用してトレーニング分布と一致させる必要があります。デフォルトではGLM4を使用しますが、GPT、Geminiなどの他のLLMに置き換えることもできます。
++ [gradio_web_demo](inference/gradio_web_demo.py): CogVideoX-2Bモデルを使用してビデオを生成する方法を示すシンプルなgradio
+ Web UI。
oq1jt+ns7$
ziT+>~2&Se<9h&aPvo*1LZu0kJ@q=luA@7_Pwb4daXoJ4N5dWe1WEx2Z6sdWcKwtS!
z-}>17gMFef&yItxGYx96tmtVC3d~CAliH&?Jmm(NPN;$M1w&9#jt^#_0NNhBbz%5H
zI`pw26xV@UkKX#4rVXwHhf#?hLtS|Qz2#gKjdKx#t)_3=LXH~j7xRAfTgxI4Ydb9a
z4_-H$8Rd96tEFKyKk6jZeb3!ORuU66*I;np3!R3SD5|7I?iKcr5!^!on-o1*a+GTY
zv1M^Ss-aD)gdXf5YJqq`QLS$J$S8W6vnZ`*pmH69-l`P6;WkuO`|!x^V5R}EZbS8f
zCM`CSwXQ=EyOPx(;hq xskpP9WJxPdhv`Y
z7nNi-5y(`G%$9-=u@ao#AKz4nnn*RG+L^>2|H*wiCvzAk5?kb#+mLA{%9~ro0r`dr
zcuJn62H;PIGMPS!mPkz#bbl9Lqf}F3_ewevzGr835-Zk59i-m!T!!e~$VPL#PiF~J
zQP038jwJ%jBO=5CQ1Nr%)8)i8yiR{HP4B^bx{!;!2JN{AH*=13Dka`iG01Co1gY#+
z5s8+YGt<~`(oIqJR6^xYlD-~|
zq6`9A{|RD!jC!s+9b7Ex;yi5)HoBz4<!`t^Hk3qr+Rv+G{eg7-utsBn&Y#-0tTT
z%b4I1J;W^(csF1e;^Tv9m`
!dF
zAvHCSlciu}ZRAFFr
waw5R9=-1#IFtrLjfJ3SJ6+DA67shpU_=1cOMKbl9+4)
zHLuLb^&