From 0c6dc7b5d5bf829ebc6e204e96a3aa9b06c94da4 Mon Sep 17 00:00:00 2001 From: zR <2448370773@qq.com> Date: Fri, 8 Nov 2024 21:37:43 +0800 Subject: [PATCH] fix #472 --- README.md | 47 +++++++++++++------------ README_ja.md | 63 +++++++++++++++++----------------- README_zh.md | 36 +++++++++---------- sat/dit_video_concat.py | 1 - sat/inference.sh | 2 +- sat/vae_modules/autoencoder.py | 38 ++++++++++---------- 6 files changed, 90 insertions(+), 97 deletions(-) diff --git a/README.md b/README.md index 0bc7173..9f8122e 100644 --- a/README.md +++ b/README.md @@ -171,49 +171,49 @@ models we currently offer, along with their foundational information.
Model Name | +CogVideoX1.5-5B (Latest) | +CogVideoX1.5-5B-I2V (Latest) | CogVideoX-2B | CogVideoX-5B | CogVideoX-5B-I2V | -CogVideoX1.5-5B | -CogVideoX1.5-5B-I2V | ||||
---|---|---|---|---|---|---|---|---|---|---|---|
Release Date | +November 8, 2024 | +November 8, 2024 | August 6, 2024 | August 27, 2024 | September 19, 2024 | -November 8, 2024 | -November 8, 2024 | ||||
Video Resolution | -720 * 480 | 1360 * 768 | -256 <= W <=1360 256 <= H <=768 W,H % 16 == 0 |
+ 256 <= W <=1360 256 <= H <=768 W,H % 16 == 0 |
+ 720 * 480 | ||||||
Inference Precision | -FP16*(recommended), BF16, FP32, FP8*, INT8, not supported: INT4 | -BF16(recommended), FP16, FP32, FP8*, INT8, not supported: INT4 | BF16 | +FP16*(Recommended), BF16, FP32, FP8*, INT8, Not supported: INT4 | +BF16 (Recommended), FP16, FP32, FP8*, INT8, Not supported: INT4 | ||||||
Single GPU Memory Usage | -SAT FP16: 18GB diffusers FP16: from 4GB* diffusers INT8(torchao): from 3.6GB* |
- SAT BF16: 26GB diffusers BF16 : from 5GB* diffusers INT8(torchao): from 4.4GB* |
- SAT BF16: 66GB |
+ Single GPU Memory Usage |
+ SAT BF16: 66GB |
+ SAT FP16: 18GB diffusers FP16: 4GB minimum* diffusers INT8 (torchao): 3.6GB minimum* |
+ SAT BF16: 26GB diffusers BF16 : 5GB minimum* diffusers INT8 (torchao): 4.4GB minimum* |
||||
Multi-GPU Memory Usage | +Not Supported |
FP16: 10GB* using diffusers |
BF16: 15GB* using diffusers |
- Not supported |
|||||||
Inference Speed (Step = 50, FP/BF16) |
+ Single A100: ~1000 seconds (5-second video) Single H100: ~550 seconds (5-second video) |
Single A100: ~90 seconds Single H100: ~45 seconds |
Single A100: ~180 seconds Single H100: ~90 seconds |
- Single A100: ~1000 seconds (5-second video) Single H100: ~550 seconds (5-second video) |
|||||||
Prompt Language | @@ -221,38 +221,37 @@ models we currently offer, along with their foundational information.|||||||||||
Prompt Token Limit | -226 Tokens | 224 Tokens | +226 Tokens | ||||||||
Video Length | +5 seconds or 10 seconds | 6 seconds | -5 or 10 seconds | ||||||||
Frame Rate | -8 frames / second | -16 frames / second | +16 frames / second | +8 frames / second | |||||||
Positional Encoding | -3d_sincos_pos_embed | +Position Encoding | +3d_rope_pos_embed | +3d_sincos_pos_embed | 3d_rope_pos_embed | 3d_rope_pos_embed + learnable_pos_embed | -3d_rope_pos_embed | -3d_rope_pos_embed | |||
Download Link (Diffusers) | +Coming Soon | 🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
- Coming Soon | ||||||
Download Link (SAT) | -SAT | 🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
+ SAT |
モデル名 | +CogVideoX1.5-5B (最新) | +CogVideoX1.5-5B-I2V (最新) | CogVideoX-2B | CogVideoX-5B | CogVideoX-5B-I2V | -CogVideoX1.5-5B | -CogVideoX1.5-5B-I2V | ||||
---|---|---|---|---|---|---|---|---|---|---|---|
リリース日 | +公開日 | +2024年11月8日 | +2024年11月8日 | 2024年8月6日 | 2024年8月27日 | 2024年9月19日 | -2024年11月8日 | -2024年11月8日 | |||
ビデオ解像度 | -720 * 480 | 1360 * 768 | -256 <= W <=1360 256 <= H <=768 W,H % 16 == 0 |
+ 256 <= W <=1360 256 <= H <=768 W,H % 16 == 0 |
+ 720 * 480 | ||||||
推論精度 | -FP16*(推奨), BF16, FP32, FP8*, INT8, INT4は非対応 | -BF16(推奨), FP16, FP32, FP8*, INT8, INT4は非対応 | BF16 | +FP16*(推奨), BF16, FP32,FP8*,INT8,INT4非対応 | +BF16(推奨), FP16, FP32,FP8*,INT8,INT4非対応 | ||||||
シングルGPUメモリ消費 | -SAT FP16: 18GB diffusers FP16: 4GBから* diffusers INT8(torchao): 3.6GBから* |
- SAT BF16: 26GB diffusers BF16: 5GBから* diffusers INT8(torchao): 4.4GBから* |
- SAT BF16: 66GB |
+ 単一GPUメモリ消費量 |
+ SAT BF16: 66GB |
+ SAT FP16: 18GB diffusers FP16: 4GB以上* diffusers INT8(torchao): 3.6GB以上* |
+ SAT BF16: 26GB diffusers BF16 : 5GB以上* diffusers INT8(torchao): 4.4GB以上* |
||||
マルチGPUメモリ消費 | -FP16: 10GB* using diffusers |
- BF16: 15GB* using diffusers |
- サポートなし |
+ 複数GPU推論メモリ消費量 | +非対応 |
+ FP16: 10GB* diffusers使用 |
+ BF16: 15GB* diffusers使用 |
||||
推論速度 (ステップ数 = 50, FP/BF16) |
- 単一A100: 約90秒 単一H100: 約45秒 |
- 単一A100: 約180秒 単一H100: 約90秒 |
- 単一A100: 約1000秒(5秒動画) 単一H100: 約550秒(5秒動画) |
+ 推論速度 (Step = 50, FP/BF16) |
+ シングルA100: ~1000秒(5秒ビデオ) シングルH100: ~550秒(5秒ビデオ) |
+ シングルA100: ~90秒 シングルH100: ~45秒 |
+ シングルA100: ~180秒 シングルH100: ~90秒 |
||||
プロンプト言語 | 英語* | ||||||||||
プロンプトトークン制限 | -226トークン | +プロンプト長さの上限 | 224トークン | +226トークン | |||||||
ビデオの長さ | -6秒 | +ビデオ長さ | 5秒または10秒 | +6秒 | |||||||
フレームレート | -8 フレーム / 秒 | -16 フレーム / 秒 | +16フレーム/秒 | +8フレーム/秒 | |||||||
位置エンコーディング | -3d_sincos_pos_embed | +3d_rope_pos_embed | +3d_sincos_pos_embed | 3d_rope_pos_embed | 3d_rope_pos_embed + learnable_pos_embed | -3d_rope_pos_embed | -3d_rope_pos_embed | ||||
ダウンロードリンク (Diffusers) | +近日公開 | 🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
- 近日公開 | ||||||
ダウンロードリンク (SAT) | -SAT | 🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
+ SAT |
模型名 | +CogVideoX1.5-5B (最新) | +CogVideoX1.5-5B-I2V (最新) | CogVideoX-2B | CogVideoX-5B | CogVideoX-5B-I2V | -CogVideoX1.5-5B | -CogVideoX1.5-5B-I2V | |
---|---|---|---|---|---|---|---|---|
发布时间 | +2024年11月8日 | +2024年11月8日 | 2024年8月6日 | 2024年8月27日 | 2024年9月19日 | -2024年11月8日 | -2024年11月8日 | |
视频分辨率 | -720 * 480 | 1360 * 768 | 256 <= W <=1360 256 <= H <=768 W,H % 16 == 0 |
- 720 * 480 | +||||
推理精度 | +BF16 | FP16*(推荐), BF16, FP32,FP8*,INT8,不支持INT4 | BF16(推荐), FP16, FP32,FP8*,INT8,不支持INT4 | -BF16 | ||||
单GPU显存消耗 |
+ SAT BF16: 66GB |
SAT FP16: 18GB diffusers FP16: 4GB起* diffusers INT8(torchao): 3.6G起* |
SAT BF16: 26GB diffusers BF16 : 5GB起* diffusers INT8(torchao): 4.4G起* |
- SAT BF16: 66GB |
||||
多GPU推理显存消耗 | +不支持 |
FP16: 10GB* using diffusers |
BF16: 15GB* using diffusers |
- Not support |
||||
推理速度 (Step = 50, FP/BF16) |
+ 单卡A100: ~1000秒(5秒视频) 单卡H100: ~550秒(5秒视频) |
单卡A100: ~90秒 单卡H100: ~45秒 |
单卡A100: ~180秒 单卡H100: ~90秒 |
- 单卡A100: ~1000秒(5秒视频) 单卡H100: ~550秒(5秒视频) |
||||
提示词语言 | @@ -204,39 +204,37 @@ CogVideoX是 [清影](https://chatglm.cn/video?fr=osm_cogvideox) 同源的开源||||||||
提示词长度上限 | -226 Tokens | 224 Tokens | +226 Tokens | |||||
视频长度 | -6 秒 | 5 秒 或 10 秒 | +6 秒 | |||||
帧率 | -8 帧 / 秒 | 16 帧 / 秒 | +8 帧 / 秒 | |||||
位置编码 | -3d_sincos_pos_embed | +3d_rope_pos_embed | +3d_sincos_pos_embed | 3d_rope_pos_embed | 3d_rope_pos_embed + learnable_pos_embed | -3d_rope_pos_embed | -3d_rope_pos_embed | |
下载链接 (Diffusers) | +即将推出 | 🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
- 即将推出 | |||
下载链接 (SAT) | -SAT | 🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
-
+ SAT |