From f4273a73915b5a368c0127042bfb4646bbf6a85d Mon Sep 17 00:00:00 2001 From: zR <2448370773@qq.com> Date: Tue, 10 Sep 2024 07:15:57 +0800 Subject: [PATCH] readme Update --- README.md | 3 +-- README_ja.md | 3 +-- README_zh.md | 3 +-- tools/convert_weight_sat2hf.py | 2 +- 4 files changed, 4 insertions(+), 7 deletions(-) diff --git a/README.md b/README.md index 08321c7..2770b10 100644 --- a/README.md +++ b/README.md @@ -250,13 +250,12 @@ models we currently offer, along with their foundational information. shows. However, speed will increase by 3-4 times. You can selectively disable some optimizations, including: ``` -pipe.enable_model_cpu_offload() pipe.enable_sequential_cpu_offload() pipe.vae.enable_slicing() pipe.vae.enable_tiling() ``` -+ When performing multi-GPU inference, the `enable_model_cpu_offload()` optimization needs to be disabled. ++ When performing multi-GPU inference, the `enable_sequential_cpu_offload()` optimization needs to be disabled. + Using INT8 models will reduce inference speed. This is to ensure that GPUs with lower VRAM can perform inference normally while maintaining minimal video quality loss, though inference speed will decrease significantly. + The 2B model is trained with `FP16` precision, and the 5B model is trained with `BF16` precision. We recommend using diff --git a/README_ja.md b/README_ja.md index 5eead46..ece02bb 100644 --- a/README_ja.md +++ b/README_ja.md @@ -234,13 +234,12 @@ CogVideoXは[清影](https://chatglm.cn/video?lang=en?fr=osm_cogvideo) 同源の 以上のすべてのデバイスに適応できます。最適化を無効にすると、VRAM使用量が大幅に増加し、表の約3倍のピークVRAMを使用しますが、速度は3-4倍向上します。以下の最適化の一部を選択的に無効にすることができます: ``` -pipe.enable_model_cpu_offload() pipe.enable_sequential_cpu_offload() pipe.vae.enable_slicing() pipe.vae.enable_tiling() ``` -+ マルチGPU推論を行う際には、`enable_model_cpu_offload()` の最適化を無効にする必要があります。 ++ マルチGPU推論を行う際には、`enable_sequential_cpu_offload()` の最適化を無効にする必要があります。 + INT8モデルを使用すると推論速度が低下します。これは、ビデオ品質の損失を最小限に抑えながら、VRAMが少ないGPUでも正常に推論できるようにするためですが、推論速度は大幅に低下します。 + 2Bモデルは `FP16` 精度でトレーニングされ、5Bモデルは `BF16` 精度でトレーニングされています。推論には、モデルがトレーニングされた精度を使用することをお勧めします。 + [PytorchAO](https://github.com/pytorch/ao) および [Optimum-quanto](https://github.com/huggingface/optimum-quanto/) diff --git a/README_zh.md b/README_zh.md index 4eba696..d5c5bea 100644 --- a/README_zh.md +++ b/README_zh.md @@ -228,13 +228,12 @@ CogVideoX是 [清影](https://chatglm.cn/video?fr=osm_cogvideox) 同源的开源 + 使用 diffusers 库进行测试时,启用了全部`diffusers`库自带的优化,该方案未测试在非**NVIDIA A100 / H100** 外的设备上的实际显存 / 内存占用。通常,该方案可以适配于所有 **NVIDIA 安培架构** 以上的设备。若关闭优化,显存占用会成倍增加,峰值显存约为表格的3倍。但速度提升3-4倍左右。你可以选择性的关闭部分优化,这些优化包括: ``` -pipe.enable_model_cpu_offload() pipe.enable_sequential_cpu_offload() pipe.vae.enable_slicing() pipe.vae.enable_tiling() ``` -+ 多GPU推理时,需要关闭 `enable_model_cpu_offload()` 优化。 ++ 多GPU推理时,需要关闭 `enable_sequential_cpu_offload()` 优化。 + 使用 INT8 模型会导致推理速度降低,此举是为了满足显存较低的显卡能正常推理并保持较少的视频质量损失,推理速度大幅降低。 + 2B 模型采用 `FP16` 精度训练, 5B模型采用 `BF16` 精度训练。我们推荐使用模型训练的精度进行推理。 + [PytorchAO](https://github.com/pytorch/ao) 和 [Optimum-quanto](https://github.com/huggingface/optimum-quanto/) diff --git a/tools/convert_weight_sat2hf.py b/tools/convert_weight_sat2hf.py index 45d3466..6ef8e7f 100644 --- a/tools/convert_weight_sat2hf.py +++ b/tools/convert_weight_sat2hf.py @@ -2,7 +2,7 @@ This script demonstrates how to convert and generate video from a text prompt using CogVideoX with 🤗Huggingface Diffusers Pipeline. Note: - This script requires the `diffusers>=0.30.0` library to be installed. + This script requires the `diffusers>=0.30.1` library to be installed. Run the script: $ python convert_and_generate.py --transformer_ckpt_path --vae_ckpt_path --output_path --text_encoder_path