diff --git a/README.md b/README.md index fd6a91c..5f562cc 100644 --- a/README.md +++ b/README.md @@ -17,16 +17,18 @@ Experience the CogVideoX-5B model online at WeChat and Discord

-📍 Visit 清影 and API Platform to experience larger-scale commercial video generation models. +📍 Visit QingYing and API Platform to experience larger-scale commercial video generation models.

## Update and News -- 🔥🔥 **News**: ```2024/8/27```: We have open-sourced a larger model in the CogVideoX series, **CogVideoX-5B**. At the - same time, **CogVideoX-2B** will be licensed under the **Apache 2.0 License**. We have significantly optimized the - model's - inference performance, greatly lowering the inference threshold. You can now run **CogVideoX-2B** on earlier GPUs like - the `GTX 1080TI`, and **CogVideoX-5B** on mainstream desktop GPUs like the `RTX 3060`. +- 🔥🔥 **News**: ```2024/8/27```: The **CogVideoX-2B** model's open-source license has been changed to the **Apache 2.0 + License**. +- 🔥🔥 **News**: ```2024/8/27```: We have open-sourced a larger model in the CogVideoX series, **CogVideoX-5B**. + We have significantly optimized the model's inference performance, greatly lowering the inference threshold. You can + run **CogVideoX-2B** on older GPUs like the `GTX 1080TI`, and run the **CogVideoX-5B** model on mid-range GPUs like + the `RTX 3060`. Please ensure you update and install the dependencies according to + the [requirements](requirements.txt), and refer to the [cli_demo](inference/cli_demo.py) for inference code. - 🔥 **News**: ```2024/8/20```: [VEnhancer](https://github.com/Vchitect/VEnhancer) now supports enhancing videos generated by CogVideoX, achieving higher resolution and higher quality video rendering. We welcome you to try it out by following @@ -155,7 +157,9 @@ To view the corresponding prompt words for the gallery, please click [here](reso ## Model Introduction -CogVideoX is an open-source version of the video generation model originating from [QingYing](https://chatglm.cn/video?fr=osm_cogvideo). The table below displays the list of video generation models we currently offer, along with their foundational information. +CogVideoX is an open-source version of the video generation model originating +from [QingYing](https://chatglm.cn/video?lang=en?fr=osm_cogvideo). The table below displays the list of video generation +models we currently offer, along with their foundational information. @@ -175,8 +179,8 @@ CogVideoX is an open-source version of the video generation model originating fr - - + + @@ -236,15 +240,26 @@ CogVideoX is an open-source version of the video generation model originating fr **Data Explanation** -- When testing with the diffusers library, the `enable_model_cpu_offload()` option and `pipe.vae.enable_tiling()` optimization were enabled. This solution has not been tested for actual VRAM/memory usage on devices other than **NVIDIA A100/H100**. Generally, this solution can be adapted to all devices with **NVIDIA Ampere architecture** and above. If optimization is disabled, VRAM usage will increase significantly, with peak VRAM approximately 3 times the value in the table. +- When testing with the diffusers library, the `enable_model_cpu_offload()` option and `pipe.vae.enable_tiling()` + optimization were enabled. This solution has not been tested for actual VRAM/memory usage on devices other than * + *NVIDIA A100/H100**. Generally, this solution can be adapted to all devices with **NVIDIA Ampere architecture** and + above. If optimization is disabled, VRAM usage will increase significantly, with peak VRAM approximately 3 times the + value in the table. - When performing multi-GPU inference, the `enable_model_cpu_offload()` optimization needs to be disabled. -- Using an INT8 model will result in reduced inference speed. This is done to accommodate GPUs with lower VRAM, allowing inference to run properly with minimal video quality loss, though the inference speed will be significantly reduced. -- The 2B model is trained using `FP16` precision, while the 5B model is trained using `BF16` precision. It is recommended to use the precision used in model training for inference. -- `FP8` precision must be used on `NVIDIA H100` and above devices, requiring source installation of the `torch`, `torchao`, `diffusers`, and `accelerate` Python packages. `CUDA 12.4` is recommended. -- Inference speed testing also used the aforementioned VRAM optimization scheme. Without VRAM optimization, inference speed increases by about 10%. Only models using `diffusers` support quantization. +- Using an INT8 model will result in reduced inference speed. This is done to accommodate GPUs with lower VRAM, allowing + inference to run properly with minimal video quality loss, though the inference speed will be significantly reduced. +- The 2B model is trained using `FP16` precision, while the 5B model is trained using `BF16` precision. It is + recommended to use the precision used in model training for inference. +- [PytorchAO](https://github.com/pytorch/ao) and [Optimum-quanto](https://github.com/huggingface/optimum-quanto/) can be + used to quantize the Text Encoder, Transformer and VAE modules to lower the memory requirement of CogVideoX. This + makes it possible to run the model on free-tier T4 Colab or smaller VRAM GPUs as well! It is also worth noting that + TorchAO quantization is fully compatible with `torch.compile`, which allows for much faster inference speed. `FP8` + precision must be used on `NVIDIA H100` and above devices, requiring source installation of + the `torch`, `torchao`, `diffusers`, and `accelerate` Python packages. `CUDA 12.4` is recommended. +- Inference speed testing also used the aforementioned VRAM optimization scheme. Without VRAM optimization, inference + speed increases by about 10%. Only models using `diffusers` support quantization. - The model only supports English input; other languages can be translated to English during large model refinements. - ## Friendly Links We highly welcome contributions from the community and actively contribute to the open-source community. The following @@ -277,30 +292,23 @@ of the **CogVideoX** open-source model. using an LLM. The script defaults to using GLM-4, but it can be replaced with GPT, Gemini, or any other large language model. + [gradio_web_demo](inference/gradio_web_demo.py): A simple Gradio web application demonstrating how to use the - CogVideoX-2B model to generate videos. Similar to our Huggingface Space, you can use this script to run a simple web + CogVideoX-2B / 5B model to generate videos. Similar to our Huggingface Space, you can use this script to run a simple + web application for video generation. ```shell cd inference # For Linux and Windows users -python gradio_web_demo.py # humans mode +python gradio_web_demo.py # For macOS with Apple Silicon users, Intel not supported, this maybe 20x slower than RTX 4090 -PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py # humans mode +PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py ```
-+ [streamlit_web_demo](inference/streamlit_web_demo.py): A simple streamlit web application demonstrating how to use the - CogVideoX-2B model - to generate videos. - -
- -
- ### sat + [sat_demo](sat/README.md): Contains the inference code and fine-tuning code of SAT weights. It is recommended to diff --git a/README_ja.md b/README_ja.md index c9ef84f..90a8941 100644 --- a/README_ja.md +++ b/README_ja.md @@ -17,14 +17,16 @@ 👋 WeChatDiscord に参加

-📍 清影APIプラットフォーム を訪問して、より大規模な商用ビデオ生成モデルを体験 +📍 清影APIプラットフォーム を訪問して、より大規模な商用ビデオ生成モデルを体験

## 更新とニュース -- 🔥🔥 **ニュース**: ```2024/8/27```: CogVideoXシリーズのより大きなモデル**CogVideoX-5B**をオープンソース化しました。同時に、 - **CogVideoX-2B**は **Apache 2.0** ライセンスに変更されます。モデルの推論性能を大幅に最適化し、推論のハードルを大きく下げました。これにより、 - **CogVideoX-2B**は `GTX 1080TI` などの古いGPUで、**CogVideoX-5B**は `RTX 3060` などのデスクトップ向けGPUで実行できます。 +- 🔥🔥 **ニュース**: ```2024/8/27```: **CogVideoX-2B** モデルのオープンソースライセンスが **Apache 2.0 ライセンス** + に変更されました。 +- 🔥🔥 **ニュース**: ```2024/8/27```: CogVideoX シリーズのより大きなモデル **CogVideoX-5B** をオープンソース化しました。 + モデルの推論性能を大幅に最適化し、推論のハードルを大幅に下げました。`GTX 1080TI` などの旧型GPUで **CogVideoX-2B** + を、`RTX 3060` などのミドル - 🔥**ニュース**: ```2024/8/20```: [VEnhancer](https://github.com/Vchitect/VEnhancer) は CogVideoX が生成したビデオの強化をサポートしました。より高い解像度とより高品質なビデオレンダリングを実現します。[チュートリアル](tools/venhancer/README_ja.md) に従って、ぜひお試しください。 @@ -86,6 +88,7 @@ pip install -r requirements.txt ## Gallery ### CogVideoX-5B +
Single GPU VRAM ConsumptionFP16: 18GB using SAT / 12.5GB* using diffusers
INT8: 7.8GB* using diffusers
BF16: 26GB using SAT / 20.7GB* using diffusers
INT8: 11.4GB* using diffusers
FP16: 18GB using SAT / 12.5GB* using diffusers
INT8: 7.8GB* using diffusers with torchao
BF16: 26GB using SAT / 20.7GB* using diffusers
INT8: 11.4GB* using diffusers with torchao
Multi-GPU Inference VRAM Consumption
@@ -117,7 +120,8 @@ pip install -r requirements.txt
-### CogVideoX-2B +### CogVideoX-2B +
@@ -139,7 +143,7 @@ pip install -r requirements.txt ## モデル紹介 -CogVideoXは[清影](https://chatglm.cn/video?fr=osm_cogvideox) 同源のオープンソース版動画生成モデルです。 +CogVideoXは[清影](https://chatglm.cn/video?lang=en?fr=osm_cogvideo) 同源のオープンソース版動画生成モデルです。 以下の表は、提供されている動画生成モデルに関する基本情報を示しています。 @@ -160,8 +164,8 @@ CogVideoXは[清影](https://chatglm.cn/video?fr=osm_cogvideox) 同源のオー - - + + @@ -221,12 +225,24 @@ CogVideoXは[清影](https://chatglm.cn/video?fr=osm_cogvideox) 同源のオー **データ解説** -+ diffusersライブラリを使用したテストでは、`enable_model_cpu_offload()`オプションと`pipe.vae.enable_tiling()`最適化が有効になっています。この手法は、**NVIDIA A100 / H100**以外のデバイスでの実際のメモリ/メモリ消費量についてはテストされていません。通常、この手法はすべての**NVIDIA Ampereアーキテクチャ**以上のデバイスに適合します。最適化を無効にすると、メモリ消費量が倍増し、ピークメモリは表の3倍程度になります。 ++ diffusersライブラリを使用したテストでは、`enable_model_cpu_offload()`オプションと`pipe.vae.enable_tiling()` + 最適化が有効になっています。この手法は、**NVIDIA A100 / H100**以外のデバイスでの実際のメモリ/メモリ消費量についてはテストされていません。通常、この手法はすべての + **NVIDIA Ampereアーキテクチャ**以上のデバイスに適合します。最適化を無効にすると、メモリ消費量が倍増し、ピークメモリは表の3倍程度になります。 + 複数GPUで推論する際は、`enable_model_cpu_offload()`最適化を無効にする必要があります。 + INT8モデルを使用すると推論速度が低下します。これは、メモリが少ないGPUで正常に推論を行い、動画品質の損失を最小限に抑えるためです。そのため、推論速度が大幅に低下します。 -+ 2Bモデルは`FP16`精度でトレーニングされ、5Bモデルは`BF16`精度でトレーニングされています。推奨される精度で推論を行うことをお勧めします。 -+ `FP8`精度は`NVIDIA H100`以上のデバイスでのみ使用でき、`torch`、`torchao`、`diffusers`、`accelerate`のPythonパッケージをソースコードからインストールする必要があります。`CUDA 12.4`の使用を推奨します。 -+ 推論速度のテストも上記のメモリ最適化手法を使用して行いました。メモリ最適化を行わない場合、推論速度が約10%向上します。量子化をサポートするのは`diffusers`バージョンのモデルのみです。 +- [PytorchAO](https://github.com/pytorch/ao) と [Optimum-quanto](https://github.com/huggingface/optimum-quanto/) は、Text + Encoder、Transformer、VAE モジュールを量子化して CogVideoX のメモリ要件を下げるために使用できます。これにより、無料の T4 + Colab や小さな VRAM GPU でもモデルを実行できるようになります!また、TorchAO の量子化は `torch.compile` + と完全に互換性があり、推論速度を大幅に向上させることができます。`NVIDIA H100` 以上のデバイスでは `FP8` + 精度が必須であり、`torch`、`torchao`、`diffusers`、`accelerate` の Python + パッケージのソースインストールが必要です。`CUDA 12.4` の使用を推奨します。 ++ `FP8`精度は`NVIDIA H100`以上のデバイスでのみ使用でき、`torch`、`torchao`、`diffusers`、`accelerate` + のPythonパッケージをソースコードからインストールする必要があります。`CUDA 12.4`の使用を推奨します。 ++ + +推論速度のテストも上記のメモリ最適化手法を使用して行いました。メモリ最適化を行わない場合、推論速度が約10%向上します。量子化をサポートするのは`diffusers` +バージョンのモデルのみです。 + + モデルは英語入力のみをサポートしており、他の言語は大モデルでのポストプロセスで英語に翻訳する必要があります。 ## 友好的リンク @@ -245,34 +261,28 @@ CogVideoXは[清影](https://chatglm.cn/video?fr=osm_cogvideox) 同源のオー + [cli_demo](inference/cli_demo.py): 推論コードの詳細な説明が含まれており、一般的なパラメータの意味についても言及しています。 + [cli_demo_quantization](inference/cli_demo_quantization.py): - 量子化モデル推論コードで、低メモリのデバイスでも実行可能です。また、このコードを変更して、FP8 精度の CogVideoX モデルの実行をサポートすることもできます。 + 量子化モデル推論コードで、低メモリのデバイスでも実行可能です。また、このコードを変更して、FP8 精度の CogVideoX + モデルの実行をサポートすることもできます。 + [diffusers_vae_demo](inference/cli_vae_demo.py): VAE推論コードの実行には現在71GBのメモリが必要ですが、将来的には最適化される予定です。 + [space demo](inference/gradio_composite_demo): Huggingface Spaceと同じGUIコードで、フレーム補間や超解像ツールが組み込まれています。 + [convert_demo](inference/convert_demo.py): ユーザー入力をCogVideoXに適した形式に変換する方法。CogVideoXは長いキャプションでトレーニングされているため、入力テキストをLLMを使用してトレーニング分布と一致させる必要があります。デフォルトではGLM-4を使用しますが、GPT、Geminiなどの他のLLMに置き換えることもできます。 -+ [gradio_web_demo](inference/gradio_web_demo.py): CogVideoX-2B モデルを使用して動画を生成する方法を示す、シンプルな ++ [gradio_web_demo](inference/gradio_web_demo.py): CogVideoX-2B / 5B モデルを使用して動画を生成する方法を示す、シンプルな Gradio Web UI デモです。私たちの Huggingface Space と同様に、このスクリプトを使用して Web デモを起動することができます。 ```shell cd inference # For Linux and Windows users -python gradio_web_demo.py # humans mode +python gradio_web_demo.py # For macOS with Apple Silicon users, Intel not supported, this maybe 20x slower than RTX 4090 -PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py # humans mode +PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py ```
-+ [streamlit_web_demo](inference/streamlit_web_demo.py): CogVideoX-2Bモデルを使用してビデオを生成する方法を示すシンプルなstreamlit - Webアプリケーション。 - -
- -
- ### sat + [sat_demo](sat/README.md): diff --git a/README_zh.md b/README_zh.md index addeb2d..a26fa4b 100644 --- a/README_zh.md +++ b/README_zh.md @@ -23,9 +23,11 @@ ## 项目更新 -- 🔥🔥 **News**: ```2024/8/27```: 我们开源 CogVideoX 系列更大的模型 **CogVideoX-5B**。同时 **CogVideoX-2B** 将修改为 - **Apache 2.0 协议**。我们大幅度优化了模型的推理性能,推理门槛大幅降低,您可以在 `GTX 1080TI` 等早期显卡运行 **CogVideoX-2B** - ,在 `RTX 3060`等桌面端甜品卡运行 **CogVideoX-5B** 模型。 +- 🔥🔥 **News**: ```2024/8/27```: **CogVideoX-2B** 模型开源协议已经修改为**Apache 2.0 协议**。 +- 🔥🔥 **News**: ```2024/8/27```: 我们开源 CogVideoX 系列更大的模型 **CogVideoX-5B** + 。我们大幅度优化了模型的推理性能,推理门槛大幅降低,您可以在 `GTX 1080TI` 等早期显卡运行 **CogVideoX-2B**,在 `RTX 3060` + 等桌面端甜品卡运行 **CogVideoX-5B** 模型。 请严格按照[要求](requirements.txt) + 更新安装依赖,推理代码请查看 [cli_demo](inference/cli_demo.py)。 - 🔥**News**: ```2024/8/20```: [VEnhancer](https://github.com/Vchitect/VEnhancer) 已经支持对 CogVideoX 生成的视频进行增强,实现更高分辨率,更高质量的视频渲染。欢迎大家按照[教程](tools/venhancer/README_zh.md)体验使用。 - 🔥**News**: ```2024/8/15```: CogVideoX 依赖中`SwissArmyTransformer`依赖升级到`0.4.12`, @@ -83,6 +85,7 @@ pip install -r requirements.txt ## 视频作品 ### CogVideoX-5B +
単一GPUのメモリ消費量FP16: 18GB using SAT / 12.5GB* using diffusers
INT8: 7.8GB* using diffusers
BF16: 26GB using SAT / 20.7GB* using diffusers
INT8: 11.4GB* using diffusers
FP16: 18GB using SAT / 12.5GB* using diffusers
INT8: 7.8GB* using diffusers with torchao
BF16: 26GB using SAT / 20.7GB* using diffusers
INT8: 11.4GB* using diffusers with torchao
複数GPUの推論メモリ消費量
@@ -114,7 +117,8 @@ pip install -r requirements.txt
-### CogVideoX-2B +### CogVideoX-2B + - - + + @@ -225,7 +229,11 @@ CogVideoX是 [清影](https://chatglm.cn/video?fr=osm_cogvideox) 同源的开源 + 多GPU推理时,需要关闭 `enable_model_cpu_offload()` 优化。 + 使用 INT8 模型会导致推理速度降低,此举是为了满足显存较低的显卡能正常推理并保持较少的视频质量损失,推理速度大幅降低。 + 2B 模型采用 `FP16` 精度训练, 5B模型采用 `BF16` 精度训练。我们推荐使用模型训练的精度进行推理。 -+ `FP8` 精度必须在`NVIDIA H100` 及以上的设备上使用,需要源代码安装`torch`,`torchao`,`diffusers`,`accelerate` python包,推荐使用 `CUDA 12.4`。 +- [PytorchAO](https://github.com/pytorch/ao) 和 [Optimum-quanto](https://github.com/huggingface/optimum-quanto/) + 可以用于量化文本编码器、Transformer 和 VAE 模块,以降低 CogVideoX 的内存需求。这使得在免费的 T4 Colab 或更小显存的 GPU + 上运行模型成为可能!同样值得注意的是,TorchAO 量化完全兼容 `torch.compile`,这可以显著提高推理速度。在 `NVIDIA H100` + 及以上设备上必须使用 `FP8` 精度,这需要源码安装 `torch`、`torchao`、`diffusers` 和 `accelerate` Python + 包。建议使用 `CUDA 12.4`。 + 推理速度测试同样采用了上述显存优化方案,不采用显存优化的情况下,推理速度提升约10%。 只有`diffusers`版本模型支持量化。 + 模型仅支持英语输入,其他语言可以通过大模型润色时翻译为英语。 @@ -244,33 +252,29 @@ CogVideoX是 [清影](https://chatglm.cn/video?fr=osm_cogvideox) 同源的开源 + [cli_demo](inference/cli_demo.py): 更详细的推理代码讲解,常见参数的意义,在这里都会提及。 + [cli_demo_quantization](inference/cli_demo_quantization.py): - 量化模型推理代码,可以在显存较低的设备上运行,也可以基于此代码修改,以支持运行FP8等精度的CogVideoX模型。请注意,FP8 仅测试通过,且必须将 `torch-nightly`,`torchao`源代码安装,不建议在生产环境中使用。 + 量化模型推理代码,可以在显存较低的设备上运行,也可以基于此代码修改,以支持运行FP8等精度的CogVideoX模型。请注意,FP8 + 仅测试通过,且必须将 `torch-nightly`,`torchao`源代码安装,不建议在生产环境中使用。 + [diffusers_vae_demo](inference/cli_vae_demo.py): 单独执行VAE的推理代码。 + [space demo](inference/gradio_composite_demo): Huggingface Space同款的 GUI 代码,植入了插帧,超分工具。 + [convert_demo](inference/convert_demo.py): 如何将用户的输入转换成适合 CogVideoX的长输入。因为CogVideoX是在长文本上训练的,所以我们需要把输入文本的分布通过LLM转换为和训练一致的长文本。脚本中默认使用GLM-4,也可以替换为GPT、Gemini等任意大语言模型。 -+ [gradio_web_demo](inference/gradio_web_demo.py): 一个简单的gradio网页应用,展示如何使用 CogVideoX-2B 模型生成视频。 与我们的 ++ [gradio_web_demo](inference/gradio_web_demo.py): 一个简单的gradio网页应用,展示如何使用 CogVideoX-2B / 5B 模型生成视频。 + 与我们的 Huggingface Space 类似,你可以使用此脚本运行一个简单的网页应用,用于生成视频。 ```shell cd inference # For Linux and Windows users -python gradio_web_demo.py # humans mode +python gradio_web_demo.py # For macOS with Apple Silicon users, Intel not supported, this maybe 20x slower than RTX 4090 -PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py # humans mode +PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py ```
-+ [streamlit_web_demo](inference/streamlit_web_demo.py): 一个简单的streamlit网页应用,展示如何使用 CogVideoX-2B 模型生成视频。 - -
- -
- ### sat + [sat_demo](sat/README_zh.md): 包含了 SAT 权重的推理代码和微调代码,推荐基于 CogVideoX
@@ -158,8 +162,8 @@ CogVideoX是 [清影](https://chatglm.cn/video?fr=osm_cogvideox) 同源的开源
单GPU显存消耗
FP16: 18GB using SAT / 12.5GB* using diffusers
INT8: 7.8GB* using diffusers
BF16: 26GB using SAT / 20.7GB* using diffusers
INT8: 11.4GB* using diffusers
FP16: 18GB using SAT / 12.5GB* using diffusers
INT8: 7.8GB* using diffusers with torchao
BF16: 26GB using SAT / 20.7GB* using diffusers
INT8: 11.4GB* using diffusers with torchao
多GPU推理显存消耗