diff --git a/README.md b/README.md index 8e04557..91b3f40 100644 --- a/README.md +++ b/README.md @@ -22,7 +22,16 @@ Experience the CogVideoX-5B model online at Model Name CogVideoX-2B CogVideoX-5B + CogVideoX-5B-I2V (This Repository) Model Description Entry-level model, balancing compatibility. Low cost for running and secondary development. Larger model with higher video generation quality and better visual effects. + CogVideoX-5B image-to-video version. Inference Precision - FP16* (Recommended), BF16, FP32, FP8*, INT8, no support for INT4 - BF16 (Recommended), FP16, FP32, FP8*, INT8, no support for INT4 + FP16*(recommended), BF16, FP32, FP8*, INT8, not supported: INT4 + BF16 (recommended), FP16, FP32, FP8*, INT8, not supported: INT4 - Single GPU VRAM Consumption
-
SAT FP16: 18GB
diffusers FP16: starting from 4GB*
diffusers INT8(torchao): starting from 3.6GB* - SAT BF16: 26GB
diffusers BF16: starting from 5GB*
diffusers INT8(torchao): starting from 4.4GB* + Single GPU Memory Usage
+ SAT FP16: 18GB
diffusers FP16: from 4GB*
diffusers INT8 (torchao): from 3.6GB* + SAT BF16: 26GB
diffusers BF16: from 5GB*
diffusers INT8 (torchao): from 4.4GB* - Multi-GPU Inference VRAM Consumption - FP16: 10GB* using diffusers - BF16: 15GB* using diffusers + Multi-GPU Inference Memory Usage + FP16: 10GB* using diffusers
+ BF16: 15GB* using diffusers
Inference Speed
(Step = 50, FP/BF16) Single A100: ~90 seconds
Single H100: ~45 seconds - Single A100: ~180 seconds
Single H100: ~90 seconds + Single A100: ~180 seconds
Single H100: ~90 seconds Fine-tuning Precision FP16 - BF16 + BF16 - Fine-tuning VRAM Consumption (per GPU) + Fine-tuning Memory Usage 47 GB (bs=1, LORA)
61 GB (bs=2, LORA)
62GB (bs=1, SFT) - 63 GB (bs=1, LORA)
80 GB (bs=2, LORA)
75GB (bs=1, SFT) + 63 GB (bs=1, LORA)
80 GB (bs=2, LORA)
75GB (bs=1, SFT)
+ 78 GB (bs=1, LORA)
75GB (bs=1, SFT, 16GPU)
Prompt Language - English* + English* - Prompt Length Limit - 226 Tokens + Maximum Prompt Length + 226 Tokens Video Length - 6 Seconds + 6 Seconds Frame Rate - 8 Frames per Second + 8 Frames / Second Video Resolution - 720 x 480, no support for other resolutions (including fine-tuning) + 720 x 480, no support for other resolutions (including fine-tuning) - - Positional Encoding + + Position Encoding 3d_sincos_pos_embed - 3d_rope_pos_embed + 3d_sincos_pos_embed + 3d_rope_pos_embed + learnable_pos_embed - Download Page (Diffusers) + Download Link (Diffusers) 🤗 HuggingFace
🤖 ModelScope
🟣 WiseModel 🤗 HuggingFace
🤖 ModelScope
🟣 WiseModel + 🤗 HuggingFace
🤖 ModelScope
🟣 WiseModel - Download Page (SAT) - SAT + Download Link (SAT) + SAT **Data Explanation** -+ When testing using the `diffusers` library, all optimizations provided by the `diffusers` library were enabled. This - solution has not been tested for actual VRAM/memory usage on devices other than **NVIDIA A100 / H100**. Generally, - this solution can be adapted to all devices with **NVIDIA Ampere architecture** and above. If the optimizations are - disabled, VRAM usage will increase significantly, with peak VRAM usage being about 3 times higher than the table - shows. However, speed will increase by 3-4 times. You can selectively disable some optimizations, including: ++ While testing using the diffusers library, all optimizations included in the diffusers library were enabled. This + scheme has not been tested for actual memory usage on devices outside of **NVIDIA A100 / H100** architectures. + Generally, this scheme can be adapted to all **NVIDIA Ampere architecture** and above devices. If optimizations are + disabled, memory consumption will multiply, with peak memory usage being about 3 times the value in the table. + However, speed will increase by about 3-4 times. You can selectively disable some optimizations, including: ``` pipe.enable_sequential_cpu_offload() pipe.vae.enable_slicing() pipe.vae.enable_tiling() -``` +``` -+ When performing multi-GPU inference, the `enable_sequential_cpu_offload()` optimization needs to be disabled. -+ Using INT8 models will reduce inference speed. This is to ensure that GPUs with lower VRAM can perform inference - normally while maintaining minimal video quality loss, though inference speed will decrease significantly. -+ The 2B model is trained with `FP16` precision, and the 5B model is trained with `BF16` precision. We recommend using - the precision the model was trained with for inference. ++ For multi-GPU inference, the `enable_sequential_cpu_offload()` optimization needs to be disabled. ++ Using INT8 models will slow down inference, which is done to accommodate lower-memory GPUs while maintaining minimal + video quality loss, though inference speed will significantly decrease. ++ The CogVideoX-2B model was trained in `FP16` precision, and all CogVideoX-5B models were trained in `BF16` precision. + We recommend using the precision in which the model was trained for inference. + [PytorchAO](https://github.com/pytorch/ao) and [Optimum-quanto](https://github.com/huggingface/optimum-quanto/) can be - used to quantize the text encoder, Transformer, and VAE modules to reduce CogVideoX's memory requirements. This makes - it possible to run the model on a free T4 Colab or GPUs with smaller VRAM! It is also worth noting that TorchAO - quantization is fully compatible with `torch.compile`, which can significantly improve inference speed. `FP8` - precision must be used on devices with `NVIDIA H100` or above, which requires installing - the `torch`, `torchao`, `diffusers`, and `accelerate` Python packages from source. `CUDA 12.4` is recommended. -+ The inference speed test also used the above VRAM optimization scheme. Without VRAM optimization, inference speed + used to quantize the text encoder, transformer, and VAE modules to reduce the memory requirements of CogVideoX. This + allows the model to run on free T4 Colabs or GPUs with smaller memory! Also, note that TorchAO quantization is fully + compatible with `torch.compile`, which can significantly improve inference speed. FP8 precision must be used on + devices with NVIDIA H100 and above, requiring source installation of `torch`, `torchao`, `diffusers`, and `accelerate` + Python packages. CUDA 12.4 is recommended. ++ The inference speed tests also used the above memory optimization scheme. Without memory optimization, inference speed increases by about 10%. Only the `diffusers` version of the model supports quantization. -+ The model only supports English input; other languages can be translated into English during refinement by a large - model. ++ The model only supports English input; other languages can be translated into English for use via large model + refinement. ++ The memory usage of model fine-tuning is tested in an `8 * H100` environment, and the program automatically + uses `Zero 2` optimization. If a specific number of GPUs is marked in the table, that number or more GPUs must be used + for fine-tuning. ## Friendly Links @@ -279,14 +296,13 @@ works have already been adapted for CogVideoX, and we invite everyone to use the + [Xorbits Inference](https://github.com/xorbitsai/inference): A powerful and comprehensive distributed inference framework, allowing you to easily deploy your own models or the latest cutting-edge open-source models with just one click. -+ [ComfyUI-CogVideoXWrapper](https://github.com/kijai/ComfyUI-CogVideoXWrapper) Use the ComfyUI framework to integrate CogVideoX into your workflow. ++ [ComfyUI-CogVideoXWrapper](https://github.com/kijai/ComfyUI-CogVideoXWrapper) Use the ComfyUI framework to integrate + CogVideoX into your workflow. + [VideoSys](https://github.com/NUS-HPC-AI-Lab/VideoSys): VideoSys provides a user-friendly, high-performance infrastructure for video generation, with full pipeline support and continuous integration of the latest models and techniques. + [AutoDL Space](https://www.codewithgpu.com/i/THUDM/CogVideo/CogVideoX-5b-demo): A one-click deployment Huggingface Space image provided by community members. -+ [Colab Space](https://github.com/camenduru/CogVideoX-5B-jupyter) Run the CogVideoX-5B model using Jupyter Notebook on - Colab. ## Project Structure @@ -303,27 +319,22 @@ of the **CogVideoX** open-source model. + [diffusers_vae_demo](inference/cli_vae_demo.py): Code for running VAE inference separately. + [space demo](inference/gradio_composite_demo): The same GUI code as used in the Huggingface Space, with frame interpolation and super-resolution tools integrated. + +
+ +
+ + [convert_demo](inference/convert_demo.py): How to convert user input into long-form input suitable for CogVideoX. Since CogVideoX is trained on long texts, we need to transform the input text distribution to match the training data using an LLM. The script defaults to using GLM-4, but it can be replaced with GPT, Gemini, or any other large language model. -+ [gradio_web_demo](inference/gradio_web_demo.py): A simple Gradio web application demonstrating how to use the ++ [gradio_web_demo](inference/gradio_composite_demo): A simple Gradio web application demonstrating how to use the CogVideoX-2B / 5B model to generate videos. Similar to our Huggingface Space, you can use this script to run a simple - web - application for video generation. + web application for video generation. -```shell -cd inference -# For Linux and Windows users -python gradio_web_demo.py +### finetune -# For macOS with Apple Silicon users, Intel not supported, this maybe 20x slower than RTX 4090 -PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py -``` - -
- -
++ [finetune_demo](finetune/README.md): Fine-tuning scheme and details of the diffusers version of the CogVideoX model. ### sat @@ -335,8 +346,16 @@ PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py This folder contains some tools for model conversion / caption generation, etc. -+ [convert_weight_sat2hf](tools/convert_weight_sat2hf.py): Convert SAT model weights to Huggingface model weights. -+ [caption_demo](tools/caption): Caption tool, a model that understands videos and outputs them in text. ++ [convert_weight_sat2hf](tools/convert_weight_sat2hf.py): Converts SAT model weights to Huggingface model weights. ++ [caption_demo](tools/caption/README.md): Caption tool, a model that understands videos and outputs descriptions in + text. ++ [export_sat_lora_weight](tools/export_sat_lora_weight.py): SAT fine-tuning model export tool, exports the SAT Lora + Adapter in diffusers format. ++ [load_cogvideox_lora](tools/load_cogvideox_lora.py): Tool code for loading the diffusers version of fine-tuned Lora + Adapter. ++ [llm_flux_cogvideox](tools/llm_flux_cogvideox/llm_flux_cogvideox.py): Automatically generate videos using an + open-source local large language model + Flux + CogVideoX. + ## CogVideo(ICLR'23) The official repo for the @@ -376,23 +395,7 @@ hands-on practice on text-to-video generation. *The original input is in Chinese } ``` -## Open Source Project Plan - -- [x] CogVideoX Model Open Source - - [x] CogVideoX Model Inference Example (CLI / Web Demo) - - [x] CogVideoX Online Experience Example (Huggingface Space) - - [x] CogVideoX Open Source Model API Interface Example (Huggingface) - - [x] CogVideoX Model Fine-Tuning Example (SAT) - - [ ] CogVideoX Model Fine-Tuning Example (Huggingface Diffusers) - - [X] CogVideoX-5B Open Source (Adapted to CogVideoX-2B Suite) - - [X] CogVideoX Technical Report Released - - [X] CogVideoX Technical Explanation Video -- [ ] CogVideoX Peripheral Tools - - [X] Basic Video Super-Resolution / Frame Interpolation Suite - - [ ] Inference Framework Adaptation - - [ ] ComfyUI Full Ecosystem Tools - -We welcome your contributions! You can click [here](resources/contribute_zh.md) for more information. +We welcome your contributions! You can click [here](resources/contribute.md) for more information. ## License Agreement @@ -401,5 +404,5 @@ The code in this repository is released under the [Apache 2.0 License](LICENSE). The CogVideoX-2B model (including its corresponding Transformers module and VAE module) is released under the [Apache 2.0 License](LICENSE). -The CogVideoX-5B model (Transformers module) is released under +The CogVideoX-5B model (Transformers module, include I2V and T2V) is released under the [CogVideoX LICENSE](https://huggingface.co/THUDM/CogVideoX-5b/blob/main/LICENSE). diff --git a/README_ja.md b/README_ja.md index ad2b7ff..bfe0784 100644 --- a/README_ja.md +++ b/README_ja.md @@ -22,7 +22,13 @@ ## 更新とニュース -- 🔥🔥 **ニュース**: ```2024/8/29```: `pipe.enable_sequential_cpu_offload()` と `pipe.vae.enable_slicing()` +- 🔥🔥 **ニュース**: ```2024/9/19```: CogVideoXシリーズの画像生成ビデオモデル **CogVideoX-5B-I2V** + をオープンソース化しました。このモデルでは、背景として画像を入力し、プロンプトと組み合わせてビデオを生成でき、より強力なコントロール性を提供します。これで、CogVideoXシリーズは、テキスト生成ビデオ、ビデオ拡張、画像生成ビデオの3つのタスクをサポートしています。ぜひ [オンラインでお試しください](https://huggingface.co/spaces/THUDM/CogVideoX-5B-Space)。 +- 🔥 **ニュース**: ```2024/9/16```: 自動動画生成ツールを追加しました!オープンソースのローカルモデル + FLUX + CogVideoX + を使用して、高品質な動画を自動生成できます。ぜひ[お試しください](tools/llm_flux_cogvideox/llm_flux_cogvideox.py)。 +- 🔥 **ニュース**: ```2024/9/15```: CogVideoXのLoRAファインチューニングの重みがエクスポートされ、`diffusers` + ライブラリでのテストに成功しました。[チュートリアル](sat/README_ja.md) をご覧ください。 +- 🔥 **ニュース**: ```2024/8/29```: `pipe.enable_sequential_cpu_offload()` と `pipe.vae.enable_slicing()` をCogVideoX-5Bの推論コードに追加することで、VRAM使用量を`5GB` まで削減できます。更新された[cli_demo](inference/cli_demo.py)をご覧ください。 - 🔥**ニュース**: ```2024/8/27```: **CogVideoX-2B** モデルのオープンソースライセンスが **Apache 2.0 ライセンス** @@ -146,92 +152,91 @@ pip install -r requirements.txt ## モデル紹介 -CogVideoXは[清影](https://chatglm.cn/video?lang=en?fr=osm_cogvideo) 同源のオープンソース版動画生成モデルです。 -以下の表は、提供されている動画生成モデルに関する基本情報を示しています。 +CogVideoXは、[清影](https://chatglm.cn/video?fr=osm_cogvideox) と同源のオープンソース版ビデオ生成モデルです。 +以下の表に、提供しているビデオ生成モデルの基本情報を示します: - +
- - - - - + - - + + - - - + + + - - - + + + - - - + + + - + - + - + - + + - + - - + + - - + + - + - - + + - + - + + + - +
モデル名 CogVideoX-2B CogVideoX-5B
モデル紹介入門モデルで、互換性を重視。運用および二次開発のコストが低い。動画生成品質が高く、視覚効果がより優れた大型モデル。CogVideoX-5B-I2V
推論精度FP16*(推奨), BF16, FP32, FP8*(E4M3, E5M2), INT8, INT4は非対応BF16(推奨), FP16, FP32, FP8*(E4M3, E5M2), INT8, INT4は非対応FP16*(推奨), BF16, FP32, FP8*, INT8, INT4は非対応BF16(推奨), FP16, FP32, FP8*, INT8, INT4は非対応
シングルGPU VRAM消費量
SAT FP16: 18GB
diffusers FP16: 4GBから*
diffusers INT8(torchao): 3.6GBから*
SAT BF16: 26GB
diffusers BF16: 5GBから*
diffusers INT8(torchao): 4.4GBから*
単一GPUのメモリ消費
SAT FP16: 18GB
diffusers FP16: 4GBから*
diffusers INT8(torchao): 3.6GBから*
SAT BF16: 26GB
diffusers BF16 : 5GBから*
diffusers INT8(torchao): 4.4GBから*
複数GPUの推論メモリ消費量FP16: 10GB* using diffusersBF16: 15GB* using diffusersマルチGPUのメモリ消費FP16: 10GB* using diffusers
BF16: 15GB* using diffusers
推論速度
(Step = 50)
FP16: ~90* sBF16: ~180* s推論速度
(ステップ = 50, FP/BF16)
単一A100: 約90秒
単一H100: 約45秒
単一A100: 約180秒
単一H100: 約90秒
微調整精度ファインチューニング精度 FP16BF16BF16
微調整時のメモリ消費量 (1GPUあたり)ファインチューニング時のメモリ消費 47 GB (bs=1, LORA)
61 GB (bs=2, LORA)
62GB (bs=1, SFT)
63 GB (bs=1, LORA)
80 GB (bs=2, LORA)
75GB (bs=1, SFT)
63 GB (bs=1, LORA)
80 GB (bs=2, LORA)
75GB (bs=1, SFT)
78 GB (bs=1, LORA)
75GB (bs=1, SFT, 16GPU)
プロンプト言語英語*英語*
プロンプトの長さ上限226トークンプロンプトの最大トークン数226トークン
動画の長さ6秒ビデオの長さ6秒
フレームレート8フレーム/秒8フレーム/秒
動画の解像度720 * 480、他の解像度はサポートされていません(微調整も含む)ビデオ解像度720 * 480、他の解像度は非対応(ファインチューニング含む)
位置エンコード位置エンコーディング 3d_sincos_pos_embed3d_rope_pos_embed3d_sincos_pos_embed3d_rope_pos_embed + learnable_pos_embed
ダウンロードリンク (Diffusers) 🤗 HuggingFace
🤖 ModelScope
🟣 WiseModel
🤗 HuggingFace
🤖 ModelScope
🟣 WiseModel
🤗 HuggingFace
🤖 ModelScope
🟣 WiseModel
ダウンロードリンク (SAT)SATSAT
**データ解説** -+ `diffusers` ライブラリを使用してテストする際、`diffusers` ライブラリに付属するすべての最適化を有効にしました。このソリューションは、 - **NVIDIA A100 / H100** 以外のデバイスでの実際のVRAM/メモリ使用量についてはテストされていません。一般的に、このソリューションは - **NVIDIA Ampereアーキテクチャ** - 以上のすべてのデバイスに適応できます。最適化を無効にすると、VRAM使用量が大幅に増加し、表の約3倍のピークVRAMを使用しますが、速度は3-4倍向上します。以下の最適化の一部を選択的に無効にすることができます: ++ diffusersライブラリを使用してテストする際には、`diffusers`ライブラリが提供する全ての最適化が有効になっています。この方法は + **NVIDIA A100 / H100**以外のデバイスでのメモリ/メモリ消費のテストは行っていません。通常、この方法は**NVIDIA + Ampereアーキテクチャ** + 以上の全てのデバイスに適応できます。最適化を無効にすると、メモリ消費は倍増し、ピークメモリ使用量は表の3倍になりますが、速度は約3〜4倍向上します。以下の最適化を部分的に無効にすることが可能です: ``` pipe.enable_sequential_cpu_offload() @@ -239,21 +244,21 @@ pipe.vae.enable_slicing() pipe.vae.enable_tiling() ``` -+ マルチGPU推論を行う際には、`enable_sequential_cpu_offload()` の最適化を無効にする必要があります。 -+ INT8モデルを使用すると推論速度が低下します。これは、ビデオ品質の損失を最小限に抑えながら、VRAMが少ないGPUでも正常に推論できるようにするためですが、推論速度は大幅に低下します。 -+ 2Bモデルは `FP16` 精度でトレーニングされ、5Bモデルは `BF16` 精度でトレーニングされています。推論には、モデルがトレーニングされた精度を使用することをお勧めします。 -+ [PytorchAO](https://github.com/pytorch/ao) および [Optimum-quanto](https://github.com/huggingface/optimum-quanto/) - は、CogVideoXのメモリ要件を削減するためにテキストエンコーダー、トランスフォーマー、およびVAEモジュールを量子化するために使用できます。これにより、無料のT4 - ColabまたはVRAMが少ないGPUでモデルを実行できるようになります。また、TorchAO量子化は `torch.compile` - と完全に互換性があり、推論速度を大幅に向上させることができます。`NVIDIA H100` 以上のデバイスでは `FP8` - 精度を使用する必要があり、これには `torch`、`torchao`、`diffusers`、および `accelerate` Python - パッケージをソースからインストールする必要があります。`CUDA 12.4` が推奨されます。 -+ - -推論速度テストでも、上記のVRAM最適化スキームを使用しました。VRAMの最適化を行わない場合、推論速度は約10%向上します。量子化をサポートするのは `diffusers` -バージョンのモデルのみです。 - -+ モデルは英語入力のみをサポートしており、他の言語は大規模なモデルでのリファイン時に英語に翻訳できます。 ++ マルチGPUで推論する場合、`enable_sequential_cpu_offload()`最適化を無効にする必要があります。 ++ INT8モデルを使用すると推論速度が低下しますが、これはメモリの少ないGPUで正常に推論を行い、ビデオ品質の損失を最小限に抑えるための措置です。推論速度は大幅に低下します。 ++ CogVideoX-2Bモデルは`FP16`精度でトレーニングされており、CogVideoX-5Bモデルは`BF16` + 精度でトレーニングされています。推論時にはモデルがトレーニングされた精度を使用することをお勧めします。 ++ [PytorchAO](https://github.com/pytorch/ao)および[Optimum-quanto](https://github.com/huggingface/optimum-quanto/) + は、CogVideoXのメモリ要件を削減するためにテキストエンコーダ、トランスフォーマ、およびVAEモジュールを量子化するために使用できます。これにより、無料のT4 + Colabやより少ないメモリのGPUでモデルを実行することが可能になります。同様に重要なのは、TorchAOの量子化は`torch.compile` + と完全に互換性があり、推論速度を大幅に向上させることができる点です。`NVIDIA H100`およびそれ以上のデバイスでは`FP8` + 精度を使用する必要があります。これには、`torch`、`torchao`、`diffusers`、`accelerate` + Pythonパッケージのソースコードからのインストールが必要です。`CUDA 12.4`の使用をお勧めします。 ++ 推論速度テストも同様に、上記のメモリ最適化方法を使用しています。メモリ最適化を使用しない場合、推論速度は約10%向上します。 + `diffusers`バージョンのモデルのみが量子化をサポートしています。 ++ モデルは英語入力のみをサポートしており、他の言語は大規模モデルの改善を通じて英語に翻訳できます。 ++ モデルのファインチューニングに使用されるメモリは`8 * H100`環境でテストされています。プログラムは自動的に`Zero 2` + 最適化を使用しています。表に具体的なGPU数が記載されている場合、ファインチューニングにはその数以上のGPUが必要です。 ## 友好的リンク @@ -261,11 +266,11 @@ pipe.vae.enable_tiling() + [Xorbits Inference](https://github.com/xorbitsai/inference): 強力で包括的な分散推論フレームワークであり、ワンクリックで独自のモデルや最新のオープンソースモデルを簡単にデプロイできます。 -+ + [ComfyUI-CogVideoXWrapper](https://github.com/kijai/ComfyUI-CogVideoXWrapper) ComfyUIフレームワークを使用して、CogVideoXをワークフローに統合します。 ++ [ComfyUI-CogVideoXWrapper](https://github.com/kijai/ComfyUI-CogVideoXWrapper) + ComfyUIフレームワークを使用して、CogVideoXをワークフローに統合します。 + [VideoSys](https://github.com/NUS-HPC-AI-Lab/VideoSys): VideoSysは、使いやすく高性能なビデオ生成インフラを提供し、最新のモデルや技術を継続的に統合しています。 + [AutoDLイメージ](https://www.codewithgpu.com/i/THUDM/CogVideo/CogVideoX-5b-demo): コミュニティメンバーが提供するHuggingface Spaceイメージのワンクリックデプロイメント。 -+ [Colab Space](https://github.com/camenduru/CogVideoX-5B-jupyter) ColabでJupyter Notebookを使用してCogVideoX-5Bモデルを実行します。 ## プロジェクト構造 @@ -279,23 +284,20 @@ pipe.vae.enable_tiling() モデルの実行をサポートすることもできます。 + [diffusers_vae_demo](inference/cli_vae_demo.py): VAE推論コードの実行には現在71GBのメモリが必要ですが、将来的には最適化される予定です。 + [space demo](inference/gradio_composite_demo): Huggingface Spaceと同じGUIコードで、フレーム補間や超解像ツールが組み込まれています。 + +
+ +
+ + [convert_demo](inference/convert_demo.py): ユーザー入力をCogVideoXに適した形式に変換する方法。CogVideoXは長いキャプションでトレーニングされているため、入力テキストをLLMを使用してトレーニング分布と一致させる必要があります。デフォルトではGLM-4を使用しますが、GPT、Geminiなどの他のLLMに置き換えることもできます。 + [gradio_web_demo](inference/gradio_web_demo.py): CogVideoX-2B / 5B モデルを使用して動画を生成する方法を示す、シンプルな Gradio Web UI デモです。私たちの Huggingface Space と同様に、このスクリプトを使用して Web デモを起動することができます。 -```shell -cd inference -# For Linux and Windows users -python gradio_web_demo.py +### finetune -# For macOS with Apple Silicon users, Intel not supported, this maybe 20x slower than RTX 4090 -PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py -``` - -
- -
++ [train_cogvideox_lora](finetune/README_ja.md): CogVideoX diffusers 微調整方法の詳細な説明が含まれています。このコードを使用して、自分のデータセットで + CogVideoX を微調整することができます。 ### sat @@ -306,8 +308,14 @@ PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py このフォルダには、モデル変換/キャプション生成などのツールが含まれています。 -+ [convert_weight_sat2hf](tools/convert_weight_sat2hf.py): SATモデルのウェイトをHuggingfaceモデルのウェイトに変換します。 -+ [caption_demo](tools/caption): キャプションツール、ビデオを理解し、テキストで出力するモデル。 ++ [convert_weight_sat2hf](tools/convert_weight_sat2hf.py): SAT モデルの重みを Huggingface モデルの重みに変換します。 ++ [caption_demo](tools/caption/README_ja.md): Caption ツール、ビデオを理解してテキストで出力するモデル。 ++ [export_sat_lora_weight](tools/export_sat_lora_weight.py): SAT ファインチューニングモデルのエクスポートツール、SAT Lora + Adapter を diffusers 形式でエクスポートします。 ++ [load_cogvideox_lora](tools/load_cogvideox_lora.py): diffusers 版のファインチューニングされた Lora Adapter + をロードするためのツールコード。 ++ [llm_flux_cogvideox](tools/llm_flux_cogvideox/llm_flux_cogvideox.py): オープンソースのローカル大規模言語モデル + + Flux + CogVideoX を使用して自動的に動画を生成します。 ## CogVideo(ICLR'23) @@ -347,23 +355,7 @@ CogVideoのデモは [https://models.aminer.cn/cogvideo](https://models.aminer.c } ``` -## オープンソースプロジェクト計画 - -- [x] CogVideoX モデルオープンソース化 - - [x] CogVideoX モデル推論例 (CLI / Web デモ) - - [x] CogVideoX オンライン体験例 (Huggingface Space) - - [x] CogVideoX オープンソースモデルAPIインターフェース例 (Huggingface) - - [x] CogVideoX モデル微調整例 (SAT) - - [ ] CogVideoX モデル微調整例 (Huggingface Diffusers) - - [X] CogVideoX-5B オープンソース化 (CogVideoX-2B スイートに適応) - - [X] CogVideoX 技術報告公開 - - [X] CogVideoX 技術解説ビデオ -- [ ] CogVideoX 周辺ツール - - [X] 基本的なビデオ超解像 / フレーム補間スイート - - [ ] 推論フレームワーク適応 - - [ ] ComfyUI 完全エコシステムツール - -あなたの貢献をお待ちしています!詳細は[こちら](resources/contribute_zh.md)をクリックしてください。 +あなたの貢献をお待ちしています!詳細は[こちら](resources/contribute_ja.md)をクリックしてください。 ## ライセンス契約 @@ -372,5 +364,5 @@ CogVideoのデモは [https://models.aminer.cn/cogvideo](https://models.aminer.c CogVideoX-2B モデル (対応するTransformersモジュールやVAEモジュールを含む) は [Apache 2.0 License](LICENSE) の下で公開されています。 -CogVideoX-5B モデル (Transformersモジュール) は +CogVideoX-5B モデル(Transformers モジュール、画像生成ビデオとテキスト生成ビデオのバージョンを含む) は [CogVideoX LICENSE](https://huggingface.co/THUDM/CogVideoX-5b/blob/main/LICENSE) の下で公開されています。 diff --git a/README_zh.md b/README_zh.md index 08ca9e8..a13f5e2 100644 --- a/README_zh.md +++ b/README_zh.md @@ -23,7 +23,13 @@ ## 项目更新 -- 🔥🔥 **News**: ```2024/8/29```: 使用`pipe.enable_sequential_cpu_offload()` 和 `pipe.vae.enable_slicing()` +- 🔥🔥 **News**: ```2024/9/19```: 我们开源 CogVideoX 系列图生视频模型 **CogVideoX-5B-I2V** + 。该模型可以将一张图像作为背景输入,结合提示词一起生成视频,具有更强的可控性。 + 至此,CogVideoX系列模型已经支持文本生成视频,视频续写,图片生成视频三种任务。欢迎前往在线[体验](https://huggingface.co/spaces/THUDM/CogVideoX-5B-Space)。 +- 🔥 **News**: ```2024/9/16```: 我们添加自动化生成视频工具,你可以使用本地开源模型 + FLUX + CogVideoX + 实现自动生成优质视频,欢迎[体验](tools/llm_flux_cogvideox/llm_flux_cogvideox.py) +- 🔥 **News**: ```2024/9/15```: CogVideoX LoRA微调权重导出并在`diffusers`库中测试通过,请查看[教程](sat/README_zh.md)。 +- 🔥 **News**: ```2024/8/29```: 使用`pipe.enable_sequential_cpu_offload()` 和 `pipe.vae.enable_slicing()` 加入到CogVideoX-5B的推理代码中,可以将显存占用下降至`5GB`,请查看[cli_demo](inference/cli_demo.py)的更新。 - 🔥 **News**: ```2024/8/27```: **CogVideoX-2B** 模型开源协议已经修改为**Apache 2.0 协议**。 - 🔥 **News**: ```2024/8/27```: 我们开源 CogVideoX 系列更大的模型 **CogVideoX-5B** @@ -151,82 +157,83 @@ CogVideoX是 [清影](https://chatglm.cn/video?fr=osm_cogvideox) 同源的开源 模型名 CogVideoX-2B CogVideoX-5B - - - 模型介绍 - 入门级模型,兼顾兼容性。运行,二次开发成本低。 - 视频生成质量更高,视觉效果更好的更大尺寸模型。 + CogVideoX-5B-I2V 推理精度 FP16*(推荐), BF16, FP32,FP8*,INT8,不支持INT4 - BF16(推荐), FP16, FP32,FP8*,INT8,不支持INT4 + BF16(推荐), FP16, FP32,FP8*,INT8,不支持INT4 单GPU显存消耗
SAT FP16: 18GB
diffusers FP16: 4GB起*
diffusers INT8(torchao): 3.6G起* - SAT BF16: 26GB
diffusers BF16 : 5GB起*
diffusers INT8(torchao): 4.4G起* + SAT BF16: 26GB
diffusers BF16 : 5GB起*
diffusers INT8(torchao): 4.4G起* 多GPU推理显存消耗 FP16: 10GB* using diffusers
- BF16: 15GB* using diffusers
+ BF16: 15GB* using diffusers
- 推理速度
(Step = 50) - FP16: ~90* s - BF16: ~180* s + 推理速度
(Step = 50, FP/BF16) + 单卡A100: ~90秒
单卡H100: ~45秒 + 单卡A100: ~180秒
单卡H100: ~90秒 微调精度 FP16 - BF16 + BF16 - 微调显存消耗(每卡) + 微调显存消耗 47 GB (bs=1, LORA)
61 GB (bs=2, LORA)
62GB (bs=1, SFT) 63 GB (bs=1, LORA)
80 GB (bs=2, LORA)
75GB (bs=1, SFT)
+ 78 GB (bs=1, LORA)
75GB (bs=1, SFT, 16GPU)
提示词语言 - English* + English* 提示词长度上限 - 226 Tokens + 226 Tokens 视频长度 - 6 秒 + 6 秒 帧率 - 8 帧 / 秒 + 8 帧 / 秒 视频分辨率 - 720 * 480,不支持其他分辨率(含微调) + 720 * 480,不支持其他分辨率(含微调) 位置编码 3d_sincos_pos_embed - 3d_rope_pos_embed
+ 3d_sincos_pos_embed + 3d_rope_pos_embed + learnable_pos_embed 下载链接 (Diffusers) 🤗 HuggingFace
🤖 ModelScope
🟣 WiseModel 🤗 HuggingFace
🤖 ModelScope
🟣 WiseModel + 🤗 HuggingFace
🤖 ModelScope
🟣 WiseModel 下载链接 (SAT) - SAT + SAT **数据解释** -+ 使用 diffusers 库进行测试时,启用了全部`diffusers`库自带的优化,该方案未测试在非**NVIDIA A100 / H100** 外的设备上的实际显存 / 内存占用。通常,该方案可以适配于所有 **NVIDIA 安培架构** -以上的设备。若关闭优化,显存占用会成倍增加,峰值显存约为表格的3倍。但速度提升3-4倍左右。你可以选择性的关闭部分优化,这些优化包括: ++ 使用 diffusers 库进行测试时,启用了全部`diffusers`库自带的优化,该方案未测试在非**NVIDIA A100 / H100** + 外的设备上的实际显存 / 内存占用。通常,该方案可以适配于所有 **NVIDIA 安培架构** + 以上的设备。若关闭优化,显存占用会成倍增加,峰值显存约为表格的3倍。但速度提升3-4倍左右。你可以选择性的关闭部分优化,这些优化包括: + ``` pipe.enable_sequential_cpu_offload() pipe.vae.enable_slicing() @@ -235,7 +242,7 @@ pipe.vae.enable_tiling() + 多GPU推理时,需要关闭 `enable_sequential_cpu_offload()` 优化。 + 使用 INT8 模型会导致推理速度降低,此举是为了满足显存较低的显卡能正常推理并保持较少的视频质量损失,推理速度大幅降低。 -+ 2B 模型采用 `FP16` 精度训练, 5B模型采用 `BF16` 精度训练。我们推荐使用模型训练的精度进行推理。 ++ CogVideoX-2B 模型采用 `FP16` 精度训练, 搜有 CogVideoX-5B 模型采用 `BF16` 精度训练。我们推荐使用模型训练的精度进行推理。 + [PytorchAO](https://github.com/pytorch/ao) 和 [Optimum-quanto](https://github.com/huggingface/optimum-quanto/) 可以用于量化文本编码器、Transformer 和 VAE 模块,以降低 CogVideoX 的内存需求。这使得在免费的 T4 Colab 或更小显存的 GPU 上运行模型成为可能!同样值得注意的是,TorchAO 量化完全兼容 `torch.compile`,这可以显著提高推理速度。在 `NVIDIA H100` @@ -243,6 +250,7 @@ pipe.vae.enable_tiling() 包。建议使用 `CUDA 12.4`。 + 推理速度测试同样采用了上述显存优化方案,不采用显存优化的情况下,推理速度提升约10%。 只有`diffusers`版本模型支持量化。 + 模型仅支持英语输入,其他语言可以通过大模型润色时翻译为英语。 ++ 模型微调所占用的显存是在 `8 * H100` 环境下进行测试,程序已经自动使用`Zero 2` 优化。表格中若有标注具体GPU数量则必须使用大于等于该数量的GPU进行微调。 ## 友情链接 @@ -253,13 +261,24 @@ pipe.vae.enable_tiling() + [VideoSys](https://github.com/NUS-HPC-AI-Lab/VideoSys): VideoSys 提供了易用且高性能的视频生成基础设施,支持完整的管道,并持续集成最新的模型和技术。 + [AutoDL镜像](https://www.codewithgpu.com/i/THUDM/CogVideo/CogVideoX-5b-demo): 由社区成员提供的一键部署Huggingface Space镜像。 -+ [Colab Space](https://github.com/camenduru/CogVideoX-5B-jupyter) 使用 Jupyter Notebook 运行 CogVideoX-5B 模型的 Colab - 代码。 ## 完整项目代码结构 本开源仓库将带领开发者快速上手 **CogVideoX** 开源模型的基础调用方式、微调示例。 +### Colab 快速使用 + +我们提供了四个能直接在免费的 Colab T4上 运行的项目 + ++ [CogVideoX-5B-T2V-Colab.ipynb](https://colab.research.google.com/drive/1pCe5s0bC_xuXbBlpvIH1z0kfdTLQPzCS?usp=sharing): + CogVideoX-5B 文字生成视频 Colab 代码。 ++ [CogVideoX-5B-T2V-Int8-Colab.ipynb](https://colab.research.google.com/drive/1DUffhcjrU-uz7_cpuJO3E_D4BaJT7OPa?usp=sharing): + CogVideoX-5B 文字生成视频量化推理 Colab 代码,运行一次大约需要30分钟。 ++ [CogVideoX-5B-I2V-Colab.ipynb](https://colab.research.google.com/drive/17CqYCqSwz39nZAX2YyonDxosVKUZGzcX?usp=sharing): + CogVideoX-5B 图片生成视频 Colab 代码。 ++ [CogVideoX-5B-V2V-Colab.ipynb](https://colab.research.google.com/drive/1DUffhcjrU-uz7_cpuJO3E_D4BaJT7OPa?usp=sharing): + CogVideoX-5B 视频生成视频 Colab 代码。 + ### inference + [cli_demo](inference/cli_demo.py): 更详细的推理代码讲解,常见参数的意义,在这里都会提及。 @@ -268,25 +287,20 @@ pipe.vae.enable_tiling() 仅测试通过,且必须将 `torch-nightly`,`torchao`源代码安装,不建议在生产环境中使用。 + [diffusers_vae_demo](inference/cli_vae_demo.py): 单独执行VAE的推理代码。 + [space demo](inference/gradio_composite_demo): Huggingface Space同款的 GUI 代码,植入了插帧,超分工具。 -+ [convert_demo](inference/convert_demo.py): 如何将用户的输入转换成适合 - CogVideoX的长输入。因为CogVideoX是在长文本上训练的,所以我们需要把输入文本的分布通过LLM转换为和训练一致的长文本。脚本中默认使用GLM-4,也可以替换为GPT、Gemini等任意大语言模型。 -+ [gradio_web_demo](inference/gradio_web_demo.py): 一个简单的gradio网页应用,展示如何使用 CogVideoX-2B / 5B 模型生成视频。 - 与我们的 - Huggingface Space 类似,你可以使用此脚本运行一个简单的网页应用,用于生成视频。 - -```shell -cd inference -# For Linux and Windows users -python gradio_web_demo.py - -# For macOS with Apple Silicon users, Intel not supported, this maybe 20x slower than RTX 4090 -PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py -```
- +
++ [convert_demo](inference/convert_demo.py): 如何将用户的输入转换成适合 + CogVideoX的长输入。因为CogVideoX是在长文本上训练的,所以我们需要把输入文本的分布通过LLM转换为和训练一致的长文本。脚本中默认使用GLM-4,也可以替换为GPT、Gemini等任意大语言模型。 ++ [gradio_web_demo](inference/gradio_composite_demo/app.py): 与 Huggingface Space 完全相同的代码实现,快速部署 CogVideoX + GUI体验。 + +### finetune + ++ [train_cogvideox_lora](finetune/README_zh.md): diffusers版本 CogVideoX 模型微调方案和细节。 + ### sat + [sat_demo](sat/README_zh.md): 包含了 SAT 权重的推理代码和微调代码,推荐基于 CogVideoX @@ -298,6 +312,11 @@ PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py + [convert_weight_sat2hf](tools/convert_weight_sat2hf.py): 将 SAT 模型权重转换为 Huggingface 模型权重。 + [caption_demo](tools/caption/README_zh.md): Caption 工具,对视频理解并用文字输出的模型。 ++ [export_sat_lora_weight](tools/export_sat_lora_weight.py): SAT微调模型导出工具,将 + SAT Lora Adapter 导出为 diffusers 格式。 ++ [load_cogvideox_lora](tools/load_cogvideox_lora.py): 载入diffusers版微调Lora Adapter的工具代码。 ++ [llm_flux_cogvideox](tools/llm_flux_cogvideox/llm_flux_cogvideox.py): 使用开源本地大语言模型 + Flux + + CogVideoX实现自动化生成视频。 ## CogVideo(ICLR'23) @@ -337,22 +356,6 @@ CogVideo的demo网站在[https://models.aminer.cn/cogvideo](https://models.amine } ``` -## 开源项目规划 - -- [x] CogVideoX 模型开源 - - [x] CogVideoX 模型推理示例 (CLI / Web Demo) - - [x] CogVideoX 在线体验示例 (Huggingface Space) - - [x] CogVideoX 开源模型API接口示例 (Huggingface) - - [x] CogVideoX 模型微调示例 (SAT) - - [ ] CogVideoX 模型微调示例 (Huggingface Diffusers) - - [X] CogVideoX-5B 开源 (适配 CogVideoX-2B 套件) - - [X] CogVideoX 技术报告公开 - - [X] CogVideoX 技术讲解视频 -- [ ] CogVideoX 周边工具 - - [X] 视频超分 / 插帧基础套件 - - [ ] 推理框架适配 - - [ ] ComfyUI 完整生态工具 - 我们欢迎您的贡献,您可以点击[这里](resources/contribute_zh.md)查看更多信息。 ## 模型协议 @@ -361,6 +364,6 @@ CogVideo的demo网站在[https://models.aminer.cn/cogvideo](https://models.amine CogVideoX-2B 模型 (包括其对应的Transformers模块,VAE模块) 根据 [Apache 2.0 协议](LICENSE) 许可证发布。 -CogVideoX-5B 模型 (Transformers 模块) +CogVideoX-5B 模型 (Transformers 模块,包括图生视频,文生视频版本) 根据 [CogVideoX LICENSE](https://huggingface.co/THUDM/CogVideoX-5b/blob/main/LICENSE) 许可证发布。 diff --git a/resources/contribute_zh.md b/resources/contribute_zh.md index f4777b4..4b95254 100644 --- a/resources/contribute_zh.md +++ b/resources/contribute_zh.md @@ -30,10 +30,10 @@ pip install ruff ruff check tools sat inference ``` -检查代码风格,如果有问题,您可以通过`ruff formate`命令自动修复。 +检查代码风格,如果有问题,您可以通过`ruff format .`命令自动修复。 ```shell -ruff formate tools sat inference +ruff format tools sat inference ``` 如果您的代码符合规范,应该不会出现任何的错误。