# CogVideo & CogVideoX [Read this in English](./README_zh.md) [中文阅读](./README_zh.md)
🤗 Huggingface Space または 🤖 ModelScope Space で CogVideoX-5B モデルをオンラインで体験してください
📍 清影 と APIプラットフォーム を訪問して、より大規模な商用ビデオ生成モデルを体験
## 更新とニュース - 🔥🔥 **ニュース**: ```2024/8/29```: `pipe.enable_sequential_cpu_offload()` と `pipe.vae.enable_slicing()` をCogVideoX-5Bの推論コードに追加することで、VRAM使用量を`5GB` まで削減できます。更新された[cli_demo](inference/cli_demo.py)をご覧ください。 - 🔥**ニュース**: ```2024/8/27```: **CogVideoX-2B** モデルのオープンソースライセンスが **Apache 2.0 ライセンス** に変更されました。 - 🔥**ニュース**: ```2024/8/27```: CogVideoX シリーズのより大きなモデル **CogVideoX-5B** をオープンソース化しました。 モデルの推論性能を大幅に最適化し、推論のハードルを大幅に下げました。`GTX 1080TI` などの旧型GPUで **CogVideoX-2B** を、`RTX 3060` などのミドル - 🔥**ニュース**: ```2024/8/20```: [VEnhancer](https://github.com/Vchitect/VEnhancer) は CogVideoX が生成したビデオの強化をサポートしました。より高い解像度とより高品質なビデオレンダリングを実現します。[チュートリアル](tools/venhancer/README_ja.md) に従って、ぜひお試しください。 - 🔥**ニュース**: 2024/8/15: CogVideoX の依存関係である`SwissArmyTransformer`の依存が`0.4.12` にアップグレードされました。これにより、微調整の際に`SwissArmyTransformer` をソースコードからインストールする必要がなくなりました。同時に、`Tied VAE` 技術が `diffusers` ライブラリの実装に適用されました。`diffusers` と `accelerate` ライブラリをソースコードからインストールしてください。CogVdideoX の推論には 12GB の VRAM だけが必要です。 推論コードの修正が必要です。[cli_demo](inference/cli_demo.py)をご確認ください。 - 🔥 **ニュース**: ```2024/8/12```: CogVideoX 論文がarxivにアップロードされました。ぜひ[論文](https://arxiv.org/abs/2408.06072)をご覧ください。 - 🔥 **ニュース**: ```2024/8/7```: CogVideoX は `diffusers` バージョン 0.30.0 に統合されました。単一の 3090 GPU で推論を実行できます。詳細については [コード](inference/cli_demo.py) を参照してください。 - 🔥 **ニュース**: ```2024/8/6```: **CogVideoX-2B** で使用される **3D Causal VAE** もオープンソース化しました。これにより、ビデオをほぼ無損失で再構築できます。 - 🔥 **ニュース**: ```2024/8/6```: **CogVideoX-2B**、CogVideoXシリーズのビデオ生成モデルの最初のモデルをオープンソース化しました。 - 🌱 **ソース**: ```2022/5/19```: **CogVideo** (現在 `CogVideo` ブランチで確認できます) をオープンソース化しました。これは、最初のオープンソースの事前学習済みテキストからビデオ生成モデルであり、技術的な詳細については [ICLR'23 CogVideo 論文](https://arxiv.org/abs/2205.15868) をご覧ください。 **より強力なモデルが、より大きなパラメータサイズで登場予定です。お楽しみに!** ## 目次 特定のセクションにジャンプ: - [クイックスタート](#クイックスタート) - [SAT](#sat) - [Diffusers](#Diffusers) - [CogVideoX-2B ギャラリー](#CogVideoX-2B-ギャラリー) - [モデル紹介](#モデル紹介) - [プロジェクト構造](#プロジェクト構造) - [推論](#推論) - [sat](#sat) - [ツール](#ツール) - [プロジェクト計画](#プロジェクト計画) - [モデルライセンス](#モデルライセンス) - [CogVideo(ICLR'23)モデル紹介](#CogVideoICLR23) - [引用](#引用) ## クイックスタート ### プロンプトの最適化 モデルを実行する前に、[こちら](inference/convert_demo.py) を参考にして、GLM-4(または同等の製品、例えばGPT-4)の大規模モデルを使用してどのようにモデルを最適化するかをご確認ください。これは非常に重要です。モデルは長いプロンプトでトレーニングされているため、良いプロンプトがビデオ生成の品質に直接影響を与えます。 ### SAT [sat_demo](sat/README.md) の指示に従ってください: SATウェイトの推論コードと微調整コードが含まれています。CogVideoXモデル構造に基づいて改善することをお勧めします。革新的な研究者は、このコードを使用して迅速なスタッキングと開発を行うことができます。 ### Diffusers ``` pip install -r requirements.txt ``` 次に [diffusers_demo](inference/cli_demo.py) を参照してください: 推論コードの詳細な説明が含まれており、一般的なパラメータの意味についても言及しています。 ## Gallery ### CogVideoX-5Bモデル名 | CogVideoX-2B | CogVideoX-5B |
---|---|---|
モデル紹介 | 入門モデルで、互換性を重視。運用および二次開発のコストが低い。 | 動画生成品質が高く、視覚効果がより優れた大型モデル。 |
推論精度 | FP16*(推奨), BF16, FP32, FP8*(E4M3, E5M2), INT8, INT4は非対応 | BF16(推奨), FP16, FP32, FP8*(E4M3, E5M2), INT8, INT4は非対応 |
シングルGPU VRAM消費量 |
SAT FP16: 18GB diffusers FP16: 4GBから* diffusers INT8(torchao): 3.6GBから* |
SAT BF16: 26GB diffusers BF16: 5GBから* diffusers INT8(torchao): 4.4GBから* |
複数GPUの推論メモリ消費量 | FP16: 10GB* using diffusers | BF16: 15GB* using diffusers |
推論速度 (Step = 50) |
FP16: ~90* s | BF16: ~180* s |
微調整精度 | FP16 | BF16 |
微調整時のメモリ消費量 (1GPUあたり) | 47 GB (bs=1, LORA) 61 GB (bs=2, LORA) 62GB (bs=1, SFT) |
63 GB (bs=1, LORA) 80 GB (bs=2, LORA) 75GB (bs=1, SFT) |
プロンプト言語 | 英語* | |
プロンプトの長さ上限 | 226トークン | |
動画の長さ | 6秒 | |
フレームレート | 8フレーム/秒 | |
動画の解像度 | 720 * 480、他の解像度はサポートされていません(微調整も含む) | |
位置エンコード | 3d_sincos_pos_embed | 3d_rope_pos_embed |
ダウンロードリンク (Diffusers) | 🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
ダウンロードリンク (SAT) | SAT |