CogVideo/README_ja.md
2025-03-24 11:30:17 +08:00

32 KiB
Raw Permalink Blame History

CogVideo & CogVideoX

Read this in English

䞭文阅读

🀗 Huggingface Space たたは 🀖 ModelScope Space で CogVideoX-5B モデルをオンラむンで䜓隓しおください

📚 論文ず䜿甚ドキュメントを衚瀺したす。

👋 WeChat ず Discord に参加

📍 枅圱 ず APIプラットフォヌム を蚪問しお、より倧芏暡な商甚ビデオ生成モデルを䜓隓.

曎新ずニュヌス

  • 🔥🔥 2025/03/24: CogKit は CogView4 および CogVideoX シリヌズの埮調敎ず掚論のためのフレヌムワヌクです。このツヌルキットを掻甚するこずで、私たちのマルチモヌダル生成モデルを最倧限に掻甚できたす。
  • ニュヌス: 2025/02/28: DDIM Inverse が CogVideoX-5B ず CogVideoX1.5-5B でサポヌトされたした。詳现は こちら をご芧ください。
  • ニュヌス: 2025/01/08: 私たちはdiffusersバヌゞョンのモデルをベヌスにしたLora埮調敎甚のコヌドを曎新したした。より少ないVRAMビデオメモリで動䜜したす。詳现に぀いおはこちらをご芧ください。
  • ニュヌス: 2024/11/15: CogVideoX1.5 モデルのdiffusersバヌゞョンをリリヌスしたした。わずかなパラメヌタ調敎で以前のコヌドをそのたた利甚可胜です。
  • ニュヌス: 2024/11/08: CogVideoX1.5 モデルをリリヌスしたした。CogVideoX1.5 は CogVideoX オヌプン゜ヌスモデルのアップグレヌドバヌゞョンです。 CogVideoX1.5-5B シリヌズモデルは、10秒 長の動画ずより高い解像床をサポヌトしおおり、CogVideoX1.5-5B-I2V は任意の解像床での動画生成に察応しおいたす。 SAT コヌドはすでに曎新されおおり、diffusers バヌゞョンは珟圚適応䞭です。 SAT バヌゞョンのコヌドは こちら からダりンロヌドできたす。
  • 🔥 ニュヌス: 2024/10/13: コスト削枛のため、単䞀の4090 GPUでCogVideoX-5B を埮調敎できるフレヌムワヌク cogvideox-factory がリリヌスされたした。耇数の解像床での埮調敎に察応しおいたす。ぜひご利甚ください
  • 🔥ニュヌス: 2024/10/10: 技術報告曞を曎新し、より詳现なトレヌニング情報ずデモを远加したした。
  • 🔥 ニュヌス: 2024/10/10: 技術報告曞を曎新したした。こちら をクリックしおご芧ください。さらにトレヌニングの詳现ずデモを远加したした。デモを芋るにはこちら をクリックしおください。
  • 🔥ニュヌス: 2024/10/09: 飛曞の技術ドキュメント でCogVideoXの埮調敎ガむドを公開しおいたす。分配の自由床をさらに高めるため、公開されおいるドキュメント内のすべおの䟋が完党に再珟可胜です。
  • 🔥ニュヌス: 2024/9/19: CogVideoXシリヌズの画像生成ビデオモデル CogVideoX-5B-I2V をオヌプン゜ヌス化したした。このモデルは、画像を背景入力ずしお䜿甚し、プロンプトワヌドず組み合わせおビデオを生成するこずができ、より高い制埡性を提䟛したす。これにより、CogVideoXシリヌズのモデルは、テキストからビデオ生成、ビデオの継続、画像からビデオ生成の3぀のタスクをサポヌトするようになりたした。オンラむンでの䜓隓 をお楜しみください。
  • 🔥 ニュヌス: 2024/9/19: CogVideoXのトレヌニングプロセスでビデオデヌタをテキスト蚘述に倉換するために䜿甚されるキャプションモデル CogVLM2-Caption をオヌプン゜ヌス化したした。ダりンロヌドしおご利甚ください。
  • 🔥 2024/8/27: CogVideoXシリヌズのより倧きなモデル CogVideoX-5B をオヌプン゜ヌス化したした。モデルの掚論性胜を倧幅に最適化し、掚論のハヌドルを倧幅に䞋げたした。GTX 1080TI などの旧型GPUで CogVideoX-2B を、RTX 3060 などのデスクトップGPUで CogVideoX-5B モデルを実行できたす。䟝存関係を曎新・むンストヌルするために、芁件 を厳守し、掚論コヌドは cli_demo を参照しおください。さらに、CogVideoX-2B モデルのオヌプン゜ヌスラむセンスが Apache 2.0 ラむセンス に倉曎されたした。
  • 🔥 2024/8/6: CogVideoX-2B 甚の 3D Causal VAE をオヌプン゜ヌス化したした。これにより、ビデオをほが無損倱で再構築するこずができたす。
  • 🔥 2024/8/6: CogVideoXシリヌズのビデオ生成モデルの最初のモデル、CogVideoX-2B をオヌプン゜ヌス化したした。
  • 🌱 ゜ヌス: 2022/5/19: CogVideoビデオ生成モデルをオヌプン゜ヌス化したした珟圚、CogVideo ブランチで確認できたす。これは、トランスフォヌマヌに基づく初のオヌプン゜ヌス倧芏暡テキスト生成ビデオモデルです。技術的な詳现に぀いおは、ICLR'23論文 をご芧ください。

より匷力なモデルが、より倧きなパラメヌタサむズで登堎予定です。お楜しみに

目次

特定のセクションにゞャンプ

クむックスタヌト

プロンプトの最適化

モデルを実行する前に、こちら を参考にしお、GLM-4たたは同等の補品、䟋えばGPT-4の倧芏暡モデルを䜿甚しおどのようにモデルを最適化するかをご確認ください。これは非垞に重芁です。モデルは長いプロンプトでトレヌニングされおいるため、良いプロンプトがビデオ生成の品質に盎接圱響を䞎えたす。

SAT

sat_demo の指瀺に埓っおください: SATりェむトの掚論コヌドず埮調敎コヌドが含たれおいたす。CogVideoXモデル構造に基づいお改善するこずをお勧めしたす。革新的な研究者は、このコヌドを䜿甚しお迅速なスタッキングず開発を行うこずができたす。

Diffusers

pip install -r requirements.txt

次に diffusers_demo を参照しおください: 掚論コヌドの詳现な説明が含たれおおり、䞀般的なパラメヌタの意味に぀いおも蚀及しおいたす。

量子化掚論の詳现に぀いおは、diffusers-torchao を参照しおください。Diffusers ず TorchAO を䜿甚するこずで、量子化掚論も可胜ずなり、メモリ効率の良い掚論や、コンパむル時に堎合によっおは速床の向䞊が期埅できたす。A100 および H100 䞊でのさたざたな蚭定におけるメモリおよび時間のベンチマヌクの完党なリストは、diffusers-torchao に公開されおいたす。

CogVideoX-5B

CogVideoX-2B

ギャラリヌの察応するプロンプトワヌドを衚瀺するには、こちらをクリックしおください

モデル玹介

CogVideoXは、枅圱 ず同源のオヌプン゜ヌス版ビデオ生成モデルです。 以䞋の衚に、提䟛しおいるビデオ生成モデルの基本情報を瀺したす:

モデル名 CogVideoX1.5-5B (最新) CogVideoX1.5-5B-I2V (最新) CogVideoX-2B CogVideoX-5B CogVideoX-5B-I2V
公開日 2024幎11月8日 2024幎11月8日 2024幎8月6日 2024幎8月27日 2024幎9月19日
ビデオ解像床 1360 * 768 Min(W, H) = 768
768 ≀ Max(W, H) ≀ 1360
Max(W, H) % 16 = 0
720 * 480
フレヌム数 16N + 1 (N <= 10) である必芁がありたす (デフォルト 81) 8N + 1 (N <= 6) である必芁がありたす (デフォルト 49)
掚論粟床 BF16(掚奚), FP16, FP32FP8*INT8INT4非察応 FP16*(掚奚), BF16, FP32FP8*INT8INT4非察応 BF16(掚奚), FP16, FP32FP8*INT8INT4非察応
単䞀GPUメモリ消費量
SAT BF16: 76GB
diffusers BF1610GBから*
diffusers INT8(torchao)7GBから*
SAT FP16: 18GB
diffusers FP16: 4GB以䞊*
diffusers INT8(torchao): 3.6GB以䞊*
SAT BF16: 26GB
diffusers BF16 : 5GB以䞊*
diffusers INT8(torchao): 4.4GB以䞊*
耇数GPU掚論メモリ消費量 BF16: 24GB* using diffusers
FP16: 10GB* diffusers䜿甚
BF16: 15GB* diffusers䜿甚
掚論速床
(Step = 50, FP/BF16)
シングルA100: ~1000秒(5秒ビデオ)
シングルH100: ~550秒(5秒ビデオ)
シングルA100: ~90秒
シングルH100: ~45秒
シングルA100: ~180秒
シングルH100: ~90秒
プロンプト蚀語 英語*
プロンプト長さの䞊限 224トヌクン 226トヌクン
ビデオ長さ 5秒たたは10秒 6秒
フレヌムレヌト 16フレヌム/秒 8フレヌム/秒
䜍眮゚ンコヌディング 3d_rope_pos_embed 3d_sincos_pos_embed 3d_rope_pos_embed 3d_rope_pos_embed + learnable_pos_embed
ダりンロヌドリンク (Diffusers) 🀗 HuggingFace
🀖 ModelScope
🟣 WiseModel
🀗 HuggingFace
🀖 ModelScope
🟣 WiseModel
🀗 HuggingFace
🀖 ModelScope
🟣 WiseModel
🀗 HuggingFace
🀖 ModelScope
🟣 WiseModel
🀗 HuggingFace
🀖 ModelScope
🟣 WiseModel
ダりンロヌドリンク (SAT) 🀗 HuggingFace
🀖 ModelScope
🟣 WiseModel
SAT

デヌタ解説

  • diffusersラむブラリを䜿甚しおテストする際には、diffusersラむブラリが提䟛する党おの最適化が有効になっおいたす。この方法は NVIDIA A100 / H100以倖のデバむスでのメモリ/メモリ消費のテストは行っおいたせん。通垞、この方法はNVIDIA Ampereアヌキテクチャ 以䞊の党おのデバむスに適応できたす。最適化を無効にするず、メモリ消費は倍増し、ピヌクメモリ䜿甚量は衚の3倍になりたすが、速床は玄3〜4倍向䞊したす。以䞋の最適化を郚分的に無効にするこずが可胜です:
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
  • マルチGPUで掚論する堎合、enable_sequential_cpu_offload()最適化を無効にする必芁がありたす。
  • INT8モデルを䜿甚するず掚論速床が䜎䞋したすが、これはメモリの少ないGPUで正垞に掚論を行い、ビデオ品質の損倱を最小限に抑えるための措眮です。掚論速床は倧幅に䜎䞋したす。
  • CogVideoX-2BモデルはFP16粟床でトレヌニングされおおり、CogVideoX-5BモデルはBF16 粟床でトレヌニングされおいたす。掚論時にはモデルがトレヌニングされた粟床を䜿甚するこずをお勧めしたす。
  • PytorchAOおよびOptimum-quanto は、CogVideoXのメモリ芁件を削枛するためにテキスト゚ンコヌダ、トランスフォヌマ、およびVAEモゞュヌルを量子化するために䜿甚できたす。これにより、無料のT4 Colabやより少ないメモリのGPUでモデルを実行するこずが可胜になりたす。同様に重芁なのは、TorchAOの量子化はtorch.compile ず完党に互換性があり、掚論速床を倧幅に向䞊させるこずができる点です。NVIDIA H100およびそれ以䞊のデバむスではFP8 粟床を䜿甚する必芁がありたす。これには、torch、torchao Pythonパッケヌゞの゜ヌスコヌドからのむンストヌルが必芁です。CUDA 12.4の䜿甚をお勧めしたす。
  • 掚論速床テストも同様に、䞊蚘のメモリ最適化方法を䜿甚しおいたす。メモリ最適化を䜿甚しない堎合、掚論速床は玄10向䞊したす。 diffusersバヌゞョンのモデルのみが量子化をサポヌトしおいたす。
  • モデルは英語入力のみをサポヌトしおおり、他の蚀語は倧芏暡モデルの改善を通じお英語に翻蚳できたす。

友奜的リンク

コミュニティからの貢献を倧歓迎し、私たちもオヌプン゜ヌスコミュニティに積極的に貢献しおいたす。以䞋の䜜品はすでにCogVideoXに察応しおおり、ぜひご利甚ください

  • RIFLEx-CogVideoX RIFLExは動画の長さを倖挿する手法で、たった1行のコヌドで動画の長さを元の2倍に延長できたす。RIFLExはトレヌニング䞍芁の掚論をサポヌトするだけでなく、CogVideoXをベヌスにファむンチュヌニングしたモデルも提䟛しおいたす。元の長さの動画でわずか1000ステップのファむンチュヌニングを行うだけで、長さ倖挿胜力を倧幅に向䞊させるこずができたす。
  • CogVideoX-Fun: CogVideoX-Funは、CogVideoXアヌキテクチャを基にした改良パむプラむンで、自由な解像床ず耇数の起動方法をサポヌトしおいたす。
  • CogStudio: CogVideo の Gradio Web UI の別のリポゞトリ。より高機胜な Web UI をサポヌトしたす。
  • Xorbits Inference: 匷力で包括的な分散掚論フレヌムワヌクであり、ワンクリックで独自のモデルや最新のオヌプン゜ヌスモデルを簡単にデプロむできたす。
  • ComfyUI-CogVideoXWrapper ComfyUIフレヌムワヌクを䜿甚しお、CogVideoXをワヌクフロヌに統合したす。
  • VideoSys: VideoSysは、䜿いやすく高性胜なビデオ生成むンフラを提䟛し、最新のモデルや技術を継続的に統合しおいたす。
  • AutoDLむメヌゞ: コミュニティメンバヌが提䟛するHuggingface Spaceむメヌゞのワンクリックデプロむメント。
  • むンテリアデザむン埮調敎モデル: は、CogVideoXを基盀にした埮調敎モデルで、むンテリアデザむン専甚に蚭蚈されおいたす。
  • xDiT: xDiTは、耇数のGPUクラスタヌ䞊でDiTsを䞊列掚論するための゚ンゞンです。xDiTはリアルタむムの画像およびビデオ生成サヌビスをサポヌトしおいたす。
  • CogVideoX-Interpolation: キヌフレヌム補間生成においお、より倧きな柔軟性を提䟛するこずを目的ずした、CogVideoX構造を基にした修正版のパむプラむン。
  • DiffSynth-Studio: DiffSynth Studioは、拡散゚ンゞンです。テキスト゚ンコヌダヌ、UNet、VAEなどを含むアヌキテクチャを再構築し、オヌプン゜ヌスコミュニティモデルずの互換性を維持し぀぀、蚈算性胜を向䞊させたした。このフレヌムワヌクはCogVideoXに適応しおいたす。
  • CogVideoX-Controlnet: CogVideoXモデルを含むシンプルなControlNetモゞュヌルのコヌド。
  • VideoTuna: VideoTuna は、テキストからビデオ、画像からビデオ、テキストから画像生成のための耇数のAIビデオ生成モデルを統合した最初のリポゞトリです。
  • ConsisID: 䞀貫性のある顔を保持するために、呚波数分解を䜿甚するCogVideoX-5Bに基づいたアむデンティティ保持型テキストから動画生成モデル。
  • ステップバむステップチュヌトリアル: WindowsおよびクラりドでのCogVideoX1.5-5B-I2Vモデルのむンストヌルず最適化に関するステップバむステップガむド。FurkanGozukara氏の尜力ずサポヌトに感謝いたしたす

プロゞェクト構造

このオヌプン゜ヌスリポゞトリは、CogVideoX オヌプン゜ヌスモデルの基本的な䜿甚方法ず埮調敎の䟋を迅速に開始するためのガむドです。

Colabでのクむックスタヌト

無料のColab T4䞊で盎接実行できる3぀のプロゞェクトを提䟛しおいたす。

  • CogVideoX-5B-T2V-Colab.ipynb: CogVideoX-5B テキストからビデオぞの生成甚Colabコヌド。
  • CogVideoX-5B-T2V-Int8-Colab.ipynb: CogVideoX-5B テキストからビデオぞの量子化掚論甚Colabコヌド。1回の実行に玄30分かかりたす。
  • CogVideoX-5B-I2V-Colab.ipynb: CogVideoX-5B 画像からビデオぞの生成甚Colabコヌド。
  • CogVideoX-5B-V2V-Colab.ipynb: CogVideoX-5B ビデオからビデオぞの生成甚Colabコヌド。

Inference

  • cli_demo: 掚論コヌドの詳现な説明が含たれおおり、䞀般的なパラメヌタの意味に぀いおも蚀及しおいたす。
  • cli_demo_quantization: 量子化モデル掚論コヌドで、䜎メモリのデバむスでも実行可胜です。たた、このコヌドを倉曎しお、FP8 粟床の CogVideoX モデルの実行をサポヌトするこずもできたす。
  • diffusers_vae_demo: VAE掚論コヌドの実行には珟圚71GBのメモリが必芁ですが、将来的には最適化される予定です。
  • space demo: Huggingface Spaceず同じGUIコヌドで、フレヌム補間や超解像ツヌルが組み蟌たれおいたす。
  • convert_demo: ナヌザヌ入力をCogVideoXに適した圢匏に倉換する方法。CogVideoXは長いキャプションでトレヌニングされおいるため、入力テキストをLLMを䜿甚しおトレヌニング分垃ず䞀臎させる必芁がありたす。デフォルトではGLM-4を䜿甚したすが、GPT、Geminiなどの他のLLMに眮き換えるこずもできたす。
  • gradio_web_demo: CogVideoX-2B / 5B モデルを䜿甚しお動画を生成する方法を瀺す、シンプルな Gradio Web UI デモです。私たちの Huggingface Space ず同様に、このスクリプトを䜿甚しお Web デモを起動するこずができたす。

finetune

  • train_cogvideox_lora: CogVideoX diffusers 埮調敎方法の詳现な説明が含たれおいたす。このコヌドを䜿甚しお、自分のデヌタセットで CogVideoX を埮調敎するこずができたす。

sat

  • sat_demo: SATりェむトの掚論コヌドず埮調敎コヌドが含たれおいたす。CogVideoXモデル構造に基づいお改善するこずをお勧めしたす。革新的な研究者は、このコヌドを䜿甚しお迅速なスタッキングず開発を行うこずができたす。

ツヌル

このフォルダには、モデル倉換/キャプション生成などのツヌルが含たれおいたす。

  • convert_weight_sat2hf: SAT モデルの重みを Huggingface モデルの重みに倉換したす。
  • caption_demo: Caption ツヌル、ビデオを理解しおテキストで出力するモデル。
  • export_sat_lora_weight: SAT ファむンチュヌニングモデルの゚クスポヌトツヌル、SAT Lora Adapter を diffusers 圢匏で゚クスポヌトしたす。
  • load_cogvideox_lora: diffusers 版のファむンチュヌニングされた Lora Adapter をロヌドするためのツヌルコヌド。
  • llm_flux_cogvideox: オヌプン゜ヌスのロヌカル倧芏暡蚀語モデル + Flux + CogVideoX を䜿甚しお自動的に動画を生成したす。
  • parallel_inference_xdit xDiT によっおサポヌトされ、ビデオ生成プロセスを耇数の GPU で䞊列化したす。
  • cogvideox-factory: CogVideoXの䜎コスト埮調敎フレヌムワヌクで、 diffusersバヌゞョンのモデルに適応しおいたす。より倚くの解像床に察応し、単䞀の4090 GPUでCogVideoX-5Bの埮調敎が可胜です。

CogVideo(ICLR'23)

論文の公匏リポゞトリ: CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers は CogVideo branch にありたす。

CogVideoは比范的高フレヌムレヌトのビデオを生成するこずができたす。 32フレヌムの4秒間のクリップが以䞋に瀺されおいたす。

High-frame-rate sample

Intro images

CogVideoのデモは https://models.aminer.cn/cogvideo で䜓隓できたす。 元の入力は䞭囜語です。

匕甚

🌟 私たちの仕事が圹立぀ず思われた堎合、ぜひスタヌを付けおいただき、論文を匕甚しおください。

@article{yang2024cogvideox,
  title={CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer},
  author={Yang, Zhuoyi and Teng, Jiayan and Zheng, Wendi and Ding, Ming and Huang, Shiyu and Xu, Jiazheng and Yang, Yuanming and Hong, Wenyi and Zhang, Xiaohan and Feng, Guanyu and others},
  journal={arXiv preprint arXiv:2408.06072},
  year={2024}
}
@article{hong2022cogvideo,
  title={CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers},
  author={Hong, Wenyi and Ding, Ming and Zheng, Wendi and Liu, Xinghan and Tang, Jie},
  journal={arXiv preprint arXiv:2205.15868},
  year={2022}
}

ラむセンス契玄

このリポゞトリのコヌドは Apache 2.0 License の䞋で公開されおいたす。

CogVideoX-2B モデル (察応するTransformersモゞュヌルやVAEモゞュヌルを含む) は Apache 2.0 License の䞋で公開されおいたす。

CogVideoX-5B モデルTransformers モゞュヌル、画像生成ビデオずテキスト生成ビデオのバヌゞョンを含む は CogVideoX LICENSE の䞋で公開されおいたす。