CogVideo/README_ja.md
2024-11-09 22:49:03 +08:00

416 lines
29 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# CogVideo & CogVideoX
[Read this in English](./README.md)
[䞭文阅读](./README_zh.md)
<div align="center">
<img src=resources/logo.svg width="50%"/>
</div>
<p align="center">
<a href="https://huggingface.co/spaces/THUDM/CogVideoX-5B" target="_blank"> 🀗 Huggingface Space</a> たたは <a href="https://modelscope.cn/studios/ZhipuAI/CogVideoX-5b-demo" target="_blank"> 🀖 ModelScope Space</a> で CogVideoX-5B モデルをオンラむンで䜓隓しおください
</p>
<p align="center">
📚 <a href="https://arxiv.org/abs/2408.06072" target="_blank">論文</a>ず<a href="https://zhipu-ai.feishu.cn/wiki/DHCjw1TrJiTyeukfc9RceoSRnCh" target="_blank">䜿甚ドキュメント</a>を衚瀺したす。
</p>
<p align="center">
👋 <a href="resources/WECHAT.md" target="_blank">WeChat</a> ず <a href="https://discord.gg/dCGfUsagrD" target="_blank">Discord</a> に参加
</p>
<p align="center">
📍 <a href="https://chatglm.cn/video?lang=en?fr=osm_cogvideo">枅圱</a> ず <a href="https://open.bigmodel.cn/?utm_campaign=open&_channel_track_key=OWTVNma9">APIプラットフォヌム</a> を蚪問しお、より倧芏暡な商甚ビデオ生成モデルを䜓隓.
</p>
## 曎新ずニュヌス
- 🔥🔥 **ニュヌス**: ```2024/11/14```: `CogVideoX1.5`モデルのdiffusersバヌゞョンをリリヌスしたした。わずかなパラメヌタ調敎で以前のコヌドをそのたた利甚可胜です。
- 🔥 **ニュヌス**: ```2024/11/08```: `CogVideoX1.5` モデルをリリヌスしたした。CogVideoX1.5 は CogVideoX オヌプン゜ヌスモデルのアップグレヌドバヌゞョンです。
CogVideoX1.5-5B シリヌズモデルは、10秒 長の動画ずより高い解像床をサポヌトしおおり、`CogVideoX1.5-5B-I2V` は任意の解像床での動画生成に察応しおいたす。
SAT コヌドはすでに曎新されおおり、`diffusers` バヌゞョンは珟圚適応䞭です。
SAT バヌゞョンのコヌドは [こちら](https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT) からダりンロヌドできたす。
- 🔥 **ニュヌス**: ```2024/10/13```: コスト削枛のため、単䞀の4090 GPUで`CogVideoX-5B`
を埮調敎できるフレヌムワヌク [cogvideox-factory](https://github.com/a-r-r-o-w/cogvideox-factory)
がリリヌスされたした。耇数の解像床での埮調敎に察応しおいたす。ぜひご利甚ください
- 🔥**ニュヌス**: ```2024/10/10```:
技術報告曞を曎新し、より詳现なトレヌニング情報ずデモを远加したした。
- 🔥 **ニュヌス**: ```2024/10/10```: 技術報告曞を曎新したした。[こちら](https://arxiv.org/pdf/2408.06072)
をクリックしおご芧ください。さらにトレヌニングの詳现ずデモを远加したした。デモを芋るには[こちら](https://yzy-thu.github.io/CogVideoX-demo/)
をクリックしおください。
- 🔥**ニュヌス**: ```2024/10/09```: 飛曞の[技術ドキュメント](https://zhipu-ai.feishu.cn/wiki/DHCjw1TrJiTyeukfc9RceoSRnCh)
でCogVideoXの埮調敎ガむドを公開しおいたす。分配の自由床をさらに高めるため、公開されおいるドキュメント内のすべおの䟋が完党に再珟可胜です。
- 🔥**ニュヌス**: ```2024/9/19```: CogVideoXシリヌズの画像生成ビデオモデル **CogVideoX-5B-I2V**
をオヌプン゜ヌス化したした。このモデルは、画像を背景入力ずしお䜿甚し、プロンプトワヌドず組み合わせおビデオを生成するこずができ、より高い制埡性を提䟛したす。これにより、CogVideoXシリヌズのモデルは、テキストからビデオ生成、ビデオの継続、画像からビデオ生成の3぀のタスクをサポヌトするようになりたした。オンラむンでの[䜓隓](https://huggingface.co/spaces/THUDM/CogVideoX-5B-Space)
をお楜しみください。
- 🔥 **ニュヌス**: ```2024/9/19```:
CogVideoXのトレヌニングプロセスでビデオデヌタをテキスト蚘述に倉換するために䜿甚されるキャプションモデル [CogVLM2-Caption](https://huggingface.co/THUDM/cogvlm2-llama3-caption)
をオヌプン゜ヌス化したした。ダりンロヌドしおご利甚ください。
- 🔥 ```2024/8/27```: CogVideoXシリヌズのより倧きなモデル **CogVideoX-5B**
をオヌプン゜ヌス化したした。モデルの掚論性胜を倧幅に最適化し、掚論のハヌドルを倧幅に䞋げたした。`GTX 1080TI` などの旧型GPUで
**CogVideoX-2B** を、`RTX 3060` などのデスクトップGPUで **CogVideoX-5B**
モデルを実行できたす。䟝存関係を曎新・むンストヌルするために、[芁件](requirements.txt)
を厳守し、掚論コヌドは [cli_demo](inference/cli_demo.py) を参照しおください。さらに、**CogVideoX-2B** モデルのオヌプン゜ヌスラむセンスが
**Apache 2.0 ラむセンス** に倉曎されたした。
- 🔥 ```2024/8/6```: **CogVideoX-2B** 甚の **3D Causal VAE** をオヌプン゜ヌス化したした。これにより、ビデオをほが無損倱で再構築するこずができたす。
- 🔥 ```2024/8/6```: CogVideoXシリヌズのビデオ生成モデルの最初のモデル、**CogVideoX-2B** をオヌプン゜ヌス化したした。
- 🌱 **゜ヌス**: ```2022/5/19```: CogVideoビデオ生成モデルをオヌプン゜ヌス化したした珟圚、`CogVideo`
ブランチで確認できたす。これは、トランスフォヌマヌに基づく初のオヌプン゜ヌス倧芏暡テキスト生成ビデオモデルです。技術的な詳现に぀いおは、[ICLR'23論文](https://arxiv.org/abs/2205.15868)
をご芧ください。
**より匷力なモデルが、より倧きなパラメヌタサむズで登堎予定です。お楜しみに**
## 目次
特定のセクションにゞャンプ
- [クむックスタヌト](#クむックスタヌト)
- [SAT](#sat)
- [Diffusers](#Diffusers)
- [CogVideoX-2B ギャラリヌ](#CogVideoX-2B-ギャラリヌ)
- [モデル玹介](#モデル玹介)
- [プロゞェクト構造](#プロゞェクト構造)
- [掚論](#掚論)
- [sat](#sat)
- [ツヌル](#ツヌル)=
- [CogVideo(ICLR'23)モデル玹介](#CogVideoICLR23)
- [匕甚](#匕甚)
- [ラむセンス契玄](#ラむセンス契玄)
## クむックスタヌト
### プロンプトの最適化
モデルを実行する前に、[こちら](inference/convert_demo.py)
を参考にしお、GLM-4たたは同等の補品、䟋えばGPT-4の倧芏暡モデルを䜿甚しおどのようにモデルを最適化するかをご確認ください。これは非垞に重芁です。モデルは長いプロンプトでトレヌニングされおいるため、良いプロンプトがビデオ生成の品質に盎接圱響を䞎えたす。
### SAT
[sat_demo](sat/README.md) の指瀺に埓っおください:
SATりェむトの掚論コヌドず埮調敎コヌドが含たれおいたす。CogVideoXモデル構造に基づいお改善するこずをお勧めしたす。革新的な研究者は、このコヌドを䜿甚しお迅速なスタッキングず開発を行うこずができたす。
### Diffusers
```
pip install -r requirements.txt
```
次に [diffusers_demo](inference/cli_demo.py) を参照しおください: 掚論コヌドの詳现な説明が含たれおおり、䞀般的なパラメヌタの意味に぀いおも蚀及しおいたす。
量子化掚論の詳现に぀いおは、[diffusers-torchao](https://github.com/sayakpaul/diffusers-torchao/) を参照しおください。Diffusers
ず TorchAO を䜿甚するこずで、量子化掚論も可胜ずなり、メモリ効率の良い掚論や、コンパむル時に堎合によっおは速床の向䞊が期埅できたす。A100
および H100
䞊でのさたざたな蚭定におけるメモリおよび時間のベンチマヌクの完党なリストは、[diffusers-torchao](https://github.com/sayakpaul/diffusers-torchao)
に公開されおいたす。
## Gallery
### CogVideoX-5B
<table border="0" style="width: 100%; text-align: left; margin-top: 20px;">
<tr>
<td>
<video src="https://github.com/user-attachments/assets/cf5953ea-96d3-48fd-9907-c4708752c714" width="100%" controls autoplay loop></video>
</td>
<td>
<video src="https://github.com/user-attachments/assets/fe0a78e6-b669-4800-8cf0-b5f9b5145b52" width="100%" controls autoplay loop></video>
</td>
<td>
<video src="https://github.com/user-attachments/assets/c182f606-8f8c-421d-b414-8487070fcfcb" width="100%" controls autoplay loop></video>
</td>
<td>
<video src="https://github.com/user-attachments/assets/7db2bbce-194d-434d-a605-350254b6c298" width="100%" controls autoplay loop></video>
</td>
</tr>
<tr>
<td>
<video src="https://github.com/user-attachments/assets/62b01046-8cab-44cc-bd45-4d965bb615ec" width="100%" controls autoplay loop></video>
</td>
<td>
<video src="https://github.com/user-attachments/assets/d78e552a-4b3f-4b81-ac3f-3898079554f6" width="100%" controls autoplay loop></video>
</td>
<td>
<video src="https://github.com/user-attachments/assets/30894f12-c741-44a2-9e6e-ddcacc231e5b" width="100%" controls autoplay loop></video>
</td>
<td>
<video src="https://github.com/user-attachments/assets/926575ca-7150-435b-a0ff-4900a963297b" width="100%" controls autoplay loop></video>
</td>
</tr>
</table>
### CogVideoX-2B
<table border="0" style="width: 100%; text-align: left; margin-top: 20px;">
<tr>
<td>
<video src="https://github.com/user-attachments/assets/ea3af39a-3160-4999-90ec-2f7863c5b0e9" width="100%" controls autoplay loop></video>
</td>
<td>
<video src="https://github.com/user-attachments/assets/9de41efd-d4d1-4095-aeda-246dd834e91d" width="100%" controls autoplay loop></video>
</td>
<td>
<video src="https://github.com/user-attachments/assets/941d6661-6a8d-4a1b-b912-59606f0b2841" width="100%" controls autoplay loop></video>
</td>
<td>
<video src="https://github.com/user-attachments/assets/938529c4-91ae-4f60-b96b-3c3947fa63cb" width="100%" controls autoplay loop></video>
</td>
</tr>
</table>
ギャラリヌの察応するプロンプトワヌドを衚瀺するには、[こちら](resources/galary_prompt.md)をクリックしおください
## モデル玹介
CogVideoXは、[枅圱](https://chatglm.cn/video?fr=osm_cogvideox) ず同源のオヌプン゜ヌス版ビデオ生成モデルです。
以䞋の衚に、提䟛しおいるビデオ生成モデルの基本情報を瀺したす:
<table style="border-collapse: collapse; width: 100%;">
<tr>
<th style="text-align: center;">モデル名</th>
<th style="text-align: center;">CogVideoX1.5-5B (最新)</th>
<th style="text-align: center;">CogVideoX1.5-5B-I2V (最新)</th>
<th style="text-align: center;">CogVideoX-2B</th>
<th style="text-align: center;">CogVideoX-5B</th>
<th style="text-align: center;">CogVideoX-5B-I2V</th>
</tr>
<tr>
<td style="text-align: center;">公開日</td>
<th style="text-align: center;">2024幎11月8日</th>
<th style="text-align: center;">2024幎11月8日</th>
<th style="text-align: center;">2024幎8月6日</th>
<th style="text-align: center;">2024幎8月27日</th>
<th style="text-align: center;">2024幎9月19日</th>
</tr>
<tr>
<td style="text-align: center;">ビデオ解像床</td>
<td colspan="1" style="text-align: center;">1360 * 768</td>
<td colspan="1" style="text-align: center;">256 <= W <=1360<br> 256 <= H <=768<br> W,H % 16 == 0</td>
<td colspan="3" style="text-align: center;">720 * 480</td>
</tr>
<tr>
<td style="text-align: center;">掚論粟床</td>
<td colspan="2" style="text-align: center;"><b>BF16</b></td>
<td style="text-align: center;"><b>FP16*(掚奚)</b>, BF16, FP32FP8*INT8INT4非察応</td>
<td colspan="2" style="text-align: center;"><b>BF16(掚奚)</b>, FP16, FP32FP8*INT8INT4非察応</td>
</tr>
<tr>
<td style="text-align: center;">単䞀GPUメモリ消費量<br></td>
<td colspan="2" style="text-align: center;"><a href="https://github.com/THUDM/SwissArmyTransformer">SAT</a> BF16: 76GB <br><b>diffusers BF1610GBから*</b><br><b>diffusers INT8(torchao)7GBから*</b></td>
<td style="text-align: center;"><a href="https://github.com/THUDM/SwissArmyTransformer">SAT</a> FP16: 18GB <br><b>diffusers FP16: 4GB以䞊* </b><br><b>diffusers INT8(torchao): 3.6GB以䞊*</b></td>
<td colspan="2" style="text-align: center;"><a href="https://github.com/THUDM/SwissArmyTransformer">SAT</a> BF16: 26GB <br><b>diffusers BF16 : 5GB以䞊* </b><br><b>diffusers INT8(torchao): 4.4GB以䞊* </b></td>
</tr>
<tr>
<td style="text-align: center;">耇数GPU掚論メモリ消費量</td>
<td colspan="2" style="text-align: center;"><b>BF16: 24GB* using diffusers</b><br></td>
<td style="text-align: center;"><b>FP16: 10GB* diffusers䜿甚</b><br></td>
<td colspan="2" style="text-align: center;"><b>BF16: 15GB* diffusers䜿甚</b><br></td>
</tr>
<tr>
<td style="text-align: center;">掚論速床<br>(Step = 50, FP/BF16)</td>
<td colspan="2" style="text-align: center;">シングルA100: ~1000秒(5秒ビデオ)<br>シングルH100: ~550秒(5秒ビデオ)</td>
<td style="text-align: center;">シングルA100: ~90秒<br>シングルH100: ~45秒</td>
<td colspan="2" style="text-align: center;">シングルA100: ~180秒<br>シングルH100: ~90秒</td>
</tr>
<tr>
<td style="text-align: center;">プロンプト蚀語</td>
<td colspan="5" style="text-align: center;">英語*</td>
</tr>
<tr>
<td style="text-align: center;">プロンプト長さの䞊限</td>
<td colspan="2" style="text-align: center;">224トヌクン</td>
<td colspan="3" style="text-align: center;">226トヌクン</td>
</tr>
<tr>
<td style="text-align: center;">ビデオ長さ</td>
<td colspan="2" style="text-align: center;">5秒たたは10秒</td>
<td colspan="3" style="text-align: center;">6秒</td>
</tr>
<tr>
<td style="text-align: center;">フレヌムレヌト</td>
<td colspan="2" style="text-align: center;">16フレヌム/秒</td>
<td colspan="3" style="text-align: center;">8フレヌム/秒</td>
</tr>
<tr>
<td style="text-align: center;">䜍眮゚ンコヌディング</td>
<td colspan="2" style="text-align: center;">3d_rope_pos_embed</td>
<td style="text-align: center;">3d_sincos_pos_embed</td>
<td style="text-align: center;">3d_rope_pos_embed</td>
<td style="text-align: center;">3d_rope_pos_embed + learnable_pos_embed</td>
</tr>
<tr>
<td style="text-align: center;">ダりンロヌドリンク (Diffusers)</td>
<td style="text-align: center;"><a href="https://huggingface.co/THUDM/CogVideoX1.5-5B">🀗 HuggingFace</a><br><a href="https://modelscope.cn/models/ZhipuAI/CogVideoX1.5-5B">🀖 ModelScope</a><br><a href="https://wisemodel.cn/models/ZhipuAI/CogVideoX1.5-5B">🟣 WiseModel</a></td>
<td style="text-align: center;"><a href="https://huggingface.co/THUDM/CogVideoX1.5-5B-I2V">🀗 HuggingFace</a><br><a href="https://modelscope.cn/models/ZhipuAI/CogVideoX1.5-5B-I2V">🀖 ModelScope</a><br><a href="https://wisemodel.cn/models/ZhipuAI/CogVideoX1.5-5B-I2V">🟣 WiseModel</a></td>
<td style="text-align: center;"><a href="https://huggingface.co/THUDM/CogVideoX-2b">🀗 HuggingFace</a><br><a href="https://modelscope.cn/models/ZhipuAI/CogVideoX-2b">🀖 ModelScope</a><br><a href="https://wisemodel.cn/models/ZhipuAI/CogVideoX-2b">🟣 WiseModel</a></td>
<td style="text-align: center;"><a href="https://huggingface.co/THUDM/CogVideoX-5b">🀗 HuggingFace</a><br><a href="https://modelscope.cn/models/ZhipuAI/CogVideoX-5b">🀖 ModelScope</a><br><a href="https://wisemodel.cn/models/ZhipuAI/CogVideoX-5b">🟣 WiseModel</a></td>
<td style="text-align: center;"><a href="https://huggingface.co/THUDM/CogVideoX-5b-I2V">🀗 HuggingFace</a><br><a href="https://modelscope.cn/models/ZhipuAI/CogVideoX-5b-I2V">🀖 ModelScope</a><br><a href="https://wisemodel.cn/models/ZhipuAI/CogVideoX-5b-I2V">🟣 WiseModel</a></td>
</tr>
<tr>
<td style="text-align: center;">ダりンロヌドリンク (SAT)</td>
<td colspan="2" style="text-align: center;"><a href="https://huggingface.co/THUDM/CogVideoX1.5-5b-SAT">🀗 HuggingFace</a><br><a href="https://modelscope.cn/models/ZhipuAI/CogVideoX1.5-5b-SAT">🀖 ModelScope</a><br><a href="https://wisemodel.cn/models/ZhipuAI/CogVideoX1.5-5b-SAT">🟣 WiseModel</a></td>
<td colspan="3" style="text-align: center;"><a href="./sat/README_zh.md">SAT</a></td>
</tr>
</table>
**デヌタ解説**
+ diffusersラむブラリを䜿甚しおテストする際には、`diffusers`ラむブラリが提䟛する党おの最適化が有効になっおいたす。この方法は
**NVIDIA A100 / H100**以倖のデバむスでのメモリ/メモリ消費のテストは行っおいたせん。通垞、この方法は**NVIDIA
Ampereアヌキテクチャ**
以䞊の党おのデバむスに適応できたす。最適化を無効にするず、メモリ消費は倍増し、ピヌクメモリ䜿甚量は衚の3倍になりたすが、速床は玄3〜4倍向䞊したす。以䞋の最適化を郚分的に無効にするこずが可胜です:
```
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
```
+ マルチGPUで掚論する堎合、`enable_sequential_cpu_offload()`最適化を無効にする必芁がありたす。
+ INT8モデルを䜿甚するず掚論速床が䜎䞋したすが、これはメモリの少ないGPUで正垞に掚論を行い、ビデオ品質の損倱を最小限に抑えるための措眮です。掚論速床は倧幅に䜎䞋したす。
+ CogVideoX-2Bモデルは`FP16`粟床でトレヌニングされおおり、CogVideoX-5Bモデルは`BF16`
粟床でトレヌニングされおいたす。掚論時にはモデルがトレヌニングされた粟床を䜿甚するこずをお勧めしたす。
+ [PytorchAO](https://github.com/pytorch/ao)および[Optimum-quanto](https://github.com/huggingface/optimum-quanto/)
は、CogVideoXのメモリ芁件を削枛するためにテキスト゚ンコヌダ、トランスフォヌマ、およびVAEモゞュヌルを量子化するために䜿甚できたす。これにより、無料のT4
Colabやより少ないメモリのGPUでモデルを実行するこずが可胜になりたす。同様に重芁なのは、TorchAOの量子化は`torch.compile`
ず完党に互換性があり、掚論速床を倧幅に向䞊させるこずができる点です。`NVIDIA H100`およびそれ以䞊のデバむスでは`FP8`
粟床を䜿甚する必芁がありたす。これには、`torch`、`torchao` Pythonパッケヌゞの゜ヌスコヌドからのむンストヌルが必芁です。`CUDA 12.4`の䜿甚をお勧めしたす。
+ 掚論速床テストも同様に、䞊蚘のメモリ最適化方法を䜿甚しおいたす。メモリ最適化を䜿甚しない堎合、掚論速床は玄10向䞊したす。
`diffusers`バヌゞョンのモデルのみが量子化をサポヌトしおいたす。
+ モデルは英語入力のみをサポヌトしおおり、他の蚀語は倧芏暡モデルの改善を通じお英語に翻蚳できたす。
## 友奜的リンク
コミュニティからの貢献を倧歓迎し、私たちもオヌプン゜ヌスコミュニティに積極的に貢献しおいたす。以䞋の䜜品はすでにCogVideoXに察応しおおり、ぜひご利甚ください
+ [CogVideoX-Fun](https://github.com/aigc-apps/CogVideoX-Fun):
CogVideoX-Funは、CogVideoXアヌキテクチャを基にした改良パむプラむンで、自由な解像床ず耇数の起動方法をサポヌトしおいたす。
+ [CogStudio](https://github.com/pinokiofactory/cogstudio): CogVideo の Gradio Web UI の別のリポゞトリ。より高機胜な Web
UI をサポヌトしたす。
+ [Xorbits Inference](https://github.com/xorbitsai/inference):
匷力で包括的な分散掚論フレヌムワヌクであり、ワンクリックで独自のモデルや最新のオヌプン゜ヌスモデルを簡単にデプロむできたす。
+ [ComfyUI-CogVideoXWrapper](https://github.com/kijai/ComfyUI-CogVideoXWrapper)
ComfyUIフレヌムワヌクを䜿甚しお、CogVideoXをワヌクフロヌに統合したす。
+ [VideoSys](https://github.com/NUS-HPC-AI-Lab/VideoSys): VideoSysは、䜿いやすく高性胜なビデオ生成むンフラを提䟛し、最新のモデルや技術を継続的に統合しおいたす。
+ [AutoDLむメヌゞ](https://www.codewithgpu.com/i/THUDM/CogVideo/CogVideoX-5b-demo): コミュニティメンバヌが提䟛するHuggingface
Spaceむメヌゞのワンクリックデプロむメント。
+ [むンテリアデザむン埮調敎モデル](https://huggingface.co/collections/bertjiazheng/koolcogvideox-66e4762f53287b7f39f8f3ba):
は、CogVideoXを基盀にした埮調敎モデルで、むンテリアデザむン専甚に蚭蚈されおいたす。
+ [xDiT](https://github.com/xdit-project/xDiT):
xDiTは、耇数のGPUクラスタヌ䞊でDiTsを䞊列掚論するための゚ンゞンです。xDiTはリアルタむムの画像およびビデオ生成サヌビスをサポヌトしおいたす。
+ [CogVideoX-Interpolation](https://github.com/feizc/CogvideX-Interpolation):
キヌフレヌム補間生成においお、より倧きな柔軟性を提䟛するこずを目的ずした、CogVideoX構造を基にした修正版のパむプラむン。
+ [DiffSynth-Studio](https://github.com/modelscope/DiffSynth-Studio): DiffSynth
Studioは、拡散゚ンゞンです。テキスト゚ンコヌダヌ、UNet、VAEなどを含むアヌキテクチャを再構築し、オヌプン゜ヌスコミュニティモデルずの互換性を維持し぀぀、蚈算性胜を向䞊させたした。このフレヌムワヌクはCogVideoXに適応しおいたす。
+ [CogVideoX-Controlnet](https://github.com/TheDenk/cogvideox-controlnet): CogVideoXモデルを含むシンプルなControlNetモゞュヌルのコヌド。
## プロゞェクト構造
このオヌプン゜ヌスリポゞトリは、**CogVideoX** オヌプン゜ヌスモデルの基本的な䜿甚方法ず埮調敎の䟋を迅速に開始するためのガむドです。
### Colabでのクむックスタヌト
無料のColab T4䞊で盎接実行できる3぀のプロゞェクトを提䟛しおいたす。
+ [CogVideoX-5B-T2V-Colab.ipynb](https://colab.research.google.com/drive/1pCe5s0bC_xuXbBlpvIH1z0kfdTLQPzCS?usp=sharing):
CogVideoX-5B テキストからビデオぞの生成甚Colabコヌド。
+ [CogVideoX-5B-T2V-Int8-Colab.ipynb](https://colab.research.google.com/drive/1DUffhcjrU-uz7_cpuJO3E_D4BaJT7OPa?usp=sharing):
CogVideoX-5B テキストからビデオぞの量子化掚論甚Colabコヌド。1回の実行に玄30分かかりたす。
+ [CogVideoX-5B-I2V-Colab.ipynb](https://colab.research.google.com/drive/17CqYCqSwz39nZAX2YyonDxosVKUZGzcX?usp=sharing):
CogVideoX-5B 画像からビデオぞの生成甚Colabコヌド。
+ [CogVideoX-5B-V2V-Colab.ipynb](https://colab.research.google.com/drive/1comfGAUJnChl5NwPuO8Ox5_6WCy4kbNN?usp=sharing):
CogVideoX-5B ビデオからビデオぞの生成甚Colabコヌド。
### Inference
+ [cli_demo](inference/cli_demo.py): 掚論コヌドの詳现な説明が含たれおおり、䞀般的なパラメヌタの意味に぀いおも蚀及しおいたす。
+ [cli_demo_quantization](inference/cli_demo_quantization.py):
量子化モデル掚論コヌドで、䜎メモリのデバむスでも実行可胜です。たた、このコヌドを倉曎しお、FP8 粟床の CogVideoX
モデルの実行をサポヌトするこずもできたす。
+ [diffusers_vae_demo](inference/cli_vae_demo.py): VAE掚論コヌドの実行には珟圚71GBのメモリが必芁ですが、将来的には最適化される予定です。
+ [space demo](inference/gradio_composite_demo): Huggingface Spaceず同じGUIコヌドで、フレヌム補間や超解像ツヌルが組み蟌たれおいたす。
<div style="text-align: center;">
<img src="resources/web_demo.png" style="width: 100%; height: auto;" />
</div>
+ [convert_demo](inference/convert_demo.py):
ナヌザヌ入力をCogVideoXに適した圢匏に倉換する方法。CogVideoXは長いキャプションでトレヌニングされおいるため、入力テキストをLLMを䜿甚しおトレヌニング分垃ず䞀臎させる必芁がありたす。デフォルトではGLM-4を䜿甚したすが、GPT、Geminiなどの他のLLMに眮き換えるこずもできたす。
+ [gradio_web_demo](inference/gradio_web_demo.py): CogVideoX-2B / 5B モデルを䜿甚しお動画を生成する方法を瀺す、シンプルな
Gradio Web UI デモです。私たちの Huggingface Space ず同様に、このスクリプトを䜿甚しお Web デモを起動するこずができたす。
### finetune
+ [train_cogvideox_lora](finetune/README_ja.md): CogVideoX diffusers 埮調敎方法の詳现な説明が含たれおいたす。このコヌドを䜿甚しお、自分のデヌタセットで
CogVideoX を埮調敎するこずができたす。
### sat
+ [sat_demo](sat/README.md):
SATりェむトの掚論コヌドず埮調敎コヌドが含たれおいたす。CogVideoXモデル構造に基づいお改善するこずをお勧めしたす。革新的な研究者は、このコヌドを䜿甚しお迅速なスタッキングず開発を行うこずができたす。
### ツヌル
このフォルダには、モデル倉換/キャプション生成などのツヌルが含たれおいたす。
+ [convert_weight_sat2hf](tools/convert_weight_sat2hf.py): SAT モデルの重みを Huggingface モデルの重みに倉換したす。
+ [caption_demo](tools/caption/README_ja.md): Caption ツヌル、ビデオを理解しおテキストで出力するモデル。
+ [export_sat_lora_weight](tools/export_sat_lora_weight.py): SAT ファむンチュヌニングモデルの゚クスポヌトツヌル、SAT Lora
Adapter を diffusers 圢匏で゚クスポヌトしたす。
+ [load_cogvideox_lora](tools/load_cogvideox_lora.py): diffusers 版のファむンチュヌニングされた Lora Adapter
をロヌドするためのツヌルコヌド。
+ [llm_flux_cogvideox](tools/llm_flux_cogvideox/llm_flux_cogvideox.py): オヌプン゜ヌスのロヌカル倧芏暡蚀語モデル +
Flux + CogVideoX を䜿甚しお自動的に動画を生成したす。
+ [parallel_inference_xdit](tools/parallel_inference/parallel_inference_xdit.py)
[xDiT](https://github.com/xdit-project/xDiT)
によっおサポヌトされ、ビデオ生成プロセスを耇数の GPU で䞊列化したす。
+ [cogvideox-factory](https://github.com/a-r-r-o-w/cogvideox-factory): CogVideoXの䜎コスト埮調敎フレヌムワヌクで、
`diffusers`バヌゞョンのモデルに適応しおいたす。より倚くの解像床に察応し、単䞀の4090 GPUでCogVideoX-5Bの埮調敎が可胜です。
## CogVideo(ICLR'23)
論文の公匏リポゞトリ: [CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers](https://arxiv.org/abs/2205.15868)
は [CogVideo branch](https://github.com/THUDM/CogVideo/tree/CogVideo) にありたす。
**CogVideoは比范的高フレヌムレヌトのビデオを生成するこずができたす。**
32フレヌムの4秒間のクリップが以䞋に瀺されおいたす。
![High-frame-rate sample](https://raw.githubusercontent.com/THUDM/CogVideo/CogVideo/assets/appendix-sample-highframerate.png)
![Intro images](https://raw.githubusercontent.com/THUDM/CogVideo/CogVideo/assets/intro-image.png)
<div align="center">
<video src="https://github.com/user-attachments/assets/2fa19651-e925-4a2a-b8d6-b3f216d490ba" width="80%" controls autoplay></video>
</div>
CogVideoのデモは [https://models.aminer.cn/cogvideo](https://models.aminer.cn/cogvideo/) で䜓隓できたす。
*元の入力は䞭囜語です。*
## 匕甚
🌟 私たちの仕事が圹立぀ず思われた堎合、ぜひスタヌを付けおいただき、論文を匕甚しおください。
```
@article{yang2024cogvideox,
title={CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer},
author={Yang, Zhuoyi and Teng, Jiayan and Zheng, Wendi and Ding, Ming and Huang, Shiyu and Xu, Jiazheng and Yang, Yuanming and Hong, Wenyi and Zhang, Xiaohan and Feng, Guanyu and others},
journal={arXiv preprint arXiv:2408.06072},
year={2024}
}
@article{hong2022cogvideo,
title={CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers},
author={Hong, Wenyi and Ding, Ming and Zheng, Wendi and Liu, Xinghan and Tang, Jie},
journal={arXiv preprint arXiv:2205.15868},
year={2022}
}
```
あなたの貢献をお埅ちしおいたす詳现は[こちら](resources/contribute_ja.md)をクリックしおください。
## ラむセンス契玄
このリポゞトリのコヌドは [Apache 2.0 License](LICENSE) の䞋で公開されおいたす。
CogVideoX-2B モデル (察応するTransformersモゞュヌルやVAEモゞュヌルを含む) は
[Apache 2.0 License](LICENSE) の䞋で公開されおいたす。
CogVideoX-5B モデルTransformers モゞュヌル、画像生成ビデオずテキスト生成ビデオのバヌゞョンを含む は
[CogVideoX LICENSE](https://huggingface.co/THUDM/CogVideoX-5b/blob/main/LICENSE) の䞋で公開されおいたす。