diff --git a/README.md b/README.md index 1307d1f..cf10bbc 100644 --- a/README.md +++ b/README.md @@ -1,6 +1,7 @@ # CogVideo && CogVideoX [中文阅读](./README_zh.md) + [日本語で読む](./README_ja.md)
@@ -10,7 +11,7 @@ 🤗 Experience on CogVideoX Huggingface Space

-📚 Check here to view Paper +📚 Check here to view Paper

👋 Join our WeChat and Discord @@ -21,6 +22,8 @@ ## Update and News +- 🔥🔥 **News**: ```2024/8/12```: The CogVideoX paper has been uploaded to arxiv. Feel free to check out + the [paper](https://arxiv.org/abs/2408.06072). - 🔥 **News**: ```2024/8/7```: CogVideoX has been integrated into `diffusers` version 0.30.0. Inference can now be performed on a single 3090 GPU. For more details, please refer to the [code](inference/cli_demo.py). @@ -152,6 +155,7 @@ of the **CogVideoX** open-source model. GPT, Gemini, etc. + [gradio_web_demo](inference/gradio_web_demo.py): A simple gradio web UI demonstrating how to use the CogVideoX-2B model to generate videos. Same as Our Huggingface Space, you can use this script to launch a web demo. + ```shell cd inference # For Linux and Windows users (and macOS with Intel??) diff --git a/README_ja.md b/README_ja.md index 398de54..f216a35 100644 --- a/README_ja.md +++ b/README_ja.md @@ -1,6 +1,7 @@ # CogVideo && CogVideoX [Read this in English.](./README_zh) + [中文阅读](./README_zh.md)

@@ -10,7 +11,7 @@ 🤗 CogVideoX Huggingface Space で体験

-📚 論文 をチェック +📚 論文 をチェック

👋 WeChatDiscord に参加 @@ -21,6 +22,7 @@ ## 更新とニュース +- 🔥🔥 **ニュース**: ```2024/8/12```: CogVideoX 論文がarxivにアップロードされました。ぜひ[論文](https://arxiv.org/abs/2408.06072)をご覧ください。 - 🔥 **ニュース**: ```2024/8/7```: CogVideoX は `diffusers` バージョン 0.30.0 に統合されました。単一の 3090 GPU で推論を実行できます。詳細については [コード](inference/cli_demo.py) を参照してください。 - 🔥 **ニュース**: ```2024/8/6```: **CogVideoX-2B** で使用される **3D Causal VAE** もオープンソース化しました。これにより、ビデオをほぼ無損失で再構築できます。 @@ -221,3 +223,22 @@ CogVideoのデモは [https://models.aminer.cn/cogvideo](https://models.aminer.c year={2022} } ``` + +## オープンソースプロジェクト計画 + +- [x] CogVideoX モデルのオープンソース化 + - [x] CogVideoX モデル推論サンプル (CLI / Web デモ) + - [x] CogVideoX オンライン体験サンプル (Huggingface Space) + - [x] CogVideoX オープンソースAPIインターフェースサンプル (Huggingface) + - [x] CogVideoX モデルの微調整サンプル (SAT) + - [ ] CogVideoX モデルの微調整サンプル (Huggingface / SAT) + - [ ] CogVideoX-Pro オープンソース化 (CogVideoX-2B スイートに対応) + - [X] CogVideoX 技術レポート公開 + +私たちは皆さんの貢献を歓迎しています。詳しくは[こちら](resources/contribute_zh.md)をご覧ください。 + +## モデルライセンス + +本リポジトリのコードは [Apache 2.0 ライセンス](LICENSE) の下で公開されています。 + +本モデルのウェイトと実装コードは [CogVideoX LICENSE](MODEL_LICENSE) ライセンスに基づいて公開されています。 \ No newline at end of file diff --git a/README_zh.md b/README_zh.md index 8a9d6d0..1cc1cf5 100644 --- a/README_zh.md +++ b/README_zh.md @@ -1,6 +1,7 @@ # CogVideo && CogVideoX [Read this in English.](./README_zh) + [日本語で読む](./README_ja.md) @@ -11,7 +12,7 @@ 🤗 在 CogVideoX Huggingface Space 体验视频生成模型

-📚 查看 论文 +📚 查看 论文

👋 加入我们的 微信Discord @@ -22,6 +23,7 @@ ## 项目更新 +- 🔥🔥 **News**: ```2024/8/12```: CogVideoX 论文已上传到arxiv,欢迎查看[论文](https://arxiv.org/abs/2408.06072)。 - 🔥 **News**: ```2024/8/7```: CogVideoX 已经合并入 `diffusers` 0.30.0版本,单张3090可以推理,详情请见[代码](inference/cli_demo.py)。 - 🔥 **News**: ```2024/8/6```: 我们开源 **3D Causal VAE**,用于 **CogVideoX-2B**,可以几乎无损地重构视频。 @@ -52,7 +54,8 @@ ### 提示词优化 -在开始运行模型之前,请参考[这里](inference/convert_demo.py) 查看我们是怎么使用GLM-4(或者同级别的其他产品,例如GPT-4)大模型对模型进行优化的,这很重要, +在开始运行模型之前,请参考[这里](inference/convert_demo.py) 查看我们是怎么使用GLM-4(或者同级别的其他产品,例如GPT-4) +大模型对模型进行优化的,这很重要, 由于模型是在长提示词下训练的,一个好的提示词直接影响了视频生成的质量。 ### SAT @@ -128,7 +131,8 @@ CogVideoX是 [清影](https://chatglm.cn/video?fr=osm_cogvideox) 同源的开源 + [convert_demo](inference/convert_demo.py): 如何将用户的输入转换成适合 CogVideoX的长输入。因为CogVideoX是在长文本上训练的,所以我们需要把输入文本的分布通过LLM转换为和训练一致的长文本。脚本中默认使用GLM4,也可以替换为GPT、Gemini等任意大语言模型。 + [gradio_web_demo](inference/gradio_web_demo.py): 一个简单的gradio网页应用,展示如何使用 CogVideoX-2B 模型生成视频。 -与我们的 Huggingface Space 类似,你可以使用此脚本运行一个简单的网页应用,用于生成视频。 + 与我们的 Huggingface Space 类似,你可以使用此脚本运行一个简单的网页应用,用于生成视频。 + ```shell cd inference # For Linux and Windows users (and macOS with Intel??) @@ -137,6 +141,7 @@ python gradio_web_demo.py # humans mode # For macOS with Apple Silicon users, Intel not supported, this maybe 20x slower than RTX 4090 PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py # humans mode ``` +

diff --git a/resources/CogVideoX.pdf b/resources/CogVideoX.pdf deleted file mode 100644 index c577181..0000000 Binary files a/resources/CogVideoX.pdf and /dev/null differ diff --git a/resources/logo.svg b/resources/logo.svg index 68333be..d0b8d44 100644 --- a/resources/logo.svg +++ b/resources/logo.svg @@ -1,298 +1,142 @@ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + diff --git a/sat/README.md b/sat/README.md index b246100..944c0b6 100644 --- a/sat/README.md +++ b/sat/README.md @@ -1,5 +1,10 @@ # SAT CogVideoX-2B +[中文阅读](./README_zh.md) + +[日本語で読む](./README_ja.md) + + This folder contains the inference code using [SAT](https://github.com/THUDM/SwissArmyTransformer) weights and the fine-tuning code for SAT weights. diff --git a/sat/README_ja.md b/sat/README_ja.md index deb830f..240df60 100644 --- a/sat/README_ja.md +++ b/sat/README_ja.md @@ -1,5 +1,9 @@ # SAT CogVideoX-2B +[Read this in English.](./README_zh) + +[中文阅读](./README_zh.md) + このフォルダには、[SAT](https://github.com/THUDM/SwissArmyTransformer) ウェイトを使用した推論コードと、SAT ウェイトのファインチューニングコードが含まれています。 diff --git a/sat/README_zh.md b/sat/README_zh.md index 3335e52..21f964a 100644 --- a/sat/README_zh.md +++ b/sat/README_zh.md @@ -1,5 +1,9 @@ # SAT CogVideoX-2B +[Read this in English.](./README_zh) + +[日本語で読む](./README_ja.md) + 本文件夹包含了使用 [SAT](https://github.com/THUDM/SwissArmyTransformer) 权重的推理代码,以及 SAT 权重的微调代码。 该代码是团队训练模型时使用的框架。注释较少,需要认真研究。