update diffuser and sat

This commit is contained in:
zR 2024-08-15 13:28:50 +08:00
parent 1c2e487820
commit a83589fb1a
8 changed files with 13 additions and 45 deletions

View File

@ -22,7 +22,11 @@
## Update and News
- 🔥🔥 **News**: ```2024/8/12```: The CogVideoX paper has been uploaded to arxiv. Feel free to check out
- 🔥🔥 **News**: ```2024/8/15```: The `SwissArmyTransformer` dependency in CogVideoX has been upgraded to `0.4.12`. Fine-tuning
no longer requires installing `SwissArmyTransformer` from source. Additionally, the `Tied VAE` technique has been
applied in the implementation within the `diffusers` library. Please install `diffusers` and `accelerate` libraries
from source. Inference for CogVideoX now requires only 12GB of VRAM.
- 🔥 **News**: ```2024/8/12```: The CogVideoX paper has been uploaded to arxiv. Feel free to check out
the [paper](https://arxiv.org/abs/2408.06072).
- 🔥 **News**: ```2024/8/7```: CogVideoX has been integrated into `diffusers` version 0.30.0. Inference can now be
performed

View File

@ -21,8 +21,8 @@
</p>
## 更新とニュース
- 🔥🔥 **ニュース**: ```2024/8/12```: CogVideoX 論文がarxivにアップロードされました。ぜひ[論文](https://arxiv.org/abs/2408.06072)をご覧ください。
- 🔥🔥 **ニュース**: 2024/8/15: CogVideoX の依存関係である`SwissArmyTransformer`の依存が`0.4.12`にアップグレードされました。これにより、微調整の際に`SwissArmyTransformer`をソースコードからインストールする必要がなくなりました。同時に、`Tied VAE` 技術が `diffusers` ライブラリの実装に適用されました。`diffusers``accelerate` ライブラリをソースコードからインストールしてください。CogVdideoX の推論には 12GB の VRAM だけが必要です。
- 🔥 **ニュース**: ```2024/8/12```: CogVideoX 論文がarxivにアップロードされました。ぜひ[論文](https://arxiv.org/abs/2408.06072)をご覧ください。
- 🔥 **ニュース**: ```2024/8/7```: CogVideoX は `diffusers` バージョン 0.30.0 に統合されました。単一の 3090 GPU
で推論を実行できます。詳細については [コード](inference/cli_demo.py) を参照してください。
- 🔥 **ニュース**: ```2024/8/6```: **CogVideoX-2B** で使用される **3D Causal VAE** もオープンソース化しました。これにより、ビデオをほぼ無損失で再構築できます。

View File

@ -23,7 +23,10 @@
## 项目更新
- 🔥🔥 **News**: ```2024/8/12```: CogVideoX 论文已上传到arxiv欢迎查看[论文](https://arxiv.org/abs/2408.06072)。
- 🔥🔥 **News**: ```2024/8/15```: CogVideoX 依赖中`SwissArmyTransformer`依赖升级到`0.4.12`,
微调不再需要从源代码安装`SwissArmyTransformer`。同时,`Tied VAE` 技术已经被应用到 `diffusers`
库中的实现,请从源代码安装 `diffusers``accelerate` 库,推理 CogVdideoX 仅需 12GB显存。
- 🔥 **News**: ```2024/8/12```: CogVideoX 论文已上传到arxiv欢迎查看[论文](https://arxiv.org/abs/2408.06072)。
- 🔥 **News**: ```2024/8/7```: CogVideoX 已经合并入 `diffusers`
0.30.0版本单张3090可以推理详情请见[代码](inference/cli_demo.py)。
- 🔥 **News**: ```2024/8/6```: 我们开源 **3D Causal VAE**,用于 **CogVideoX-2B**,可以几乎无损地重构视频。

View File

@ -2,7 +2,7 @@ diffusers==0.30.0
transformers==4.44.0
accelerate==0.33.0
sentencepiece==0.2.0 # T5
SwissArmyTransformer==0.4.11 # Inference
SwissArmyTransformer==0.4.12 # Inference
torch==2.4.0 # Tested in 2.2 2.3 2.4 and 2.5
torchvision==0.19.0
gradio==4.40.0 # For HF gradio demo

View File

@ -120,22 +120,6 @@ bash inference.sh
## Fine-Tuning the Model
### Preparing the Environment
Please note that currently, SAT needs to be installed from the source code for proper fine-tuning.
You need to get the code from the source to support the fine-tuning functionality, as these features have not yet been
released in the Pip package.
We will address this issue in future stable releases.
```
git clone https://github.com/THUDM/SwissArmyTransformer.git
cd SwissArmyTransformer
pip install -e .
```
### Preparing the Dataset
The dataset format should be as follows:

View File

@ -118,17 +118,6 @@ bash inference.sh
## モデルのファインチューニング
### 環境の準備
ご注意ください、現在、SATを正常にファインチューニングするためには、ソースコードからインストールする必要があります。
これは、まだpipパッケージバージョンにリリースされていない最新の機能を使用する必要があるためです。この問題は、今後の安定版で解決する予定です。
```
git clone https://github.com/THUDM/SwissArmyTransformer.git
cd SwissArmyTransformer
pip install -e .
```
### データセットの準備
データセットの形式は次のようになります:

View File

@ -114,18 +114,6 @@ bash inference.sh
## 微调模型
### 准备环境
请注意目前SAT需要从源码安装才能正常微调。
这是因为你需要使用还没发型到pip包版本的最新代码所支持的功能。
我们将会在未来的稳定版本解决这个问题。
```
git clone https://github.com/THUDM/SwissArmyTransformer.git
cd SwissArmyTransformer
pip install -e .
```
### 准备数据集
数据集格式应该如下:

View File

@ -1,4 +1,4 @@
SwissArmyTransformer==0.4.11
SwissArmyTransformer==0.4.12
omegaconf==2.3.0
torch==2.4.0
torchvision==0.19.0