CogVideo/README_ja.md

16 KiB
Raw Blame History

CogVideo && CogVideoX

Read this in English. 中文阅读

🤗 CogVideoX Huggingface Space で体験

📚 論文 をチェック

👋 WeChatDiscord に参加

📍 清影APIプラットフォーム を訪問して、より大規模な商用ビデオ生成モデルを体験

更新とニュース

  • 🔥 ニュース: 2024/8/7: CogVideoX は diffusers バージョン 0.30.0 に統合されました。単一の 3090 GPU で推論を実行できます。詳細については コード を参照してください。
  • 🔥 ニュース: 2024/8/6: CogVideoX-2B で使用される 3D Causal VAE もオープンソース化しました。これにより、ビデオをほぼ無損失で再構築できます。
  • 🔥 ニュース: 2024/8/6: CogVideoX-2B、CogVideoXシリーズのビデオ生成モデルの最初のモデルをオープンソース化しました。
  • 🌱 ソース: 2022/5/19: CogVideo (現在 CogVideo ブランチで確認できます) をオープンソース化しました。これは、最初のオープンソースの事前学習済みテキストからビデオ生成モデルであり、技術的な詳細については ICLR'23 CogVideo 論文 をご覧ください。

より強力なモデルが、より大きなパラメータサイズで登場予定です。お楽しみに!

目次

特定のセクションにジャンプ:

クイックスタート

プロンプトの最適化

モデルを実行する前に、こちら を参考にして、GLM-4または同等の製品、例えばGPT-4の大規模モデルを使用してどのようにモデルを最適化するかをご確認ください。これは非常に重要です。モデルは長いプロンプトでトレーニングされているため、良いプロンプトがビデオ生成の品質に直接影響を与えます。

SAT

sat_demo の指示に従ってください: SATウェイトの推論コードと微調整コードが含まれています。CogVideoXモデル構造に基づいて改善することをお勧めします。革新的な研究者は、このコードを使用して迅速なスタッキングと開発を行うことができます。 (推論には18GB、lora微調整には40GBが必要です)

Diffusers

pip install -r requirements.txt

次に diffusers_demo を参照してください: 推論コードの詳細な説明が含まれており、一般的なパラメータの意味についても言及しています。 (推論には24GBが必要で、微調整コードは開発中です)

CogVideoX-2B ギャラリー

詳細に彫刻されたマストと帆を持つ木製の玩具船が、海の波を模倣した豪華な青いカーペットの上を滑らかに進んでいます。船体は濃い茶色に塗られ、小さな窓が付いています。カーペットは柔らかく、テクスチャーがあり、海洋の広がりを連想させる完璧な背景を提供します。船の周りにはさまざまな他の玩具や子供のアイテムがあり、遊び心のある環境を示唆しています。このシーンは、子供時代の無邪気さと想像力を捉えており、玩具船の旅は室内の幻想的な設定での無限の冒険を象徴しています。

カメラは、黒いルーフラックを備えた白いビンテージSUVの後ろを追いかけ、急な山道をスピードアップして進みます。タイヤからほこりが舞い上がり、日光がSUVに当たり、暖かい輝きを放ちます。山道は緩やかに曲がり、他の車両は見当たりません。道の両側には赤杉の木が立ち並び、緑のパッチが点在しています。車は後ろから見て、険しい地形を楽々と進んでいるように見えます。山道自体は急な丘と山に囲まれ、上空には青い空と薄い雲が広がっています。

色とりどりのバンダナを巻いた、擦り切れたデニムジャケットを着たストリートアーティストが、広大なコンクリートの壁の前に立ち、スプレーペイント缶を持ち、斑点のある壁にカラフルな鳥をスプレーペイントしています。

戦争で荒廃した都市の背景に、廃墟と崩れた壁が破壊の物語を語る中、若い少女の感動的なクローズアップがフレームに収められています。彼女の顔は灰で汚れており、周囲の混乱を静かに物語っています。彼女の目は悲しみと回復力の混じった輝きを放ち、紛争の荒廃によって無垢を失った世界の生の感情を捉えています。

モデル紹介

CogVideoXは、清影 と同源のオープンソース版ビデオ生成モデルです。

以下の表は、現在提供しているビデオ生成モデルのリストと関連する基本情報を示しています:

モデル名 CogVideoX-2B
プロンプト言語 英語
単一GPU推論 (FP16) 18GB using SAT
23.9GB using diffusers
複数GPU推論 (FP16) 20GB minimum per GPU using diffusers
微調整に必要なGPUメモリ(bs=1) 40GB
プロンプトの最大長 226 トークン
ビデオの長さ 6秒
フレームレート 8フレーム
解像度 720 * 480
量子化推論 サポートされていません
ダウンロードリンク (HF diffusers モデル) 🤗 Huggingface 🤖 ModelScope 💫 WiseModel
ダウンロードリンク (SAT モデル) SAT

友好的リンク

コミュニティからの貢献を大歓迎し、私たちもオープンソースコミュニティに積極的に貢献しています。以下の作品はすでにCogVideoXに対応しており、ぜひご利用ください

  • Xorbits Inference: 強力で包括的な分散推論フレームワークであり、ワンクリックで独自のモデルや最新のオープンソースモデルを簡単にデプロイできます。

プロジェクト構造

このオープンソースリポジトリは、CogVideoX オープンソースモデルの基本的な使用方法と微調整の例を迅速に開始するためのガイドです。

推論

  • diffusers_demo: 推論コードの詳細な説明が含まれており、一般的なパラメータの意味についても言及しています。
  • diffusers_vae_demo: VAE推論コードの実行には現在71GBのメモリが必要ですが、将来的には最適化される予定です。
  • convert_demo: ユーザー入力をCogVideoXに適した形式に変換する方法。CogVideoXは長いキャプションでトレーニングされているため、入力テキストをLLMを使用してトレーニング分布と一致させる必要があります。デフォルトではGLM4を使用しますが、GPT、Geminiなどの他のLLMに置き換えることもできます。
  • gradio_web_demo: CogVideoX-2B モデルを使用して動画を生成する方法を示す、シンプルな Gradio Web UI デモです。私たちの Huggingface Space と同様に、このスクリプトを使用して Web デモを起動することができます。
cd inference
# For Linux and Windows users (and macOS with Intel??)
python gradio_web_demo.py # humans mode

# For macOS with Apple Silicon users, Intel not supported, this maybe 20x slower than RTX 4090
PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py # humans mode
  • streamlit_web_demo: CogVideoX-2Bモデルを使用してビデオを生成する方法を示すシンプルなstreamlit Webアプリケーション。

sat

  • sat_demo: SATウェイトの推論コードと微調整コードが含まれています。CogVideoXモデル構造に基づいて改善することをお勧めします。革新的な研究者は、このコードを使用して迅速なスタッキングと開発を行うことができます。

ツール

このフォルダには、モデル変換/キャプション生成などのツールが含まれています。

  • convert_weight_sat2hf: SATモデルのウェイトをHuggingfaceモデルのウェイトに変換します。
  • caption_demo: キャプションツール、ビデオを理解し、テキストで出力するモデル。

プロジェクト計画

  • CogVideoXモデルのオープンソース化
    • CogVideoXで使用される3D Causal VAEのオープンソース化
    • CogVideoXモデルの推論例 (CLI / Webデモ)
    • CogVideoXオンライン体験デモ (Huggingface Space)
    • CogVideoXオープンソースモデルAPIインターフェースの例 (Huggingface)
    • CogVideoXモデルの微調整例 (SAT)
    • CogVideoXモデルの微調整例 (Huggingface / SAT)
    • CogVideoX-Proのオープンソース化 (CogVideoX-2Bスイートに適応)
    • CogVideoX技術レポートの公開

私たちはあなたの貢献を歓迎します。詳細についてはこちらをクリックしてください。

モデルライセンス

このリポジトリのコードは Apache 2.0 ライセンス の下で公開されています。

モデルのウェイトと実装コードは CogVideoX LICENSE の下で公開されています。

CogVideo(ICLR'23)

論文の公式リポジトリ: CogVideo: Large-scale Pretraining for Text-to-Video Generation via TransformersCogVideo branch にあります。

CogVideoは比較的高フレームレートのビデオを生成することができます。 32フレームの4秒間のクリップが以下に示されています。

High-frame-rate sample

Intro images

CogVideoのデモは https://models.aminer.cn/cogvideo で体験できます。 元の入力は中国語です。

引用

🌟 私たちの仕事が役立つと思われた場合、ぜひスターを付けていただき、論文を引用してください。

@article{yang2024cogvideox,
      title={CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer}, 
      author={Zhuoyi Yang and Jiayan Teng and Wendi Zheng and Ming Ding and Shiyu Huang and JiaZheng Xu and Yuanming Yang and Xiaohan Zhang and Xiaotao Gu and Guanyu Feng and Da Yin and Wenyi Hong and Weihan Wang and Yean Cheng and Yuxuan Zhang and Ting Liu and Bin Xu and Yuxiao Dong and Jie Tang},
      year={2024},
}
@article{hong2022cogvideo,
  title={CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers},
  author={Hong, Wenyi and Ding, Ming and Zheng, Wendi and Liu, Xinghan and Tang, Jie},
  journal={arXiv preprint arXiv:2205.15868},
  year={2022}
}