From 6e794724178423de53e0e0ad697f0d66780cefc5 Mon Sep 17 00:00:00 2001
From: OleehyO <leehy0357@gmail.com>
Date: Wed, 1 Jan 2025 14:53:45 +0000
Subject: [PATCH] feat: add training launch scripts for I2V and T2V models

Add two shell scripts to simplify model training:
- accelerate_train_i2v.sh: Launch script for Image-to-Video training
- accelerate_train_t2v.sh: Launch script for Text-to-Video training

Both scripts provide comprehensive configurations for:
- Model settings
- Data pipeline
- Training parameters
- System resources
- Checkpointing
- Validation
---
 finetune/accelerate_train_i2v.sh | 46 ++++++++++++++++++++++++++++++++
 finetune/accelerate_train_t2v.sh | 45 +++++++++++++++++++++++++++++++
 2 files changed, 91 insertions(+)
 create mode 100644 finetune/accelerate_train_i2v.sh
 create mode 100644 finetune/accelerate_train_t2v.sh

diff --git a/finetune/accelerate_train_i2v.sh b/finetune/accelerate_train_i2v.sh
new file mode 100644
index 0000000..372d2c4
--- /dev/null
+++ b/finetune/accelerate_train_i2v.sh
@@ -0,0 +1,46 @@
+#!/usr/bin/env bash
+
+# Prevent tokenizer parallelism issues
+export TOKENIZERS_PARALLELISM=false
+
+# Launch training with accelerate
+accelerate launch train.py \
+    ########## Model Configuration ##########
+    --model_path "THUDM/CogVideoX1.5-5B-I2V" \
+    --model_name "cogvideox1.5-i2v" \
+    --model_type "i2v" \
+    --training_type "lora" \
+    
+    ########## Output Configuration ##########
+    --output_dir "/path/to/output/dir" \
+    --report_to "tensorboard" \
+    
+    ########## Data Configuration ##########
+    --data_root "/path/to/data/dir" \
+    --caption_column "prompt.txt" \
+    --video_column "videos.txt" \
+    --image_column "images.txt" \
+    --train_resolution "48x768x1360" \
+    
+    ########## Training Configuration ##########
+    --train_epochs 10 \
+    --batch_size 1 \
+    --gradient_accumulation_steps 1 \
+    --mixed_precision "bf16" \
+    --seed 42 \
+    
+    ########## System Configuration ##########
+    --num_workers 8 \
+    --pin_memory True \
+    --nccl_timeout 1800 \
+    
+    ########## Checkpointing Configuration ##########
+    --checkpointing_steps 200 \
+    --checkpointing_limit 10 \
+    
+    ########## Validation Configuration ##########
+    --do_validation False \
+    --validation_dir "path/to/validation/dir" \
+    --validation_steps 400 \
+    --validation_prompts "prompts.txt" \
+    --gen_fps 15
diff --git a/finetune/accelerate_train_t2v.sh b/finetune/accelerate_train_t2v.sh
new file mode 100644
index 0000000..bdb0140
--- /dev/null
+++ b/finetune/accelerate_train_t2v.sh
@@ -0,0 +1,45 @@
+#!/usr/bin/env bash
+
+# Prevent tokenizer parallelism issues
+export TOKENIZERS_PARALLELISM=false
+
+# Launch training with accelerate
+accelerate launch train.py \
+    ########## Model Configuration ##########
+    --model_path "THUDM/CogVideoX1.5-5B" \
+    --model_name "cogvideox1.5-t2v" \
+    --model_type "t2v" \
+    --training_type "lora" \
+    
+    ########## Output Configuration ##########
+    --output_dir "/path/to/output/dir" \
+    --report_to "tensorboard" \
+    
+    ########## Data Configuration ##########
+    --data_root "/path/to/data/dir" \
+    --caption_column "prompt.txt" \
+    --video_column "videos.txt" \
+    --train_resolution "48x768x1360" \
+    
+    ########## Training Configuration ##########
+    --train_epochs 10 \
+    --batch_size 1 \
+    --gradient_accumulation_steps 1 \
+    --mixed_precision "bf16" \
+    --seed 42 \
+    
+    ########## System Configuration ##########
+    --num_workers 8 \
+    --pin_memory True \
+    --nccl_timeout 1800 \
+    
+    ########## Checkpointing Configuration ##########
+    --checkpointing_steps 200 \
+    --checkpointing_limit 10 \
+    
+    ########## Validation Configuration ##########
+    --do_validation False \
+    --validation_dir "path/to/validation/dir" \
+    --validation_steps 400 \
+    --validation_prompts "prompts.txt" \
+    --gen_fps 15