GPT-SoVITS/only_tts/config_examples.py

# TTS Configuration for V4 and V2Pro Models Only
# GPT-SoVITS V4/V2Pro 모델 전용 설정 예제

"""
V4 릴리스 노트:
- V3에서 발생하는 비정수 배율 업샘플링으로 인한 금속성 잡음 문제 수정
- 기본적으로 48kHz 오디오 출력 (V3는 24kHz)
- V3의 직접적인 대체 버전으로 권장

V2Pro 릴리스 노트:
- V2보다 약간 높은 VRAM 사용량이지만 V4보다 우수한 성능
- V2 수준의 하드웨어 비용과 속도 유지
- 평균 음질이 낮은 학습 데이터셋에서 V3/V4보다 좋은 결과
"""

# V4 모델 설정 (권장)
V4_CONFIG = {
    "device": "cuda",
    "is_half": True,
    "version": "v4",
    "t2s_weights_path": "pretrained_models/gsv-v4-pretrained/s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt",
    "vits_weights_path": "pretrained_models/gsv-v4-pretrained/s2Gv4.pth",
    "vocoder_path": "pretrained_models/gsv-v4-pretrained/vocoder.pth",
    "bert_base_path": "pretrained_models/chinese-roberta-wwm-ext-large",
    "cnhuhbert_base_path": "pretrained_models/chinese-hubert-base",
}

# V2Pro 모델 설정
V2PRO_CONFIG = {
    "device": "cuda",
    "is_half": True,
    "version": "v2Pro",
    "t2s_weights_path": "pretrained_models/v2Pro/s1bert25hz-5kh-longer-epoch=12-step=369668.ckpt",
    "vits_weights_path": "pretrained_models/v2Pro/s2Gv2Pro.pth",
    "bert_base_path": "pretrained_models/chinese-roberta-wwm-ext-large",
    "cnhuhbert_base_path": "pretrained_models/chinese-hubert-base",
    "sv_model_path": "pretrained_models/sv/pretrained_eres2netv2w24s4ep4.ckpt",
}

# V2ProPlus 모델 설정 (V2Pro 향상 버전)
V2PROPLUS_CONFIG = {
    "device": "cuda",
    "is_half": True,
    "version": "v2ProPlus",
    "t2s_weights_path": "pretrained_models/v2Pro/s1bert25hz-5kh-longer-epoch=12-step=369668.ckpt",
    "vits_weights_path": "pretrained_models/v2Pro/s2Gv2ProPlus.pth",
    "bert_base_path": "pretrained_models/chinese-roberta-wwm-ext-large",
    "cnhuhbert_base_path": "pretrained_models/chinese-hubert-base",
    "sv_model_path": "pretrained_models/sv/pretrained_eres2netv2w24s4ep4.ckpt",
}

# CPU 전용 V4 설정 (GPU가 없는 환경용)
V4_CPU_CONFIG = {
    "device": "cpu",
    "is_half": False,  # CPU에서는 half precision 사용 불가
    "version": "v4",
    "t2s_weights_path": "pretrained_models/s1v3.ckpt",
    "vits_weights_path": "pretrained_models/gsv-v4-pretrained/s2Gv4.pth",
    "vocoder_path": "pretrained_models/gsv-v4-pretrained/vocoder.pth",
    "bert_base_path": "pretrained_models/chinese-roberta-wwm-ext-large",
    "cnhuhbert_base_path": "pretrained_models/chinese-hubert-base",
}

# CPU 전용 V2Pro 설정
V2PRO_CPU_CONFIG = {
    "device": "cpu",
    "is_half": False,
    "version": "v2Pro",
    "t2s_weights_path": "pretrained_models/s1v3.ckpt",
    "vits_weights_path": "pretrained_models/v2Pro/s2Gv2Pro.pth",
    "bert_base_path": "pretrained_models/chinese-roberta-wwm-ext-large",
    "cnhuhbert_base_path": "pretrained_models/chinese-hubert-base",
    "sv_model_path": "pretrained_models/sv/pretrained_eres2netv2w24s4ep4.ckpt",
}

# 필요한 모델 파일 다운로드 경로
REQUIRED_MODEL_FILES = {
    "common": [
        "pretrained_models/s1v3.ckpt",
        "pretrained_models/chinese-roberta-wwm-ext-large/",
        "pretrained_models/chinese-hubert-base/",
    ],
    "v4": [
        "pretrained_models/gsv-v4-pretrained/s2Gv4.pth",
        "pretrained_models/gsv-v4-pretrained/vocoder.pth",
    ],
    "v2pro": [
        "pretrained_models/v2Pro/s2Gv2Pro.pth",
        "pretrained_models/sv/pretrained_eres2netv2w24s4ep4.ckpt",
    ],
    "v2proplus": [
        "pretrained_models/v2Pro/s2Gv2ProPlus.pth",
        "pretrained_models/sv/pretrained_eres2netv2w24s4ep4.ckpt",
    ]
}

# 모델 선택 가이드
MODEL_SELECTION_GUIDE = """
모델 선택 가이드:

1. V4 모델:
   - 48kHz 고품질 오디오 출력
   - 금속성 잡음 문제 해결
   - 일반적인 용도에 권장
   - 명령어: python tts_api.py -m v4

2. V2Pro 모델:
   - V4보다 우수한 성능
   - V2 수준의 하드웨어 요구사항
   - 평균 음질이 낮은 데이터셋에서 우수
   - 명령어: python tts_api.py -m v2pro

3. V2ProPlus 모델:
   - V2Pro의 향상된 버전
   - 약간 높은 VRAM 사용량
   - 최고 품질이 필요한 경우
   - 명령어: python tts_api.py -m v2proplus

CPU 사용시: --cpu 옵션 추가
예: python tts_api.py -m v4 --cpu
"""

print(MODEL_SELECTION_GUIDE)