diff --git a/docs/cn/README.md b/docs/cn/README.md index 832e75f4..e674d9cf 100644 --- a/docs/cn/README.md +++ b/docs/cn/README.md @@ -309,6 +309,38 @@ python webui.py 如果想用音频超分功能缓解 v3 模型生成 24k 音频觉得闷的问题, 需要下载额外的模型参数, 参考[how to download](../../tools/AP_BWE_main/24kto48k/readme.txt) +## V4 更新说明 + +新特性: + +1. **V4 版本修复了 V3 版本中由于非整数倍上采样导致的金属音问题, 并原生输出 48kHz 音频以避免声音闷糊 (而 V3 版本仅原生输出 24kHz 音频)**. 作者认为 V4 是对 V3 的直接替代, 但仍需进一步测试. + [更多详情]() + +从 V1/V2/V3 环境迁移至 V4: + +1. 执行 `pip install -r requirements.txt` 更新部分依赖包. + +2. 从 GitHub 克隆最新代码. + +3. 从 [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) 下载 V4 预训练模型 (`gsv-v4-pretrained/s2v4.ckpt` 和 `gsv-v4-pretrained/vocoder.pth`), 并放入 `GPT_SoVITS/pretrained_models` 目录. + +## V2Pro 更新说明 + +新特性: + +1. **相比 V2 占用稍高显存, 性能超过 V4, 在保留 V2 硬件成本和推理速度优势的同时实现更高音质.** + [更多详情](https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90features-(%E5%90%84%E7%89%88%E6%9C%AC%E7%89%B9%E6%80%A7)) + +2. V1/V2 与 V2Pro 系列具有相同特性, V3/V4 则具备相近功能. 对于平均音频质量较低的训练集, V1/V2/V2Pro 可以取得较好的效果, 但 V3/V4 无法做到. 此外, V3/V4 合成的声音更偏向参考音频, 而不是整体训练集的风格. + +从 V1/V2/V3/V4 环境迁移至 V2Pro: + +1. 执行 `pip install -r requirements.txt` 更新部分依赖包. + +2. 从 GitHub 克隆最新代码. + +3. 从 [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) 下载 V2Pro 预训练模型 (`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, 和 `sv/pretrained_eres2netv2w24s4ep4.ckpt`), 并放入 `GPT_SoVITS/pretrained_models` 目录. + ## 待办事项清单 - [x] **高优先级:** @@ -391,6 +423,7 @@ python ./tools/asr/fasterwhisper_asr.py -i -o -l -p - [Chinese Speech Pretrain](https://github.com/TencentGameMate/chinese_speech_pretrain) - [Chinese-Roberta-WWM-Ext-Large](https://huggingface.co/hfl/chinese-roberta-wwm-ext-large) - [BigVGAN](https://github.com/NVIDIA/BigVGAN) +- [eresnetv2](https://modelscope.cn/models/iic/speech_eres2netv2w24s4ep4_sv_zh-cn_16k-common) ### 推理用文本前端 diff --git a/docs/en/Changelog_EN.md b/docs/en/Changelog_EN.md index 31c6ab66..d4b0bcd4 100644 --- a/docs/en/Changelog_EN.md +++ b/docs/en/Changelog_EN.md @@ -330,4 +330,14 @@ - Type: Fix - Contributor: RVC-Boss -**Preview: Major optimization update based on V2 version coming after the Dragon Boat Festival!** \ No newline at end of file +## 202506 (V2Pro Series) + +- 2025.06.03 [PR#2420](https://github.com/RVC-Boss/GPT-SoVITS/pull/2420): Updated multilingual project documentation. + - Type: Documentation + - Contributor: StaryLan +- 2025.06.04 [PR#2417](https://github.com/RVC-Boss/GPT-SoVITS/pull/2417): Support exporting V4 with TorchScript. + - Type: New Feature + - Contributor: L-jasmine +- 2025.06.04 [Commit#b7c0c5ca](https://github.com/RVC-Boss/GPT-SoVITS/commit/b7c0c5ca878bcdd419fd86bf80dba431a6653356)~[Commit#298ebb03](https://github.com/RVC-Boss/GPT-SoVITS/commit/298ebb03c5a719388527ae6a586c7ea960344e70): **Added GPT-SoVITS V2Pro Series model (V2Pro, V2ProPlus).**. + - Type: New Feature + - Contributor: RVC-Boss diff --git a/docs/ja/README.md b/docs/ja/README.md index 8cedb0d9..d4d3081e 100644 --- a/docs/ja/README.md +++ b/docs/ja/README.md @@ -299,6 +299,38 @@ v2 環境から v3 を使用する方法: 追加: 音声超解像モデルについては、[ダウンロード方法](../../tools/AP_BWE_main/24kto48k/readme.txt)を参照してください. +## V4 リリースノート + +新機能: + +1. **V4 は、V3 で発生していた非整数倍アップサンプリングによる金属音の問題を修正し、音声がこもる問題を防ぐためにネイティブに 48kHz 音声を出力します(V3 はネイティブに 24kHz 音声のみ出力)**. 作者は V4 を V3 の直接的な置き換えとして推奨していますが、さらなるテストが必要です. + [詳細はこちら](https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3v4%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)) + +V1/V2/V3 環境から V4 への移行方法: + +1. `pip install -r requirements.txt` を実行して一部の依存パッケージを更新してください. + +2. GitHub から最新のコードをクローンします. + +3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) から V4 の事前学習済みモデル (`gsv-v4-pretrained/s2v4.ckpt` および `gsv-v4-pretrained/vocoder.pth`) をダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリへ配置してください. + +## V2Pro リリースノート + +新機能: + +1. **V2 と比較してやや高いメモリ使用量ですが、ハードウェアコストと推論速度は維持しつつ、V4 よりも高い性能と音質を実現します. ** + [詳細はこちら](https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90features-(%E5%90%84%E7%89%88%E6%9C%AC%E7%89%B9%E6%80%A7)) + +2. V1/V2 と V2Pro シリーズは類似した特徴を持ち、V3/V4 も同様の機能を持っています. 平均音質が低いトレーニングセットの場合、V1/V2/V2Pro は良好な結果を出すことができますが、V3/V4 では対応できません. また、V3/V4 の合成音声はトレーニング全体ではなく、より参考音声に寄った音質になります. + +V1/V2/V3/V4 環境から V2Pro への移行方法: + +1. `pip install -r requirements.txt` を実行して一部の依存パッケージを更新してください. + +2. GitHub から最新のコードをクローンします. + +3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) から V2Pro の事前学習済みモデル (`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, および `sv/pretrained_eres2netv2w24s4ep4.ckpt`) をダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリへ配置してください. + ## Todo リスト - [x] **優先度 高:** @@ -381,6 +413,7 @@ python ./tools/asr/fasterwhisper_asr.py -i -o -l -p - [Chinese Speech Pretrain](https://github.com/TencentGameMate/chinese_speech_pretrain) - [Chinese-Roberta-WWM-Ext-Large](https://huggingface.co/hfl/chinese-roberta-wwm-ext-large) - [BigVGAN](https://github.com/NVIDIA/BigVGAN) +- [eresnetv2](https://modelscope.cn/models/iic/speech_eres2netv2w24s4ep4_sv_zh-cn_16k-common) ### 推論用テキストフロントエンド diff --git a/docs/ko/README.md b/docs/ko/README.md index e6419a11..c4c7c794 100644 --- a/docs/ko/README.md +++ b/docs/ko/README.md @@ -299,6 +299,38 @@ v2 환경에서 v3 사용하기: 추가: 오디오 슈퍼 해상도 모델에 대해서는 [다운로드 방법](../../tools/AP_BWE_main/24kto48k/readme.txt)을 참고하세요. +## V4 릴리스 노트 + +신규 기능: + +1. **V4는 V3에서 발생하는 비정수 배율 업샘플링으로 인한 금속성 잡음 문제를 수정했으며, 소리가 먹먹해지는 것을 방지하기 위해 기본적으로 48kHz 오디오를 출력합니다 (V3는 기본적으로 24kHz만 지원)**. 개발자는 V4를 V3의 직접적인 대체 버전으로 보고 있지만 추가 테스트가 필요합니다. + [자세히 보기]() + +V1/V2/V3 환경에서 V4로 전환 방법: + +1. 일부 의존 패키지를 업데이트하기 위해 `pip install -r requirements.txt` 명령어를 실행하세요. + +2. GitHub에서 최신 코드를 클론하세요. + +3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main)에서 V4 사전 학습 모델(`gsv-v4-pretrained/s2v4.ckpt` 및 `gsv-v4-pretrained/vocoder.pth`)을 다운로드하고 `GPT_SoVITS/pretrained_models` 디렉토리에 넣으세요. + +## V2Pro 릴리스 노트 + +신규 기능: + +1. **V2보다 약간 높은 VRAM 사용량이지만 성능은 V4보다 우수하며, V2 수준의 하드웨어 비용과 속도를 유지합니다**. + [자세히 보기](https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90features-(%E5%90%84%E7%89%88%E6%9C%AC%E7%89%B9%E6%80%A7)) + +2. V1/V2와 V2Pro 시리즈는 유사한 특징을 가지며, V3/V4도 비슷한 기능을 가지고 있습니다. 평균 음질이 낮은 학습 데이터셋에서는 V1/V2/V2Pro가 좋은 결과를 내지만 V3/V4는 그렇지 못합니다. 또한 V3/V4의 합성 음색은 전체 학습 데이터셋보다는 참고 음성에 더 가깝습니다. + +V1/V2/V3/V4 환경에서 V2Pro로 전환 방법: + +1. 일부 의존 패키지를 업데이트하기 위해 `pip install -r requirements.txt` 명령어를 실행하세요. + +2. GitHub에서 최신 코드를 클론하세요. + +3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main)에서 V2Pro 사전 학습 모델(`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, 및 `sv/pretrained_eres2netv2w24s4ep4.ckpt`)을 다운로드하고 `GPT_SoVITS/pretrained_models` 디렉토리에 넣으세요. + ## 할 일 목록 - [x] **최우선순위:** @@ -382,6 +414,7 @@ python ./tools/asr/fasterwhisper_asr.py -i -o -l -p - [Chinese Speech Pretrain](https://github.com/TencentGameMate/chinese_speech_pretrain) - [Chinese-Roberta-WWM-Ext-Large](https://huggingface.co/hfl/chinese-roberta-wwm-ext-large) - [BigVGAN](https://github.com/NVIDIA/BigVGAN) +- [eresnetv2](https://modelscope.cn/models/iic/speech_eres2netv2w24s4ep4_sv_zh-cn_16k-common) ### 추론용 텍스트 프론트엔드 diff --git a/docs/tr/README.md b/docs/tr/README.md index 0a8ee4a8..cc32691f 100644 --- a/docs/tr/README.md +++ b/docs/tr/README.md @@ -285,7 +285,7 @@ V1 ortamından V2'yi kullanmak için: ## V3 Sürüm Notları -### Yeni Özellikler: +Yeni Özellikler: 1. **Tını benzerliği** daha yüksek olup, hedef konuşmacıyı yakınsamak için daha az eğitim verisi gerekmektedir (tını benzerliği, base model doğrudan kullanılacak şekilde fine-tuning yapılmadan önemli ölçüde iyileştirilmiştir). @@ -293,7 +293,7 @@ V1 ortamından V2'yi kullanmak için: [daha fazla detay]() -### v2 ortamında v3 kullanımı: +V2 ortamında V3 kullanımı: 1. `pip install -r requirements.txt` ile bazı paketleri güncelleyin. @@ -303,6 +303,38 @@ V1 ortamından V2'yi kullanmak için: ek: Ses Süper Çözünürlük modeli için [nasıl indirileceği](../../tools/AP_BWE_main/24kto48k/readme.txt) hakkında bilgi alabilirsiniz. +## V4 Sürüm Notları + +Yeni Özellikler: + +1. **V4, V3'te görülen non-integer upsample işleminden kaynaklanan metalik ses sorununu düzeltti ve sesin boğuklaşmasını önlemek için doğrudan 48kHz ses çıktısı sunar (V3 sadece 24kHz destekler)**. Yazar, V4'ün V3'ün yerine geçebileceğini belirtmiştir ancak daha fazla test yapılması gerekmektedir. + [Daha fazla bilgi]() + +V1/V2/V3 ortamından V4'e geçiş: + +1. Bazı bağımlılıkları güncellemek için `pip install -r requirements.txt` komutunu çalıştırın. + +2. GitHub'dan en son kodları klonlayın. + +3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) üzerinden V4 ön eğitilmiş modelleri indirin (`gsv-v4-pretrained/s2v4.ckpt` ve `gsv-v4-pretrained/vocoder.pth`) ve bunları `GPT_SoVITS/pretrained_models` dizinine koyun. + +## V2Pro Sürüm Notları + +Yeni Özellikler: + +1. **V2 ile karşılaştırıldığında biraz daha yüksek VRAM kullanımı sağlar ancak V4'ten daha iyi performans gösterir; aynı donanım maliyeti ve hız avantajını korur**. + [Daha fazla bilgi](https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90features-(%E5%90%84%E7%89%88%E6%9C%AC%E7%89%B9%E6%80%A7)) + +2. V1/V2 ve V2Pro serisi benzer özelliklere sahipken, V3/V4 de yakın işlevleri paylaşır. Ortalama kalite düşük olan eğitim setleriyle V1/V2/V2Pro iyi sonuçlar verebilir ama V3/V4 veremez. Ayrıca, V3/V4’ün ürettiği ses tonu genel eğitim setine değil, referans ses örneğine daha çok benzemektedir. + +V1/V2/V3/V4 ortamından V2Pro'ya geçiş: + +1. Bazı bağımlılıkları güncellemek için `pip install -r requirements.txt` komutunu çalıştırın. + +2. GitHub'dan en son kodları klonlayın. + +3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) üzerinden V2Pro ön eğitilmiş modelleri indirin (`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, ve `sv/pretrained_eres2netv2w24s4ep4.ckpt`) ve bunları `GPT_SoVITS/pretrained_models` dizinine koyun. + ## Yapılacaklar Listesi - [x] **Yüksek Öncelikli:** @@ -385,6 +417,7 @@ python ./tools/asr/fasterwhisper_asr.py -i -o <çıktı> -l - [Chinese Speech Pretrain](https://github.com/TencentGameMate/chinese_speech_pretrain) - [Chinese-Roberta-WWM-Ext-Large](https://huggingface.co/hfl/chinese-roberta-wwm-ext-large) - [BigVGAN](https://github.com/NVIDIA/BigVGAN) +- [eresnetv2](https://modelscope.cn/models/iic/speech_eres2netv2w24s4ep4_sv_zh-cn_16k-common) ### Tahmin İçin Metin Ön Ucu