diff --git a/README.md b/README.md index 8476db4e..33c442e9 100644 --- a/README.md +++ b/README.md @@ -1,3 +1,5 @@ +# +

GPT-SoVITS-WebUI

@@ -7,8 +9,6 @@ A Powerful Few-shot Voice Conversion and Text-to-Speech WebUI.

RVC-Boss%2FGPT-SoVITS | Trendshift - - [![Python](https://img.shields.io/badge/python-3.10--3.12-blue?style=for-the-badge&logo=python)](https://www.python.org) [![GitHub release](https://img.shields.io/github/v/release/RVC-Boss/gpt-sovits?style=for-the-badge&logo=github)](https://github.com/RVC-Boss/gpt-sovits/releases) @@ -27,8 +27,12 @@ A Powerful Few-shot Voice Conversion and Text-to-Speech WebUI.

--- +
+ ## Features +
+ 1. **Zero-shot TTS:** Input a 5-second vocal sample and experience instant text-to-speech conversion. 2. **Few-shot TTS:** Fine-tune the model with just 1 minute of training data for improved voice similarity and realism. @@ -43,31 +47,39 @@ Unseen speakers few-shot fine-tuning demo: +
+ ## Infer Speed -| Device | RTF | TTFB | Batch Size | Backend | -| ----------- | ----- | ------ | ---------- | --------------------------- | -| RTX 5090 | 0.05 | 150 ms | 1 | Flash Attn Varlen CUDAGraph | -| RTX 4090 | 0.014 | UNK | 24 | Flash Attn Varlen CUDAGraph | -| RTX 4060 Ti | 0.07 | 460 ms | 1 | Flash Attn Varlen CUDAGraph | -| RTX 4060 Ti | 0.028 | UNK | 28 | Flash Attn Varlen CUDAGraph | -| Apple M4 | 0.21 | | 1 | MLX Quantized Affined | +| Device | RTF | TTFB | Batch Size | Backend | +| :---------: | :---: | :----: | :--------: | :-------------------------: | +| RTX 5090 | 0.05 | 150 ms | 1 | Flash Attn Varlen CUDAGraph | +| RTX 4090 | 0.014 | UNK | 24 | Flash Attn Varlen CUDAGraph | +| RTX 4060 Ti | 0.07 | 460 ms | 1 | Flash Attn Varlen CUDAGraph | +| RTX 4060 Ti | 0.028 | UNK | 28 | Flash Attn Varlen CUDAGraph | +| Apple M4 | 0.21 | UNK | 1 | MLX Quantized Affined | + +
**User guide: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)** +
+ ## Installation -For users in China, you can [click here](https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official) to use AutoDL Cloud Docker to experience the full functionality online. +For users in China, you can [Click Here to use AutoDL](https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official) Cloud Docker to experience the full functionality online. ### Tested Environments -| Python Version | PyTorch Version | Device | -| -------------- | --------------- | ------------- | -| Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 | -| Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 | -| Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 | -| Python 3.11 | PyTorch 2.8.0 | Apple Silicon | -| Python 3.10 | PyTorch 2.8.0 | CPU | +| Python Version | PyTorch Version | Device | +| :------------: | :-------------: | :-----------: | +| Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 | +| Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 | +| Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 | +| Python 3.11 | PyTorch 2.8.0 | Apple Silicon | +| Python 3.10 | PyTorch 2.8.0 | CPU | + +
### Windows @@ -103,8 +115,12 @@ conda activate GPTSoVits bash install.sh --device --source [--download-uvr5] ``` +
+ ### Install Manually +
+ #### Install Dependences ```bash @@ -143,8 +159,12 @@ Install [Visual Studio 2017](https://aka.ms/vs/17/release/vc_redist.x86.exe) brew install ffmpeg ``` +
+ ### Running GPT-SoVITS with Docker +
+ #### Docker Image Selection Due to rapid development in the codebase and a slower Docker image release cycle, please: @@ -193,8 +213,12 @@ Once the container is running in the background, you can access it using: docker exec -it bash ``` +
+ ## Pretrained Models +
+ **If `install.sh` runs successfully, you may skip No.1,2,3** **Users in China can [download all these models here](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4#nVNhX).** @@ -213,8 +237,12 @@ docker exec -it + ## Dataset Format +
+ The TTS annotation .list file format: ```text @@ -239,10 +267,14 @@ D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin. ``` +
+ ## Finetune and inference ### Open WebUI +
+ #### Integrated Package Users Double-click `go-webui.bat`or use `go-webui.ps1` @@ -254,8 +286,12 @@ if you want to switch to V1,then double-click`go-webui-v1.bat` or use `go-webui- python webui.py ``` +
+ ### Finetune +
+ #### Path Auto-filling is now supported 1. Fill in the audio path @@ -265,8 +301,12 @@ python webui.py 5. Proofreading ASR transcriptions 6. Go to the next Tab, then finetune the model +
+ ### Open Inference WebUI +
+ #### Integrated Package Users Double-click `go-webui-v2.bat` or use `go-webui-v2.ps1` ,then open the inference webui at `1-GPT-SoVITS-TTS/1C-inference` @@ -285,8 +325,12 @@ python webui.py then open the inference webui at `1-GPT-SoVITS-TTS/1C-inference` +
+ ## V2 Release Notes +
+ New Features: 1. Support Korean and Cantonese @@ -299,18 +343,12 @@ New Features: [more details]() -Use v2 from v1 environment: - -1. `pip install -r requirements.txt` to update some packages - -2. Clone the latest codes from github. - -3. Download v2 pretrained models from [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained) and put them into `GPT_SoVITS/pretrained_models/gsv-v2final-pretrained`. - - Chinese v2 additional: [G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip)(Download G2PW models, unzip and rename to `G2PWModel`, and then place them in `GPT_SoVITS/text`.) +
## V3 Release Notes +
+ New Features: 1. The timbre similarity is higher, requiring less training data to approximate the target speaker (the timbre similarity is significantly improved using the base model directly without fine-tuning). @@ -319,33 +357,23 @@ New Features: [more details]() -Use v3 from v2 environment: - -1. `pip install -r requirements.txt` to update some packages - -2. Clone the latest codes from github. - -3. Download v3 pretrained models (s1v3.ckpt, s2Gv3.pth and models--nvidia--bigvgan_v2_24khz_100band_256x folder) from [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) and put them into `GPT_SoVITS/pretrained_models`. - - additional: for Audio Super Resolution model, you can read [how to download](./tools/AP_BWE/24kto48k/readme.txt) +
## V4 Release Notes +
+ New Features: 1. Version 4 fixes the issue of metallic artifacts in Version 3 caused by non-integer multiple upsampling, and natively outputs 48k audio to prevent muffled sound (whereas Version 3 only natively outputs 24k audio). The author considers Version 4 a direct replacement for Version 3, though further testing is still needed. [more details]() -Use v4 from v1/v2/v3 environment: - -1. `pip install -r requirements.txt` to update some packages - -2. Clone the latest codes from github. - -3. Download v4 pretrained models (gsv-v4-pretrained/s2v4.ckpt, and gsv-v4-pretrained/vocoder.pth) from [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) and put them into `GPT_SoVITS/pretrained_models`. +
## V2Pro Release Notes +
+ New Features: 1. Slightly higher VRAM usage than v2, surpassing v4's performance, with v2's hardware cost and speed. @@ -361,8 +389,12 @@ Use v2Pro from v1/v2/v3/v4 environment: 3. Download v2Pro pretrained models (v2Pro/s2Dv2Pro.pth, v2Pro/s2Gv2Pro.pth, v2Pro/s2Dv2ProPlus.pth, v2Pro/s2Gv2ProPlus.pth, and sv/pretrained_eres2netv2w24s4ep4.ckpt) from [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) and put them into `GPT_SoVITS/pretrained_models`. +
+ ## Todo List +
+ - [x] **High Priority:** - [x] Localization in Japanese and English. @@ -422,8 +454,12 @@ python ./tools/asr/fasterwhisper_asr.py -i -o -l -p A custom list save path is enabled +
+ ## Credits +
+ Special thanks to the following projects and contributors: ### Theoretical Research @@ -466,8 +502,12 @@ Special thanks to the following projects and contributors: Thankful to @Naozumi520 for providing the Cantonese training set and for the guidance on Cantonese-related knowledge. +
+ ## Thanks to all contributors for their efforts +
+ - + diff --git a/docs/cn/README.md b/docs/cn/README.md index 1f3f82c5..2f03b3ca 100644 --- a/docs/cn/README.md +++ b/docs/cn/README.md @@ -1,3 +1,5 @@ +# +

GPT-SoVITS-WebUI

@@ -25,8 +27,12 @@ --- +
+ ## 功能 +
+ 1. **零样本文本到语音 (TTS):** 输入 5 秒的声音样本, 即刻体验文本到语音转换. 2. **少样本 TTS:** 仅需 1 分钟的训练数据即可微调模型, 提升声音相似度和真实感. @@ -41,17 +47,24 @@ +
+ ## 推理速度 -| Device | RTF | Batch Size | Backend | -| ----------- | ----- | ---------- | --------------------------- | -| RTX 5090 | 0.05 | 1 | Flash Attn Varlen CUDAGraph | -| Apple M4 | 0.21 | 1 | MLX Quantized Affined | -| RTX 4090 | 0.014 | 24 | Flash Attn Varlen CUDAGraph | -| RTX 4060 Ti | 0.028 | 28 | Flash Attn Varlen CUDAGraph | +| Device | RTF | TTFB | Batch Size | Backend | +| :---------: | :---: | :----: | :--------: | :-------------------------: | +| RTX 5090 | 0.05 | 150 ms | 1 | Flash Attn Varlen CUDAGraph | +| RTX 4090 | 0.014 | UNK | 24 | Flash Attn Varlen CUDAGraph | +| RTX 4060 Ti | 0.07 | 460 ms | 1 | Flash Attn Varlen CUDAGraph | +| RTX 4060 Ti | 0.028 | UNK | 28 | Flash Attn Varlen CUDAGraph | +| Apple M4 | 0.21 | UNK | 1 | MLX Quantized Affined | + +
**用户手册: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)** +
+ ## 安装 中国地区的用户可[点击此处](https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official)使用 AutoDL 云端镜像进行体验. @@ -66,6 +79,8 @@ | Python 3.11 | PyTorch 2.8.0 | Apple Silicon | | Python 3.10 | PyTorch 2.8.0 | CPU | +
+ ### Windows 如果你是 Windows 用户 (已在 win>=10 上测试), 可以下载[整合包](https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-v3lora-20250228.7z?download=true), 解压后双击 go-webui.bat 即可启动 GPT-SoVITS-WebUI. @@ -98,8 +113,12 @@ conda activate GPTSoVits bash install.sh --device --source [--download-uvr5] ``` +
+ ### 手动安装 +
+ #### 安装依赖 ```bash @@ -138,7 +157,11 @@ sudo apt install libsox-dev brew install ffmpeg ``` -### 运行 GPT-SoVITS (使用 Docker) +
+ +### 使用 Docker 运行 GPT-SoVITS + +
#### Docker 镜像选择 @@ -188,8 +211,12 @@ bash docker_build.sh --cuda <12.6|12.8> [--lite] docker exec -it bash ``` +
+ ## 预训练模型 +
+ **若成功运行`install.sh`可跳过 No.1,2,3** **中国地区的用户可以[在此处下载这些模型](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4#nVNhX).** @@ -208,8 +235,12 @@ docker exec -it + ## 数据集格式 +
+ 文本到语音 (TTS) 注释 .list 文件格式: ```text @@ -230,10 +261,14 @@ vocal_path|speaker_name|language|text D:\GPT-SoVITS\xxx/xxx.wav|xxx|zh|我爱玩原神. ``` +
+ ## 微调与推理 ### 打开 WebUI +
+ #### 整合包用户 双击`go-webui.bat`或者使用`go-webui.ps1` @@ -245,8 +280,12 @@ D:\GPT-SoVITS\xxx/xxx.wav|xxx|zh|我爱玩原神. python webui.py ``` +
+ ### 微调 +
+ #### 现已支持自动填充路径 1. 填入训练音频路径 @@ -256,8 +295,12 @@ python webui.py 5. 校对标注 6. 前往下一个窗口,点击训练 +
+ ### 打开推理 WebUI +
+ #### 整合包用户 双击 `go-webui.bat` 或者使用 `go-webui.ps1` ,然后在 `1-GPT-SoVITS-TTS/1C-推理` 中打开推理 webUI @@ -276,8 +319,12 @@ python webui.py 然后在 `1-GPT-SoVITS-TTS/1C-推理` 中打开推理 webUI +
+ ## V2 发布说明 +
+ 新特性: 1. 支持韩语及粤语 @@ -290,18 +337,12 @@ python webui.py 详见[wiki]() -从 v1 环境迁移至 v2 - -1. 需要 pip 安装 requirements.txt 更新环境 - -2. 需要克隆 github 上的最新代码 - -3. 需要从[huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained) 下载预训练模型文件放到 GPT_SoVITS/pretrained_models/gsv-v2final-pretrained 下 - - 中文额外需要下载[G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip) (下载 G2PW 模型,解压并重命名为`G2PWModel`,将其放到`GPT_SoVITS/text`目录下) +
## V3 更新说明 +
+ 新模型特点: 1. 音色相似度更像, 需要更少训练集来逼近本人 (不训练直接使用底模模式下音色相似性提升更大) @@ -310,33 +351,23 @@ python webui.py 详见[wiki]() -从 v2 环境迁移至 v3 - -1. 需要 pip 安装 requirements.txt 更新环境 - -2. 需要克隆 github 上的最新代码 - -3. 从[huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main)下载这些 v3 新增预训练模型 (s1v3.ckpt, s2Gv3.pth and models--nvidia--bigvgan_v2_24khz_100band_256x folder)将他们放到`GPT_SoVITS/pretrained_models`目录下 - - 如果想用音频超分功能缓解 v3 模型生成 24k 音频觉得闷的问题, 需要下载额外的模型参数, 参考[how to download](../../tools/AP_BWE/24kto48k/readme.txt) +
## V4 更新说明 +
+ 新特性: 1. **V4 版本修复了 V3 版本中由于非整数倍上采样导致的金属音问题, 并原生输出 48kHz 音频以避免声音闷糊 (而 V3 版本仅原生输出 24kHz 音频)**. 作者认为 V4 是对 V3 的直接替代, 但仍需进一步测试. [更多详情]() -从 V1/V2/V3 环境迁移至 V4: - -1. 执行 `pip install -r requirements.txt` 更新部分依赖包. - -2. 从 GitHub 克隆最新代码. - -3. 从 [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) 下载 V4 预训练模型 (`gsv-v4-pretrained/s2v4.ckpt` 和 `gsv-v4-pretrained/vocoder.pth`), 并放入 `GPT_SoVITS/pretrained_models` 目录. +
## V2Pro 更新说明 +
+ 新特性: 1. **相比 V2 占用稍高显存, 性能超过 V4, 在保留 V2 硬件成本和推理速度优势的同时实现更高音质.** @@ -352,8 +383,12 @@ python webui.py 3. 从 [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) 下载 V2Pro 预训练模型 (`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, 和 `sv/pretrained_eres2netv2w24s4ep4.ckpt`), 并放入 `GPT_SoVITS/pretrained_models` 目录. +
+ ## 待办事项清单 +
+ - [x] **高优先级:** - [x] 日语和英语的本地化. @@ -408,8 +443,12 @@ python ./tools/asr/fasterwhisper_asr.py -i -o -l -p 启用自定义列表保存路径 +
+ ## 致谢 +
+ 特别感谢以下项目和贡献者: ### 理论研究 @@ -452,8 +491,12 @@ python ./tools/asr/fasterwhisper_asr.py -i -o -l -p 感谢 @Naozumi520 提供粤语训练集, 并在粤语相关知识方面给予指导. +
+ ## 感谢所有贡献者的努力 +
+ - + diff --git a/docs/ja/README.md b/docs/ja/README.md index 59ed6489..c41f6aed 100644 --- a/docs/ja/README.md +++ b/docs/ja/README.md @@ -1,3 +1,5 @@ +# +

GPT-SoVITS-WebUI

@@ -25,8 +27,12 @@ --- +
+ ## 機能 +
+ 1. **Zero-Shot TTS:** たった 5 秒間の音声サンプルで、即座にテキストからその音声に変換できます. 2. **Few-Shot TTS:** わずか 1 分間のトレーニングデータでモデルを微調整し、音声のクオリティを向上. @@ -41,28 +47,37 @@ +
+ ## 推論速度 -| Device | RTF | Batch Size | Backend | -| ----------- | ----- | ---------- | --------------------------- | -| RTX 5090 | 0.05 | 1 | Flash Attn Varlen CUDAGraph | -| Apple M4 | 0.21 | 1 | MLX Quantized Affined | -| RTX 4090 | 0.014 | 24 | Flash Attn Varlen CUDAGraph | -| RTX 4060 Ti | 0.028 | 28 | Flash Attn Varlen CUDAGraph | +| Device | RTF | TTFB | Batch Size | Backend | +| :---------: | :---: | :----: | :--------: | :-------------------------: | +| RTX 5090 | 0.05 | 150 ms | 1 | Flash Attn Varlen CUDAGraph | +| RTX 4090 | 0.014 | UNK | 24 | Flash Attn Varlen CUDAGraph | +| RTX 4060 Ti | 0.07 | 460 ms | 1 | Flash Attn Varlen CUDAGraph | +| RTX 4060 Ti | 0.028 | UNK | 28 | Flash Attn Varlen CUDAGraph | +| Apple M4 | 0.21 | UNK | 1 | MLX Quantized Affined | + +
**ユーザーマニュアル: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)** +
+ ## インストール ### テスト済みの環境 -| Python Version | PyTorch Version | Device | -| -------------- | --------------- | ------------- | -| Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 | -| Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 | -| Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 | -| Python 3.11 | PyTorch 2.8.0 | Apple Silicon | -| Python 3.10 | PyTorch 2.8.0 | CPU | +| Python Version | PyTorch Version | Device | +| :------------: | :-------------: | :-----------: | +| Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 | +| Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 | +| Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 | +| Python 3.11 | PyTorch 2.8.0 | Apple Silicon | +| Python 3.10 | PyTorch 2.8.0 | CPU | + +
### Windows @@ -88,8 +103,12 @@ conda activate GPTSoVits bash install.sh --device --source [--download-uvr5] ``` +
+ ### 手動インストール +
+ #### 依存関係をインストールします ```bash @@ -128,7 +147,11 @@ sudo apt install libsox-dev brew install ffmpeg ``` -### GPT-SoVITS の実行 (Docker 使用) +
+ +### Docker を使用して GPT-SoVITS を実行 + +
#### Docker イメージの選択 @@ -178,8 +201,12 @@ bash docker_build.sh --cuda <12.6|12.8> [--lite] docker exec -it bash ``` +
+ ## 事前訓練済みモデル +
+ **`install.sh`が正常に実行された場合、No.1,2,3 はスキップしてかまいません.** 1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) から事前訓練済みモデルをダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリに配置してください. @@ -196,8 +223,12 @@ docker exec -it + ## データセット形式 +
+ TTS アノテーション .list ファイル形式: ```text @@ -216,10 +247,14 @@ vocal_path|speaker_name|language|text D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin. ``` +
+ ## 微調整と推論 ### WebUI を開く +
+ #### 統合パッケージ利用者 `go-webui.bat`をダブルクリックするか、`go-webui.ps1`を使用します. @@ -231,8 +266,12 @@ V1 に切り替えたい場合は、`go-webui-v1.bat`をダブルクリックす python webui.py <言語(オプション)> ``` +
+ ### 微調整 +
+ #### パス自動補完のサポート 1. 音声パスを入力する @@ -242,8 +281,12 @@ python webui.py <言語(オプション)> 5. ASR 転写を校正する 6. 次のタブに移動し、モデルを微調整する +
+ ### 推論 WebUI を開く +
+ #### 統合パッケージ利用者 `go-webui-v2.bat`をダブルクリックするか、`go-webui-v2.ps1`を使用して、`1-GPT-SoVITS-TTS/1C-inference`で推論 webui を開きます. @@ -262,8 +305,12 @@ python webui.py その後、`1-GPT-SoVITS-TTS/1C-inference`で推論 webui を開きます. +
+ ## V2 リリースノート +
+ 新機能: 1. 韓国語と広東語をサポート @@ -276,18 +323,12 @@ python webui.py [詳細はこちら]() -V1 環境から V2 を使用するには: - -1. `pip install -r requirements.txt`を使用していくつかのパッケージを更新 - -2. 最新のコードを github からクローン - -3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained)から V2 の事前学習モデルをダウンロードし、それらを`GPT_SoVITS/pretrained_models/gsv-v2final-pretrained`に配置 - - 中国語 V2 追加: [G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip) (G2PW モデルをダウンロードし、解凍して`G2PWModel`にリネームし、`GPT_SoVITS/text`に配置します) +
## V3 リリースノート +
+ 新機能: 1. 音色の類似性が向上し、ターゲットスピーカーを近似するために必要な学習データが少なくなりました (音色の類似性は、ファインチューニングなしでベースモデルを直接使用することで顕著に改善されます). @@ -296,36 +337,26 @@ V1 環境から V2 を使用するには: [詳細情報はこちら]() -v2 環境から v3 を使用する方法: - -1. `pip install -r requirements.txt` を実行して、いくつかのパッケージを更新します. - -2. GitHub から最新のコードをクローンします. - -3. v3 の事前学習済みモデル (s1v3.ckpt、s2Gv3.pth、models--nvidia--bigvgan_v2_24khz_100band_256x フォルダ) を[Huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) からダウンロードし、GPT_SoVITS/pretrained_models フォルダに配置します. - - 追加: 音声超解像モデルについては、[ダウンロード方法](../../tools/AP_BWE/24kto48k/readme.txt)を参照してください. +
## V4 リリースノート +
+ 新機能: 1. **V4 は、V3 で発生していた非整数倍アップサンプリングによる金属音の問題を修正し、音声がこもる問題を防ぐためにネイティブに 48kHz 音声を出力します(V3 はネイティブに 24kHz 音声のみ出力)**. 作者は V4 を V3 の直接的な置き換えとして推奨していますが、さらなるテストが必要です. [詳細はこちら]() -V1/V2/V3 環境から V4 への移行方法: - -1. `pip install -r requirements.txt` を実行して一部の依存パッケージを更新してください. - -2. GitHub から最新のコードをクローンします. - -3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) から V4 の事前学習済みモデル (`gsv-v4-pretrained/s2v4.ckpt` および `gsv-v4-pretrained/vocoder.pth`) をダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリへ配置してください. +
## V2Pro リリースノート +
+ 新機能: -1. **V2 と比較してやや高いメモリ使用量ですが、ハードウェアコストと推論速度は維持しつつ、V4 よりも高い性能と音質を実現します. ** +1. **V2 と比較してやや高いメモリ使用量ですが、ハードウェアコストと推論速度は維持しつつ、V4 よりも高い性能と音質を実現します.** [詳細はこちら]() 2. V1/V2 と V2Pro シリーズは類似した特徴を持ち、V3/V4 も同様の機能を持っています. 平均音質が低いトレーニングセットの場合、V1/V2/V2Pro は良好な結果を出すことができますが、V3/V4 では対応できません. また、V3/V4 の合成音声はトレーニング全体ではなく、より参考音声に寄った音質になります. @@ -338,8 +369,12 @@ V1/V2/V3/V4 環境から V2Pro への移行方法: 3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) から V2Pro の事前学習済みモデル (`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, および `sv/pretrained_eres2netv2w24s4ep4.ckpt`) をダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリへ配置してください. +
+ ## Todo リスト +
+ - [x] **優先度 高:** - [x] 日本語と英語でのローカライズ. @@ -399,8 +434,12 @@ python ./tools/asr/fasterwhisper_asr.py -i -o -l -p カスタムリストの保存パスが有効になっています +
+ ## クレジット +
+ 特に以下のプロジェクトと貢献者に感謝します: ### 理論研究 @@ -443,8 +482,12 @@ python ./tools/asr/fasterwhisper_asr.py -i -o -l -p @Naozumi520 さん、広東語のトレーニングセットの提供と、広東語に関する知識のご指導をいただき、感謝申し上げます. +
+ ## すべてのコントリビューターに感謝します +
+ - + diff --git a/docs/ko/README.md b/docs/ko/README.md index 1afbcbee..28012977 100644 --- a/docs/ko/README.md +++ b/docs/ko/README.md @@ -1,3 +1,5 @@ +# +

GPT-SoVITS-WebUI

@@ -25,8 +27,12 @@ --- +
+ ## 기능 +
+ 1. **제로샷 텍스트 음성 변환 (TTS):** 5초의 음성 샘플을 입력하면 즉시 텍스트를 음성으로 변환할 수 있습니다. 2. **소량의 데이터 TTS:** 1분의 훈련 데이터만으로 모델을 미세 조정하여 음성 유사도와 실제감을 향상시킬 수 있습니다. @@ -41,30 +47,37 @@ +
+ ## 추론 속도 -| Device | RTF | Batch Size | Backend | -| ----------- | ----- | ---------- | --------------------------- | -| RTX 5090 | 0.05 | 1 | Flash Attn Varlen CUDAGraph | -| Apple M4 | 0.21 | 1 | MLX Quantized Affined | -| RTX 4090 | 0.014 | 24 | Flash Attn Varlen CUDAGraph | -| RTX 4060 Ti | 0.028 | 28 | Flash Attn Varlen CUDAGraph | +| Device | RTF | TTFB | Batch Size | Backend | +| :---------: | :---: | :----: | :--------: | :-------------------------: | +| RTX 5090 | 0.05 | 150 ms | 1 | Flash Attn Varlen CUDAGraph | +| RTX 4090 | 0.014 | UNK | 24 | Flash Attn Varlen CUDAGraph | +| RTX 4060 Ti | 0.07 | 460 ms | 1 | Flash Attn Varlen CUDAGraph | +| RTX 4060 Ti | 0.028 | UNK | 28 | Flash Attn Varlen CUDAGraph | +| Apple M4 | 0.21 | UNK | 1 | MLX Quantized Affined | + +
**사용자 설명서: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)** +
+ ## 설치 ### 테스트 통과 환경 -| Python Version | PyTorch Version | Device | -| -------------- | ---------------- | ------------- | -| Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 | -| Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 | -| Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 | -| Python 3.9 | PyTorch 2.8.0dev | CUDA 12.8 | -| Python 3.9 | PyTorch 2.5.1 | Apple Silicon | -| Python 3.11 | PyTorch 2.7.0 | Apple Silicon | -| Python 3.9 | PyTorch 2.2.2 | CPU | +| Python Version | PyTorch Version | Device | +| :------------: | :-------------: | :-----------: | +| Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 | +| Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 | +| Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 | +| Python 3.11 | PyTorch 2.8.0 | Apple Silicon | +| Python 3.10 | PyTorch 2.8.0 | CPU | + +
### Windows @@ -96,8 +109,12 @@ conda activate GPTSoVits bash install.sh --device --source [--download-uvr5] ``` +
+ ### 수동 설치 +
+ #### 의존성 설치 ```bash @@ -136,7 +153,11 @@ sudo apt install libsox-dev brew install ffmpeg ``` -### GPT-SoVITS 실행하기 (Docker 사용) +
+ +### Docker를 사용하여 GPT-SoVITS 실행하기 + +
#### Docker 이미지 선택 @@ -186,8 +207,12 @@ bash docker_build.sh --cuda <12.6|12.8> [--lite] docker exec -it bash ``` +
+ ## 사전 학습된 모델 +
+ **`install.sh`가 성공적으로 실행되면 No.1,2,3 은 건너뛰어도 됩니다.** 1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) 에서 사전 학습된 모델을 다운로드하고, `GPT_SoVITS/pretrained_models` 디렉토리에 배치하세요. @@ -204,8 +229,12 @@ docker exec -it + ## 데이터셋 형식 +
+ 텍스트 음성 합성(TTS) 주석 .list 파일 형식: ```text @@ -224,10 +253,14 @@ vocal_path|speaker_name|language|text D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin. ``` +
+ ## 미세 조정 및 추론 ### WebUI 열기 +
+ #### 통합 패키지 사용자 `go-webui.bat`을 더블 클릭하거나 `go-webui.ps1`를 사용하십시오. @@ -239,8 +272,12 @@ V1으로 전환하려면, `go-webui-v1.bat`을 더블 클릭하거나 `go-webui- python webui.py <언어(옵션)> ``` +
+ ### 미세 조정 +
+ #### 경로 자동 채우기가 지원됩니다 1. 오디오 경로를 입력하십시오. @@ -250,8 +287,12 @@ python webui.py <언어(옵션)> 5. ASR 전사를 교정하십시오. 6. 다음 탭으로 이동하여 모델을 미세 조정하십시오. +
+ ### 추론 WebUI 열기 +
+ #### 통합 패키지 사용자 `go-webui-v2.bat`을 더블 클릭하거나 `go-webui-v2.ps1`를 사용한 다음 `1-GPT-SoVITS-TTS/1C-inference`에서 추론 webui를 엽니다. @@ -270,8 +311,12 @@ python webui.py 그런 다음 `1-GPT-SoVITS-TTS/1C-inference`에서 추론 webui를 엽니다. +
+ ## V2 릴리스 노트 +
+ 새로운 기능: 1. 한국어 및 광둥어 지원 @@ -284,18 +329,12 @@ python webui.py [자세한 내용]() -V1 환경에서 V2를 사용하려면: - -1. `pip install -r requirements.txt`를 사용하여 일부 패키지 업데이트 - -2. github에서 최신 코드를 클론하십시오. - -3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained)에서 V2 사전 학습 모델을 다운로드하여 `GPT_SoVITS/pretrained_models/gsv-v2final-pretrained`에 넣으십시오. - - 중국어 V2 추가: [G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip) (G2PW 모델을 다운로드하여 압축을 풀고 `G2PWModel`로 이름을 변경한 다음 `GPT_SoVITS/text`에 배치합니다.) +
## V3 릴리스 노트 +
+ 새로운 기능: 1. 음색 유사성이 더 높아져 목표 음성에 대한 학습 데이터가 적게 필요합니다. (기본 모델을 직접 사용하여 미세 조정 없이 음색 유사성이 크게 향상됩니다.) @@ -304,33 +343,23 @@ V1 환경에서 V2를 사용하려면: [자세한 내용]() -v2 환경에서 v3 사용하기: - -1. `pip install -r requirements.txt`로 일부 패키지를 업데이트합니다. - -2. 최신 코드를 github 에서 클론합니다. - -3. v3 사전 훈련된 모델(s1v3.ckpt, s2Gv3.pth, 그리고 models--nvidia--bigvgan_v2_24khz_100band_256x 폴더)을 [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main)에서 다운로드하여 `GPT_SoVITS/pretrained_models` 폴더에 넣습니다. - - 추가: 오디오 슈퍼 해상도 모델에 대해서는 [다운로드 방법](../../tools/AP_BWE/24kto48k/readme.txt)을 참고하세요. +
## V4 릴리스 노트 +
+ 신규 기능: 1. **V4는 V3에서 발생하는 비정수 배율 업샘플링으로 인한 금속성 잡음 문제를 수정했으며, 소리가 먹먹해지는 것을 방지하기 위해 기본적으로 48kHz 오디오를 출력합니다 (V3는 기본적으로 24kHz만 지원)**. 개발자는 V4를 V3의 직접적인 대체 버전으로 보고 있지만 추가 테스트가 필요합니다. [자세히 보기]() -V1/V2/V3 환경에서 V4로 전환 방법: - -1. 일부 의존 패키지를 업데이트하기 위해 `pip install -r requirements.txt` 명령어를 실행하세요. - -2. GitHub에서 최신 코드를 클론하세요. - -3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main)에서 V4 사전 학습 모델(`gsv-v4-pretrained/s2v4.ckpt` 및 `gsv-v4-pretrained/vocoder.pth`)을 다운로드하고 `GPT_SoVITS/pretrained_models` 디렉토리에 넣으세요. +
## V2Pro 릴리스 노트 +
+ 신규 기능: 1. **V2보다 약간 높은 VRAM 사용량이지만 성능은 V4보다 우수하며, V2 수준의 하드웨어 비용과 속도를 유지합니다**. @@ -346,8 +375,12 @@ V1/V2/V3/V4 환경에서 V2Pro로 전환 방법: 3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main)에서 V2Pro 사전 학습 모델(`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, 및 `sv/pretrained_eres2netv2w24s4ep4.ckpt`)을 다운로드하고 `GPT_SoVITS/pretrained_models` 디렉토리에 넣으세요. +
+ ## 할 일 목록 +
+ - [x] **최우선순위:** - [x] 일본어 및 영어 지역화. @@ -408,8 +441,12 @@ python ./tools/asr/fasterwhisper_asr.py -i -o -l -p 사용자 정의 목록 저장 경로가 활성화되었습니다. +
+ ## 감사의 말 +
+ 다음 프로젝트와 기여자들에게 특별히 감사드립니다: ### 이론 연구 @@ -452,8 +489,12 @@ python ./tools/asr/fasterwhisper_asr.py -i -o -l -p @Naozumi520 님께 감사드립니다. 광둥어 학습 자료를 제공해 주시고, 광둥어 관련 지식을 지도해 주셔서 감사합니다. -## 모든 기여자들에게 감사드립니다 ;) +
+ +## 모든 기여자들에게 감사드립니다 + +
- + diff --git a/docs/tr/README.md b/docs/tr/README.md index e56110a6..de94d5bd 100644 --- a/docs/tr/README.md +++ b/docs/tr/README.md @@ -1,3 +1,5 @@ +# +

GPT-SoVITS-WebUI

@@ -25,8 +27,12 @@ Güçlü Birkaç Örnekli Ses Dönüştürme ve Metinden Konuşmaya Web Arayüz --- +
+ ## Özellikler +
+ 1. **Sıfır Örnekli Metinden Konuşmaya:** 5 saniyelik bir vokal örneği girin ve anında metinden konuşmaya dönüşümünü deneyimleyin. 2. **Birkaç Örnekli Metinden Konuşmaya:** Daha iyi ses benzerliği ve gerçekçiliği için modeli yalnızca 1 dakikalık eğitim verisiyle ince ayarlayın. @@ -41,28 +47,37 @@ Görünmeyen konuşmacılar birkaç örnekli ince ayar demosu: +
+ ## çıkarım hızı -| Device | RTF | Batch Size | Backend | -| ----------- | ----- | ---------- | --------------------------- | -| RTX 5090 | 0.05 | 1 | Flash Attn Varlen CUDAGraph | -| Apple M4 | 0.21 | 1 | MLX Quantized Affined | -| RTX 4090 | 0.014 | 24 | Flash Attn Varlen CUDAGraph | -| RTX 4060 Ti | 0.028 | 28 | Flash Attn Varlen CUDAGraph | +| Device | RTF | TTFB | Batch Size | Backend | +| :---------: | :---: | :----: | :--------: | :-------------------------: | +| RTX 5090 | 0.05 | 150 ms | 1 | Flash Attn Varlen CUDAGraph | +| RTX 4090 | 0.014 | UNK | 24 | Flash Attn Varlen CUDAGraph | +| RTX 4060 Ti | 0.07 | 460 ms | 1 | Flash Attn Varlen CUDAGraph | +| RTX 4060 Ti | 0.028 | UNK | 28 | Flash Attn Varlen CUDAGraph | +| Apple M4 | 0.21 | UNK | 1 | MLX Quantized Affined | + +
**Kullanıcı Kılavuzu: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)** +
+ ## Kurulum ### Test Edilmiş Ortamlar -| Python Version | PyTorch Version | Device | -| -------------- | --------------- | ------------- | -| Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 | -| Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 | -| Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 | -| Python 3.11 | PyTorch 2.8.0 | Apple Silicon | -| Python 3.10 | PyTorch 2.8.0 | CPU | +| Python Version | PyTorch Version | Device | +| :------------: | :-------------: | :-----------: | +| Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 | +| Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 | +| Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 | +| Python 3.11 | PyTorch 2.8.0 | Apple Silicon | +| Python 3.10 | PyTorch 2.8.0 | CPU | + +
### Windows @@ -94,8 +109,12 @@ conda activate GPTSoVits bash install.sh --device --source [--download-uvr5] ``` +
+ ### El ile Yükleme +
+ #### Bağımlılıkları Yükleme ```bash @@ -134,7 +153,11 @@ sudo apt install libsox-dev brew install ffmpeg ``` -### GPT-SoVITS Çalıştırma (Docker Kullanarak) +
+ +### Docker kullanarak GPT-SoVITS çalıştırma + +
#### Docker İmajı Seçimi @@ -184,8 +207,12 @@ Konteyner arka planda çalışırken, aşağıdaki komutla içine girebilirsiniz docker exec -it bash ``` +
+ ## Önceden Eğitilmiş Modeller +
+ **Eğer `install.sh` başarıyla çalıştırılırsa, No.1,2,3 adımını atlayabilirsiniz.** 1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) üzerinden önceden eğitilmiş modelleri indirip `GPT_SoVITS/pretrained_models` dizinine yerleştirin. @@ -202,11 +229,15 @@ docker exec -it + ## Veri Seti Formatı +
+ TTS açıklama .list dosya formatı: -``` +```text vocal_path|speaker_name|language|text ``` @@ -220,14 +251,18 @@ Dil sözlüğü: Örnek: -``` +```text D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin. ``` +
+ ## İnce Ayar ve Çıkarım ### WebUI'yi Açın +
+ #### Entegre Paket Kullanıcıları `go-webui.bat` dosyasına çift tıklayın veya `go-webui.ps1` kullanın. @@ -239,8 +274,12 @@ V1'e geçmek istiyorsanız, `go-webui-v1.bat` dosyasına çift tıklayın veya ` python webui.py ``` +
+ ### İnce Ayar +
+ #### Yol Otomatik Doldurma artık destekleniyor 1. Ses yolunu doldurun @@ -250,8 +289,12 @@ python webui.py 5. ASR transkripsiyonlarını düzeltin 6. Bir sonraki sekmeye geçin ve modeli ince ayar yapın +
+ ### Çıkarım WebUI'sini Açın +
+ #### Entegre Paket Kullanıcıları `go-webui-v2.bat` dosyasına çift tıklayın veya `go-webui-v2.ps1` kullanın, ardından çıkarım webui'sini `1-GPT-SoVITS-TTS/1C-inference` adresinde açın. @@ -270,8 +313,12 @@ python webui.py ardından çıkarım webui'sini `1-GPT-SoVITS-TTS/1C-inference` adresinde açın. +
+ ## V2 Sürüm Notları +
+ Yeni Özellikler: 1. Korece ve Kantonca destekler @@ -284,18 +331,12 @@ Yeni Özellikler: [detaylar burada]() -V1 ortamından V2'yi kullanmak için: - -1. `pip install -r requirements.txt` ile bazı paketleri güncelleyin - -2. github'dan en son kodları klonlayın. - -3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained) adresinden v2 önceden eğitilmiş modelleri indirin ve bunları `GPT_SoVITS/pretrained_models/gsv-v2final-pretrained` dizinine yerleştirin. - - Ek olarak Çince V2: [G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip) (G2PW modellerini indirip, zipten çıkarıp, `G2PWModel` olarak yeniden adlandırıp `GPT_SoVITS/text` dizinine yerleştirin.) +
## V3 Sürüm Notları +
+ Yeni Özellikler: 1. **Tını benzerliği** daha yüksek olup, hedef konuşmacıyı yakınsamak için daha az eğitim verisi gerekmektedir (tını benzerliği, base model doğrudan kullanılacak şekilde fine-tuning yapılmadan önemli ölçüde iyileştirilmiştir). @@ -304,33 +345,23 @@ Yeni Özellikler: [daha fazla detay]() -V2 ortamında V3 kullanımı: - -1. `pip install -r requirements.txt` ile bazı paketleri güncelleyin. - -2. GitHub'dan en son kodları klonlayın. - -3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) üzerinden v3 önceden eğitilmiş modellerini (s1v3.ckpt, s2Gv3.pth ve models--nvidia--bigvgan_v2_24khz_100band_256x klasörünü) indirin ve `GPT_SoVITS/pretrained_models` dizinine yerleştirin. - - ek: Ses Süper Çözünürlük modeli için [nasıl indirileceği](../../tools/AP_BWE/24kto48k/readme.txt) hakkında bilgi alabilirsiniz. +
## V4 Sürüm Notları +
+ Yeni Özellikler: 1. **V4, V3'te görülen non-integer upsample işleminden kaynaklanan metalik ses sorununu düzeltti ve sesin boğuklaşmasını önlemek için doğrudan 48kHz ses çıktısı sunar (V3 sadece 24kHz destekler)**. Yazar, V4'ün V3'ün yerine geçebileceğini belirtmiştir ancak daha fazla test yapılması gerekmektedir. [Daha fazla bilgi]() -V1/V2/V3 ortamından V4'e geçiş: - -1. Bazı bağımlılıkları güncellemek için `pip install -r requirements.txt` komutunu çalıştırın. - -2. GitHub'dan en son kodları klonlayın. - -3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) üzerinden V4 ön eğitilmiş modelleri indirin (`gsv-v4-pretrained/s2v4.ckpt` ve `gsv-v4-pretrained/vocoder.pth`) ve bunları `GPT_SoVITS/pretrained_models` dizinine koyun. +
## V2Pro Sürüm Notları +
+ Yeni Özellikler: 1. **V2 ile karşılaştırıldığında biraz daha yüksek VRAM kullanımı sağlar ancak V4'ten daha iyi performans gösterir; aynı donanım maliyeti ve hız avantajını korur**. @@ -346,8 +377,12 @@ V1/V2/V3/V4 ortamından V2Pro'ya geçiş: 3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) üzerinden V2Pro ön eğitilmiş modelleri indirin (`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, ve `sv/pretrained_eres2netv2w24s4ep4.ckpt`) ve bunları `GPT_SoVITS/pretrained_models` dizinine koyun. +
+ ## Yapılacaklar Listesi +
+ - [x] **Yüksek Öncelikli:** - [x] Japonca ve İngilizceye yerelleştirme. @@ -407,8 +442,12 @@ python ./tools/asr/fasterwhisper_asr.py -i -o <çıktı> -l Özel bir liste kaydetme yolu etkinleştirildi +
+ ## Katkı Verenler +
+ Özellikle aşağıdaki projelere ve katkıda bulunanlara teşekkür ederiz: ### Teorik Araştırma @@ -451,8 +490,12 @@ python ./tools/asr/fasterwhisper_asr.py -i -o <çıktı> -l @Naozumi520'ye Kantonca eğitim setini sağladığı ve Kantonca ile ilgili bilgiler konusunda rehberlik ettiği için minnettarım. +
+ ## Tüm katkıda bulunanlara çabaları için teşekkürler +
+ - +