This commit is contained in:
XXXXRT666 2025-10-10 12:03:02 +01:00
parent c6f74c9a1f
commit 8f7e5557be
5 changed files with 412 additions and 202 deletions

126
README.md
View File

@ -1,3 +1,5 @@
#
<div align="center"> <div align="center">
<h1>GPT-SoVITS-WebUI</h1> <h1>GPT-SoVITS-WebUI</h1>
@ -7,8 +9,6 @@ A Powerful Few-shot Voice Conversion and Text-to-Speech WebUI.<br><br>
<a href="https://trendshift.io/repositories/7033" target="_blank"><img src="https://trendshift.io/api/badge/repositories/7033" alt="RVC-Boss%2FGPT-SoVITS | Trendshift" style="width: 250px; height: 55px;" width="250" height="55"/></a> <a href="https://trendshift.io/repositories/7033" target="_blank"><img src="https://trendshift.io/api/badge/repositories/7033" alt="RVC-Boss%2FGPT-SoVITS | Trendshift" style="width: 250px; height: 55px;" width="250" height="55"/></a>
<!-- img src="https://counter.seku.su/cmoe?name=gptsovits&theme=r34" /><br> -->
[![Python](https://img.shields.io/badge/python-3.10--3.12-blue?style=for-the-badge&logo=python)](https://www.python.org) [![Python](https://img.shields.io/badge/python-3.10--3.12-blue?style=for-the-badge&logo=python)](https://www.python.org)
[![GitHub release](https://img.shields.io/github/v/release/RVC-Boss/gpt-sovits?style=for-the-badge&logo=github)](https://github.com/RVC-Boss/gpt-sovits/releases) [![GitHub release](https://img.shields.io/github/v/release/RVC-Boss/gpt-sovits?style=for-the-badge&logo=github)](https://github.com/RVC-Boss/gpt-sovits/releases)
@ -27,8 +27,12 @@ A Powerful Few-shot Voice Conversion and Text-to-Speech WebUI.<br><br>
--- ---
<div align="center">
## Features ## Features
</div>
1. **Zero-shot TTS:** Input a 5-second vocal sample and experience instant text-to-speech conversion. 1. **Zero-shot TTS:** Input a 5-second vocal sample and experience instant text-to-speech conversion.
2. **Few-shot TTS:** Fine-tune the model with just 1 minute of training data for improved voice similarity and realism. 2. **Few-shot TTS:** Fine-tune the model with just 1 minute of training data for improved voice similarity and realism.
@ -43,31 +47,39 @@ Unseen speakers few-shot fine-tuning demo:
<https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb> <https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb>
<div align="center">
## Infer Speed ## Infer Speed
| Device | RTF | TTFB | Batch Size | Backend | | Device | RTF | TTFB | Batch Size | Backend |
| ----------- | ----- | ------ | ---------- | --------------------------- | | :---------: | :---: | :----: | :--------: | :-------------------------: |
| RTX 5090 | 0.05 | 150 ms | 1 | Flash Attn Varlen CUDAGraph | | RTX 5090 | 0.05 | 150 ms | 1 | Flash Attn Varlen CUDAGraph |
| RTX 4090 | 0.014 | UNK | 24 | Flash Attn Varlen CUDAGraph | | RTX 4090 | 0.014 | UNK | 24 | Flash Attn Varlen CUDAGraph |
| RTX 4060 Ti | 0.07 | 460 ms | 1 | Flash Attn Varlen CUDAGraph | | RTX 4060 Ti | 0.07 | 460 ms | 1 | Flash Attn Varlen CUDAGraph |
| RTX 4060 Ti | 0.028 | UNK | 28 | Flash Attn Varlen CUDAGraph | | RTX 4060 Ti | 0.028 | UNK | 28 | Flash Attn Varlen CUDAGraph |
| Apple M4 | 0.21 | | 1 | MLX Quantized Affined | | Apple M4 | 0.21 | UNK | 1 | MLX Quantized Affined |
</div>
**User guide: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)** **User guide: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)**
<div align="center">
## Installation ## Installation
For users in China, you can [click here](https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official) to use AutoDL Cloud Docker to experience the full functionality online. For users in China, you can [Click Here to use AutoDL](https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official) Cloud Docker to experience the full functionality online.
### Tested Environments ### Tested Environments
| Python Version | PyTorch Version | Device | | Python Version | PyTorch Version | Device |
| -------------- | --------------- | ------------- | | :------------: | :-------------: | :-----------: |
| Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 | | Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 |
| Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 | | Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 |
| Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 | | Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 |
| Python 3.11 | PyTorch 2.8.0 | Apple Silicon | | Python 3.11 | PyTorch 2.8.0 | Apple Silicon |
| Python 3.10 | PyTorch 2.8.0 | CPU | | Python 3.10 | PyTorch 2.8.0 | CPU |
</div>
### Windows ### Windows
@ -103,8 +115,12 @@ conda activate GPTSoVits
bash install.sh --device <MLX|CPU> --source <HF|HF-Mirror|ModelScope> [--download-uvr5] bash install.sh --device <MLX|CPU> --source <HF|HF-Mirror|ModelScope> [--download-uvr5]
``` ```
<div align="center">
### Install Manually ### Install Manually
</div>
#### Install Dependences #### Install Dependences
```bash ```bash
@ -143,8 +159,12 @@ Install [Visual Studio 2017](https://aka.ms/vs/17/release/vc_redist.x86.exe)
brew install ffmpeg brew install ffmpeg
``` ```
<div align="center">
### Running GPT-SoVITS with Docker ### Running GPT-SoVITS with Docker
</div>
#### Docker Image Selection #### Docker Image Selection
Due to rapid development in the codebase and a slower Docker image release cycle, please: Due to rapid development in the codebase and a slower Docker image release cycle, please:
@ -193,8 +213,12 @@ Once the container is running in the background, you can access it using:
docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128> bash docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128> bash
``` ```
<div align="center">
## Pretrained Models ## Pretrained Models
</div>
**If `install.sh` runs successfully, you may skip No.1,2,3** **If `install.sh` runs successfully, you may skip No.1,2,3**
**Users in China can [download all these models here](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4#nVNhX).** **Users in China can [download all these models here](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4#nVNhX).**
@ -213,8 +237,12 @@ docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GP
5. For English or Japanese ASR (additionally), download models from [Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) and place them in `tools/asr/models`. Also, [other models](https://huggingface.co/Systran) may have the similar effect with smaller disk footprint. 5. For English or Japanese ASR (additionally), download models from [Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) and place them in `tools/asr/models`. Also, [other models](https://huggingface.co/Systran) may have the similar effect with smaller disk footprint.
<div align="center">
## Dataset Format ## Dataset Format
</div>
The TTS annotation .list file format: The TTS annotation .list file format:
```text ```text
@ -239,10 +267,14 @@ D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
``` ```
<div align="center">
## Finetune and inference ## Finetune and inference
### Open WebUI ### Open WebUI
</div>
#### Integrated Package Users #### Integrated Package Users
Double-click `go-webui.bat`or use `go-webui.ps1` Double-click `go-webui.bat`or use `go-webui.ps1`
@ -254,8 +286,12 @@ if you want to switch to V1,then double-click`go-webui-v1.bat` or use `go-webui-
python webui.py <language(optional)> python webui.py <language(optional)>
``` ```
<div align="center">
### Finetune ### Finetune
</div>
#### Path Auto-filling is now supported #### Path Auto-filling is now supported
1. Fill in the audio path 1. Fill in the audio path
@ -265,8 +301,12 @@ python webui.py <language(optional)>
5. Proofreading ASR transcriptions 5. Proofreading ASR transcriptions
6. Go to the next Tab, then finetune the model 6. Go to the next Tab, then finetune the model
<div align="center">
### Open Inference WebUI ### Open Inference WebUI
</div>
#### Integrated Package Users #### Integrated Package Users
Double-click `go-webui-v2.bat` or use `go-webui-v2.ps1` ,then open the inference webui at `1-GPT-SoVITS-TTS/1C-inference` Double-click `go-webui-v2.bat` or use `go-webui-v2.ps1` ,then open the inference webui at `1-GPT-SoVITS-TTS/1C-inference`
@ -285,8 +325,12 @@ python webui.py
then open the inference webui at `1-GPT-SoVITS-TTS/1C-inference` then open the inference webui at `1-GPT-SoVITS-TTS/1C-inference`
<div align="center">
## V2 Release Notes ## V2 Release Notes
</div>
New Features: New Features:
1. Support Korean and Cantonese 1. Support Korean and Cantonese
@ -299,18 +343,12 @@ New Features:
[more details](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v2%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>) [more details](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v2%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
Use v2 from v1 environment: <div align="center">
1. `pip install -r requirements.txt` to update some packages
2. Clone the latest codes from github.
3. Download v2 pretrained models from [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained) and put them into `GPT_SoVITS/pretrained_models/gsv-v2final-pretrained`.
Chinese v2 additional: [G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip)(Download G2PW models, unzip and rename to `G2PWModel`, and then place them in `GPT_SoVITS/text`.)
## V3 Release Notes ## V3 Release Notes
</div>
New Features: New Features:
1. The timbre similarity is higher, requiring less training data to approximate the target speaker (the timbre similarity is significantly improved using the base model directly without fine-tuning). 1. The timbre similarity is higher, requiring less training data to approximate the target speaker (the timbre similarity is significantly improved using the base model directly without fine-tuning).
@ -319,33 +357,23 @@ New Features:
[more details](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3v4%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>) [more details](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3v4%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
Use v3 from v2 environment: <div align="center">
1. `pip install -r requirements.txt` to update some packages
2. Clone the latest codes from github.
3. Download v3 pretrained models (s1v3.ckpt, s2Gv3.pth and models--nvidia--bigvgan_v2_24khz_100band_256x folder) from [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) and put them into `GPT_SoVITS/pretrained_models`.
additional: for Audio Super Resolution model, you can read [how to download](./tools/AP_BWE/24kto48k/readme.txt)
## V4 Release Notes ## V4 Release Notes
</div>
New Features: New Features:
1. Version 4 fixes the issue of metallic artifacts in Version 3 caused by non-integer multiple upsampling, and natively outputs 48k audio to prevent muffled sound (whereas Version 3 only natively outputs 24k audio). The author considers Version 4 a direct replacement for Version 3, though further testing is still needed. 1. Version 4 fixes the issue of metallic artifacts in Version 3 caused by non-integer multiple upsampling, and natively outputs 48k audio to prevent muffled sound (whereas Version 3 only natively outputs 24k audio). The author considers Version 4 a direct replacement for Version 3, though further testing is still needed.
[more details](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3v4%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>) [more details](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3v4%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
Use v4 from v1/v2/v3 environment: <div align="center">
1. `pip install -r requirements.txt` to update some packages
2. Clone the latest codes from github.
3. Download v4 pretrained models (gsv-v4-pretrained/s2v4.ckpt, and gsv-v4-pretrained/vocoder.pth) from [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) and put them into `GPT_SoVITS/pretrained_models`.
## V2Pro Release Notes ## V2Pro Release Notes
</div>
New Features: New Features:
1. Slightly higher VRAM usage than v2, surpassing v4's performance, with v2's hardware cost and speed. 1. Slightly higher VRAM usage than v2, surpassing v4's performance, with v2's hardware cost and speed.
@ -361,8 +389,12 @@ Use v2Pro from v1/v2/v3/v4 environment:
3. Download v2Pro pretrained models (v2Pro/s2Dv2Pro.pth, v2Pro/s2Gv2Pro.pth, v2Pro/s2Dv2ProPlus.pth, v2Pro/s2Gv2ProPlus.pth, and sv/pretrained_eres2netv2w24s4ep4.ckpt) from [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) and put them into `GPT_SoVITS/pretrained_models`. 3. Download v2Pro pretrained models (v2Pro/s2Dv2Pro.pth, v2Pro/s2Gv2Pro.pth, v2Pro/s2Dv2ProPlus.pth, v2Pro/s2Gv2ProPlus.pth, and sv/pretrained_eres2netv2w24s4ep4.ckpt) from [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) and put them into `GPT_SoVITS/pretrained_models`.
<div align="center">
## Todo List ## Todo List
</div>
- [x] **High Priority:** - [x] **High Priority:**
- [x] Localization in Japanese and English. - [x] Localization in Japanese and English.
@ -422,8 +454,12 @@ python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p
A custom list save path is enabled A custom list save path is enabled
<div align="center">
## Credits ## Credits
</div>
Special thanks to the following projects and contributors: Special thanks to the following projects and contributors:
### Theoretical Research ### Theoretical Research
@ -466,8 +502,12 @@ Special thanks to the following projects and contributors:
Thankful to @Naozumi520 for providing the Cantonese training set and for the guidance on Cantonese-related knowledge. Thankful to @Naozumi520 for providing the Cantonese training set and for the guidance on Cantonese-related knowledge.
<div align="center">
## Thanks to all contributors for their efforts ## Thanks to all contributors for their efforts
</div>
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank"> <a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" /> <img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" alt=""/>
</a> </a>

View File

@ -1,3 +1,5 @@
#
<div align="center"> <div align="center">
<h1>GPT-SoVITS-WebUI</h1> <h1>GPT-SoVITS-WebUI</h1>
@ -25,8 +27,12 @@
--- ---
<div align="center">
## 功能 ## 功能
</div>
1. **零样本文本到语音 (TTS):** 输入 5 秒的声音样本, 即刻体验文本到语音转换. 1. **零样本文本到语音 (TTS):** 输入 5 秒的声音样本, 即刻体验文本到语音转换.
2. **少样本 TTS:** 仅需 1 分钟的训练数据即可微调模型, 提升声音相似度和真实感. 2. **少样本 TTS:** 仅需 1 分钟的训练数据即可微调模型, 提升声音相似度和真实感.
@ -41,17 +47,24 @@
<https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb> <https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb>
<div align="center">
## 推理速度 ## 推理速度
| Device | RTF | Batch Size | Backend | | Device | RTF | TTFB | Batch Size | Backend |
| ----------- | ----- | ---------- | --------------------------- | | :---------: | :---: | :----: | :--------: | :-------------------------: |
| RTX 5090 | 0.05 | 1 | Flash Attn Varlen CUDAGraph | | RTX 5090 | 0.05 | 150 ms | 1 | Flash Attn Varlen CUDAGraph |
| Apple M4 | 0.21 | 1 | MLX Quantized Affined | | RTX 4090 | 0.014 | UNK | 24 | Flash Attn Varlen CUDAGraph |
| RTX 4090 | 0.014 | 24 | Flash Attn Varlen CUDAGraph | | RTX 4060 Ti | 0.07 | 460 ms | 1 | Flash Attn Varlen CUDAGraph |
| RTX 4060 Ti | 0.028 | 28 | Flash Attn Varlen CUDAGraph | | RTX 4060 Ti | 0.028 | UNK | 28 | Flash Attn Varlen CUDAGraph |
| Apple M4 | 0.21 | UNK | 1 | MLX Quantized Affined |
</div>
**用户手册: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)** **用户手册: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)**
<div align="center">
## 安装 ## 安装
中国地区的用户可[点击此处](https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official)使用 AutoDL 云端镜像进行体验. 中国地区的用户可[点击此处](https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official)使用 AutoDL 云端镜像进行体验.
@ -66,6 +79,8 @@
| Python 3.11 | PyTorch 2.8.0 | Apple Silicon | | Python 3.11 | PyTorch 2.8.0 | Apple Silicon |
| Python 3.10 | PyTorch 2.8.0 | CPU | | Python 3.10 | PyTorch 2.8.0 | CPU |
</div>
### Windows ### Windows
如果你是 Windows 用户 (已在 win>=10 上测试), 可以下载[整合包](https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-v3lora-20250228.7z?download=true), 解压后双击 go-webui.bat 即可启动 GPT-SoVITS-WebUI. 如果你是 Windows 用户 (已在 win>=10 上测试), 可以下载[整合包](https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-v3lora-20250228.7z?download=true), 解压后双击 go-webui.bat 即可启动 GPT-SoVITS-WebUI.
@ -98,8 +113,12 @@ conda activate GPTSoVits
bash install.sh --device <MLX|CPU> --source <HF|HF-Mirror|ModelScope> [--download-uvr5] bash install.sh --device <MLX|CPU> --source <HF|HF-Mirror|ModelScope> [--download-uvr5]
``` ```
<div align="center">
### 手动安装 ### 手动安装
</div>
#### 安装依赖 #### 安装依赖
```bash ```bash
@ -138,7 +157,11 @@ sudo apt install libsox-dev
brew install ffmpeg brew install ffmpeg
``` ```
### 运行 GPT-SoVITS (使用 Docker) <div align="center">
### 使用 Docker 运行 GPT-SoVITS
</div>
#### Docker 镜像选择 #### Docker 镜像选择
@ -188,8 +211,12 @@ bash docker_build.sh --cuda <12.6|12.8> [--lite]
docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128> bash docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128> bash
``` ```
<div align="center">
## 预训练模型 ## 预训练模型
</div>
**若成功运行`install.sh`可跳过 No.1,2,3** **若成功运行`install.sh`可跳过 No.1,2,3**
**中国地区的用户可以[在此处下载这些模型](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4#nVNhX).** **中国地区的用户可以[在此处下载这些模型](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4#nVNhX).**
@ -208,8 +235,12 @@ docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GP
5. 对于英语或日语 ASR (额外功能), 从 [Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) 下载模型, 并将其放置在 `tools/asr/models` 目录中.此外, [其他模型](https://huggingface.co/Systran) 可能具有类似效果且占用更少的磁盘空间. 5. 对于英语或日语 ASR (额外功能), 从 [Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) 下载模型, 并将其放置在 `tools/asr/models` 目录中.此外, [其他模型](https://huggingface.co/Systran) 可能具有类似效果且占用更少的磁盘空间.
<div align="center">
## 数据集格式 ## 数据集格式
</div>
文本到语音 (TTS) 注释 .list 文件格式: 文本到语音 (TTS) 注释 .list 文件格式:
```text ```text
@ -230,10 +261,14 @@ vocal_path|speaker_name|language|text
D:\GPT-SoVITS\xxx/xxx.wav|xxx|zh|我爱玩原神. D:\GPT-SoVITS\xxx/xxx.wav|xxx|zh|我爱玩原神.
``` ```
<div align="center">
## 微调与推理 ## 微调与推理
### 打开 WebUI ### 打开 WebUI
</div>
#### 整合包用户 #### 整合包用户
双击`go-webui.bat`或者使用`go-webui.ps1` 双击`go-webui.bat`或者使用`go-webui.ps1`
@ -245,8 +280,12 @@ D:\GPT-SoVITS\xxx/xxx.wav|xxx|zh|我爱玩原神.
python webui.py <language(optional)> python webui.py <language(optional)>
``` ```
<div align="center">
### 微调 ### 微调
</div>
#### 现已支持自动填充路径 #### 现已支持自动填充路径
1. 填入训练音频路径 1. 填入训练音频路径
@ -256,8 +295,12 @@ python webui.py <language(optional)>
5. 校对标注 5. 校对标注
6. 前往下一个窗口,点击训练 6. 前往下一个窗口,点击训练
<div align="center">
### 打开推理 WebUI ### 打开推理 WebUI
</div>
#### 整合包用户 #### 整合包用户
双击 `go-webui.bat` 或者使用 `go-webui.ps1` ,然后在 `1-GPT-SoVITS-TTS/1C-推理` 中打开推理 webUI 双击 `go-webui.bat` 或者使用 `go-webui.ps1` ,然后在 `1-GPT-SoVITS-TTS/1C-推理` 中打开推理 webUI
@ -276,8 +319,12 @@ python webui.py
然后在 `1-GPT-SoVITS-TTS/1C-推理` 中打开推理 webUI 然后在 `1-GPT-SoVITS-TTS/1C-推理` 中打开推理 webUI
<div align="center">
## V2 发布说明 ## V2 发布说明
</div>
新特性: 新特性:
1. 支持韩语及粤语 1. 支持韩语及粤语
@ -290,18 +337,12 @@ python webui.py
详见[wiki](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v2%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>) 详见[wiki](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v2%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
从 v1 环境迁移至 v2 <div align="center">
1. 需要 pip 安装 requirements.txt 更新环境
2. 需要克隆 github 上的最新代码
3. 需要从[huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained) 下载预训练模型文件放到 GPT_SoVITS/pretrained_models/gsv-v2final-pretrained 下
中文额外需要下载[G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip) (下载 G2PW 模型,解压并重命名为`G2PWModel`,将其放到`GPT_SoVITS/text`目录下)
## V3 更新说明 ## V3 更新说明
</div>
新模型特点: 新模型特点:
1. 音色相似度更像, 需要更少训练集来逼近本人 (不训练直接使用底模模式下音色相似性提升更大) 1. 音色相似度更像, 需要更少训练集来逼近本人 (不训练直接使用底模模式下音色相似性提升更大)
@ -310,33 +351,23 @@ python webui.py
详见[wiki](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v2%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>) 详见[wiki](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v2%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
从 v2 环境迁移至 v3 <div align="center">
1. 需要 pip 安装 requirements.txt 更新环境
2. 需要克隆 github 上的最新代码
3. 从[huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main)下载这些 v3 新增预训练模型 (s1v3.ckpt, s2Gv3.pth and models--nvidia--bigvgan_v2_24khz_100band_256x folder)将他们放到`GPT_SoVITS/pretrained_models`目录下
如果想用音频超分功能缓解 v3 模型生成 24k 音频觉得闷的问题, 需要下载额外的模型参数, 参考[how to download](../../tools/AP_BWE/24kto48k/readme.txt)
## V4 更新说明 ## V4 更新说明
</div>
新特性: 新特性:
1. **V4 版本修复了 V3 版本中由于非整数倍上采样导致的金属音问题, 并原生输出 48kHz 音频以避免声音闷糊 (而 V3 版本仅原生输出 24kHz 音频)**. 作者认为 V4 是对 V3 的直接替代, 但仍需进一步测试. 1. **V4 版本修复了 V3 版本中由于非整数倍上采样导致的金属音问题, 并原生输出 48kHz 音频以避免声音闷糊 (而 V3 版本仅原生输出 24kHz 音频)**. 作者认为 V4 是对 V3 的直接替代, 但仍需进一步测试.
[更多详情](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3v4%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>) [更多详情](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3v4%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
从 V1/V2/V3 环境迁移至 V4 <div align="center">
1. 执行 `pip install -r requirements.txt` 更新部分依赖包.
2. 从 GitHub 克隆最新代码.
3. 从 [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) 下载 V4 预训练模型 (`gsv-v4-pretrained/s2v4.ckpt``gsv-v4-pretrained/vocoder.pth`), 并放入 `GPT_SoVITS/pretrained_models` 目录.
## V2Pro 更新说明 ## V2Pro 更新说明
</div>
新特性: 新特性:
1. **相比 V2 占用稍高显存, 性能超过 V4, 在保留 V2 硬件成本和推理速度优势的同时实现更高音质.** 1. **相比 V2 占用稍高显存, 性能超过 V4, 在保留 V2 硬件成本和推理速度优势的同时实现更高音质.**
@ -352,8 +383,12 @@ python webui.py
3. 从 [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) 下载 V2Pro 预训练模型 (`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, 和 `sv/pretrained_eres2netv2w24s4ep4.ckpt`), 并放入 `GPT_SoVITS/pretrained_models` 目录. 3. 从 [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) 下载 V2Pro 预训练模型 (`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, 和 `sv/pretrained_eres2netv2w24s4ep4.ckpt`), 并放入 `GPT_SoVITS/pretrained_models` 目录.
<div align="center">
## 待办事项清单 ## 待办事项清单
</div>
- [x] **高优先级:** - [x] **高优先级:**
- [x] 日语和英语的本地化. - [x] 日语和英语的本地化.
@ -408,8 +443,12 @@ python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p
启用自定义列表保存路径 启用自定义列表保存路径
<div align="center">
## 致谢 ## 致谢
</div>
特别感谢以下项目和贡献者: 特别感谢以下项目和贡献者:
### 理论研究 ### 理论研究
@ -452,8 +491,12 @@ python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p
感谢 @Naozumi520 提供粤语训练集, 并在粤语相关知识方面给予指导. 感谢 @Naozumi520 提供粤语训练集, 并在粤语相关知识方面给予指导.
<div align="center">
## 感谢所有贡献者的努力 ## 感谢所有贡献者的努力
</div>
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank"> <a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" /> <img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" alt=""/>
</a> </a>

View File

@ -1,3 +1,5 @@
#
<div align="center"> <div align="center">
<h1>GPT-SoVITS-WebUI</h1> <h1>GPT-SoVITS-WebUI</h1>
@ -25,8 +27,12 @@
--- ---
<div align="center">
## 機能 ## 機能
</div>
1. **Zero-Shot TTS:** たった 5 秒間の音声サンプルで、即座にテキストからその音声に変換できます. 1. **Zero-Shot TTS:** たった 5 秒間の音声サンプルで、即座にテキストからその音声に変換できます.
2. **Few-Shot TTS:** わずか 1 分間のトレーニングデータでモデルを微調整し、音声のクオリティを向上. 2. **Few-Shot TTS:** わずか 1 分間のトレーニングデータでモデルを微調整し、音声のクオリティを向上.
@ -41,28 +47,37 @@
<https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb> <https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb>
<div align="center">
## 推論速度 ## 推論速度
| Device | RTF | Batch Size | Backend | | Device | RTF | TTFB | Batch Size | Backend |
| ----------- | ----- | ---------- | --------------------------- | | :---------: | :---: | :----: | :--------: | :-------------------------: |
| RTX 5090 | 0.05 | 1 | Flash Attn Varlen CUDAGraph | | RTX 5090 | 0.05 | 150 ms | 1 | Flash Attn Varlen CUDAGraph |
| Apple M4 | 0.21 | 1 | MLX Quantized Affined | | RTX 4090 | 0.014 | UNK | 24 | Flash Attn Varlen CUDAGraph |
| RTX 4090 | 0.014 | 24 | Flash Attn Varlen CUDAGraph | | RTX 4060 Ti | 0.07 | 460 ms | 1 | Flash Attn Varlen CUDAGraph |
| RTX 4060 Ti | 0.028 | 28 | Flash Attn Varlen CUDAGraph | | RTX 4060 Ti | 0.028 | UNK | 28 | Flash Attn Varlen CUDAGraph |
| Apple M4 | 0.21 | UNK | 1 | MLX Quantized Affined |
</div>
**ユーザーマニュアル: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)** **ユーザーマニュアル: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)**
<div align="center">
## インストール ## インストール
### テスト済みの環境 ### テスト済みの環境
| Python Version | PyTorch Version | Device | | Python Version | PyTorch Version | Device |
| -------------- | --------------- | ------------- | | :------------: | :-------------: | :-----------: |
| Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 | | Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 |
| Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 | | Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 |
| Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 | | Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 |
| Python 3.11 | PyTorch 2.8.0 | Apple Silicon | | Python 3.11 | PyTorch 2.8.0 | Apple Silicon |
| Python 3.10 | PyTorch 2.8.0 | CPU | | Python 3.10 | PyTorch 2.8.0 | CPU |
</div>
### Windows ### Windows
@ -88,8 +103,12 @@ conda activate GPTSoVits
bash install.sh --device <MLX|CPU> --source <HF|HF-Mirror|ModelScope> [--download-uvr5] bash install.sh --device <MLX|CPU> --source <HF|HF-Mirror|ModelScope> [--download-uvr5]
``` ```
<div align="center">
### 手動インストール ### 手動インストール
</div>
#### 依存関係をインストールします #### 依存関係をインストールします
```bash ```bash
@ -128,7 +147,11 @@ sudo apt install libsox-dev
brew install ffmpeg brew install ffmpeg
``` ```
### GPT-SoVITS の実行 (Docker 使用) <div align="center">
### Docker を使用して GPT-SoVITS を実行
</div>
#### Docker イメージの選択 #### Docker イメージの選択
@ -178,8 +201,12 @@ bash docker_build.sh --cuda <12.6|12.8> [--lite]
docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128> bash docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128> bash
``` ```
<div align="center">
## 事前訓練済みモデル ## 事前訓練済みモデル
</div>
**`install.sh`が正常に実行された場合、No.1,2,3 はスキップしてかまいません.** **`install.sh`が正常に実行された場合、No.1,2,3 はスキップしてかまいません.**
1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) から事前訓練済みモデルをダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリに配置してください. 1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) から事前訓練済みモデルをダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリに配置してください.
@ -196,8 +223,12 @@ docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GP
5. 英語または日本語の ASR (追加機能) を使用する場合は、[Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) からモデルをダウンロードし、`tools/asr/models` ディレクトリに配置してください.また、[他のモデル](https://huggingface.co/Systran) は、より小さいサイズで高クオリティな可能性があります. 5. 英語または日本語の ASR (追加機能) を使用する場合は、[Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) からモデルをダウンロードし、`tools/asr/models` ディレクトリに配置してください.また、[他のモデル](https://huggingface.co/Systran) は、より小さいサイズで高クオリティな可能性があります.
<div align="center">
## データセット形式 ## データセット形式
</div>
TTS アノテーション .list ファイル形式: TTS アノテーション .list ファイル形式:
```text ```text
@ -216,10 +247,14 @@ vocal_path|speaker_name|language|text
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin. D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
``` ```
<div align="center">
## 微調整と推論 ## 微調整と推論
### WebUI を開く ### WebUI を開く
</div>
#### 統合パッケージ利用者 #### 統合パッケージ利用者
`go-webui.bat`をダブルクリックするか、`go-webui.ps1`を使用します. `go-webui.bat`をダブルクリックするか、`go-webui.ps1`を使用します.
@ -231,8 +266,12 @@ V1 に切り替えたい場合は、`go-webui-v1.bat`をダブルクリックす
python webui.py <言語(オプション)> python webui.py <言語(オプション)>
``` ```
<div align="center">
### 微調整 ### 微調整
</div>
#### パス自動補完のサポート #### パス自動補完のサポート
1. 音声パスを入力する 1. 音声パスを入力する
@ -242,8 +281,12 @@ python webui.py <言語(オプション)>
5. ASR 転写を校正する 5. ASR 転写を校正する
6. 次のタブに移動し、モデルを微調整する 6. 次のタブに移動し、モデルを微調整する
<div align="center">
### 推論 WebUI を開く ### 推論 WebUI を開く
</div>
#### 統合パッケージ利用者 #### 統合パッケージ利用者
`go-webui-v2.bat`をダブルクリックするか、`go-webui-v2.ps1`を使用して、`1-GPT-SoVITS-TTS/1C-inference`で推論 webui を開きます. `go-webui-v2.bat`をダブルクリックするか、`go-webui-v2.ps1`を使用して、`1-GPT-SoVITS-TTS/1C-inference`で推論 webui を開きます.
@ -262,8 +305,12 @@ python webui.py
その後、`1-GPT-SoVITS-TTS/1C-inference`で推論 webui を開きます. その後、`1-GPT-SoVITS-TTS/1C-inference`で推論 webui を開きます.
<div align="center">
## V2 リリースノート ## V2 リリースノート
</div>
新機能: 新機能:
1. 韓国語と広東語をサポート 1. 韓国語と広東語をサポート
@ -276,18 +323,12 @@ python webui.py
[詳細はこちら](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v2%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>) [詳細はこちら](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v2%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
V1 環境から V2 を使用するには: <div align="center">
1. `pip install -r requirements.txt`を使用していくつかのパッケージを更新
2. 最新のコードを github からクローン
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained)から V2 の事前学習モデルをダウンロードし、それらを`GPT_SoVITS/pretrained_models/gsv-v2final-pretrained`に配置
中国語 V2 追加: [G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip) (G2PW モデルをダウンロードし、解凍して`G2PWModel`にリネームし、`GPT_SoVITS/text`に配置します)
## V3 リリースノート ## V3 リリースノート
</div>
新機能: 新機能:
1. 音色の類似性が向上し、ターゲットスピーカーを近似するために必要な学習データが少なくなりました (音色の類似性は、ファインチューニングなしでベースモデルを直接使用することで顕著に改善されます). 1. 音色の類似性が向上し、ターゲットスピーカーを近似するために必要な学習データが少なくなりました (音色の類似性は、ファインチューニングなしでベースモデルを直接使用することで顕著に改善されます).
@ -296,36 +337,26 @@ V1 環境から V2 を使用するには:
[詳細情報はこちら](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>) [詳細情報はこちら](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
v2 環境から v3 を使用する方法: <div align="center">
1. `pip install -r requirements.txt` を実行して、いくつかのパッケージを更新します.
2. GitHub から最新のコードをクローンします.
3. v3 の事前学習済みモデル (s1v3.ckpt、s2Gv3.pth、models--nvidia--bigvgan_v2_24khz_100band_256x フォルダ) を[Huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) からダウンロードし、GPT_SoVITS/pretrained_models フォルダに配置します.
追加: 音声超解像モデルについては、[ダウンロード方法](../../tools/AP_BWE/24kto48k/readme.txt)を参照してください.
## V4 リリースノート ## V4 リリースノート
</div>
新機能: 新機能:
1. **V4 は、V3 で発生していた非整数倍アップサンプリングによる金属音の問題を修正し、音声がこもる問題を防ぐためにネイティブに 48kHz 音声を出力しますV3 はネイティブに 24kHz 音声のみ出力)**. 作者は V4 を V3 の直接的な置き換えとして推奨していますが、さらなるテストが必要です. 1. **V4 は、V3 で発生していた非整数倍アップサンプリングによる金属音の問題を修正し、音声がこもる問題を防ぐためにネイティブに 48kHz 音声を出力しますV3 はネイティブに 24kHz 音声のみ出力)**. 作者は V4 を V3 の直接的な置き換えとして推奨していますが、さらなるテストが必要です.
[詳細はこちら](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3v4%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>) [詳細はこちら](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3v4%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
V1/V2/V3 環境から V4 への移行方法: <div align="center">
1. `pip install -r requirements.txt` を実行して一部の依存パッケージを更新してください.
2. GitHub から最新のコードをクローンします.
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) から V4 の事前学習済みモデル (`gsv-v4-pretrained/s2v4.ckpt` および `gsv-v4-pretrained/vocoder.pth`) をダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリへ配置してください.
## V2Pro リリースノート ## V2Pro リリースノート
</div>
新機能: 新機能:
1. **V2 と比較してやや高いメモリ使用量ですが、ハードウェアコストと推論速度は維持しつつ、V4 よりも高い性能と音質を実現します. ** 1. **V2 と比較してやや高いメモリ使用量ですが、ハードウェアコストと推論速度は維持しつつ、V4 よりも高い性能と音質を実現します.**
[詳細はこちら](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90features-(%E5%90%84%E7%89%88%E6%9C%AC%E7%89%B9%E6%80%A7)>) [詳細はこちら](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90features-(%E5%90%84%E7%89%88%E6%9C%AC%E7%89%B9%E6%80%A7)>)
2. V1/V2 と V2Pro シリーズは類似した特徴を持ち、V3/V4 も同様の機能を持っています. 平均音質が低いトレーニングセットの場合、V1/V2/V2Pro は良好な結果を出すことができますが、V3/V4 では対応できません. また、V3/V4 の合成音声はトレーニング全体ではなく、より参考音声に寄った音質になります. 2. V1/V2 と V2Pro シリーズは類似した特徴を持ち、V3/V4 も同様の機能を持っています. 平均音質が低いトレーニングセットの場合、V1/V2/V2Pro は良好な結果を出すことができますが、V3/V4 では対応できません. また、V3/V4 の合成音声はトレーニング全体ではなく、より参考音声に寄った音質になります.
@ -338,8 +369,12 @@ V1/V2/V3/V4 環境から V2Pro への移行方法:
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) から V2Pro の事前学習済みモデル (`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, および `sv/pretrained_eres2netv2w24s4ep4.ckpt`) をダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリへ配置してください. 3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) から V2Pro の事前学習済みモデル (`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, および `sv/pretrained_eres2netv2w24s4ep4.ckpt`) をダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリへ配置してください.
<div align="center">
## Todo リスト ## Todo リスト
</div>
- [x] **優先度 高:** - [x] **優先度 高:**
- [x] 日本語と英語でのローカライズ. - [x] 日本語と英語でのローカライズ.
@ -399,8 +434,12 @@ python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p
カスタムリストの保存パスが有効になっています カスタムリストの保存パスが有効になっています
<div align="center">
## クレジット ## クレジット
</div>
特に以下のプロジェクトと貢献者に感謝します: 特に以下のプロジェクトと貢献者に感謝します:
### 理論研究 ### 理論研究
@ -443,8 +482,12 @@ python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p
@Naozumi520 さん、広東語のトレーニングセットの提供と、広東語に関する知識のご指導をいただき、感謝申し上げます. @Naozumi520 さん、広東語のトレーニングセットの提供と、広東語に関する知識のご指導をいただき、感謝申し上げます.
<div align="center">
## すべてのコントリビューターに感謝します ## すべてのコントリビューターに感謝します
</div>
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank"> <a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" /> <img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" alt=""/>
</a> </a>

View File

@ -1,3 +1,5 @@
#
<div align="center"> <div align="center">
<h1>GPT-SoVITS-WebUI</h1> <h1>GPT-SoVITS-WebUI</h1>
@ -25,8 +27,12 @@
--- ---
<div align="center">
## 기능 ## 기능
</div>
1. **제로샷 텍스트 음성 변환 (TTS):** 5초의 음성 샘플을 입력하면 즉시 텍스트를 음성으로 변환할 수 있습니다. 1. **제로샷 텍스트 음성 변환 (TTS):** 5초의 음성 샘플을 입력하면 즉시 텍스트를 음성으로 변환할 수 있습니다.
2. **소량의 데이터 TTS:** 1분의 훈련 데이터만으로 모델을 미세 조정하여 음성 유사도와 실제감을 향상시킬 수 있습니다. 2. **소량의 데이터 TTS:** 1분의 훈련 데이터만으로 모델을 미세 조정하여 음성 유사도와 실제감을 향상시킬 수 있습니다.
@ -41,30 +47,37 @@
<https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb> <https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb>
<div align="center">
## 추론 속도 ## 추론 속도
| Device | RTF | Batch Size | Backend | | Device | RTF | TTFB | Batch Size | Backend |
| ----------- | ----- | ---------- | --------------------------- | | :---------: | :---: | :----: | :--------: | :-------------------------: |
| RTX 5090 | 0.05 | 1 | Flash Attn Varlen CUDAGraph | | RTX 5090 | 0.05 | 150 ms | 1 | Flash Attn Varlen CUDAGraph |
| Apple M4 | 0.21 | 1 | MLX Quantized Affined | | RTX 4090 | 0.014 | UNK | 24 | Flash Attn Varlen CUDAGraph |
| RTX 4090 | 0.014 | 24 | Flash Attn Varlen CUDAGraph | | RTX 4060 Ti | 0.07 | 460 ms | 1 | Flash Attn Varlen CUDAGraph |
| RTX 4060 Ti | 0.028 | 28 | Flash Attn Varlen CUDAGraph | | RTX 4060 Ti | 0.028 | UNK | 28 | Flash Attn Varlen CUDAGraph |
| Apple M4 | 0.21 | UNK | 1 | MLX Quantized Affined |
</div>
**사용자 설명서: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)** **사용자 설명서: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)**
<div align="center">
## 설치 ## 설치
### 테스트 통과 환경 ### 테스트 통과 환경
| Python Version | PyTorch Version | Device | | Python Version | PyTorch Version | Device |
| -------------- | ---------------- | ------------- | | :------------: | :-------------: | :-----------: |
| Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 | | Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 |
| Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 | | Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 |
| Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 | | Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 |
| Python 3.9 | PyTorch 2.8.0dev | CUDA 12.8 | | Python 3.11 | PyTorch 2.8.0 | Apple Silicon |
| Python 3.9 | PyTorch 2.5.1 | Apple Silicon | | Python 3.10 | PyTorch 2.8.0 | CPU |
| Python 3.11 | PyTorch 2.7.0 | Apple Silicon |
| Python 3.9 | PyTorch 2.2.2 | CPU | </div>
### Windows ### Windows
@ -96,8 +109,12 @@ conda activate GPTSoVits
bash install.sh --device <MLX|CPU> --source <HF|HF-Mirror|ModelScope> [--download-uvr5] bash install.sh --device <MLX|CPU> --source <HF|HF-Mirror|ModelScope> [--download-uvr5]
``` ```
<div align="center">
### 수동 설치 ### 수동 설치
</div>
#### 의존성 설치 #### 의존성 설치
```bash ```bash
@ -136,7 +153,11 @@ sudo apt install libsox-dev
brew install ffmpeg brew install ffmpeg
``` ```
### GPT-SoVITS 실행하기 (Docker 사용) <div align="center">
### Docker를 사용하여 GPT-SoVITS 실행하기
</div>
#### Docker 이미지 선택 #### Docker 이미지 선택
@ -186,8 +207,12 @@ bash docker_build.sh --cuda <12.6|12.8> [--lite]
docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128> bash docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128> bash
``` ```
<div align="center">
## 사전 학습된 모델 ## 사전 학습된 모델
</div>
**`install.sh`가 성공적으로 실행되면 No.1,2,3 은 건너뛰어도 됩니다.** **`install.sh`가 성공적으로 실행되면 No.1,2,3 은 건너뛰어도 됩니다.**
1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) 에서 사전 학습된 모델을 다운로드하고, `GPT_SoVITS/pretrained_models` 디렉토리에 배치하세요. 1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) 에서 사전 학습된 모델을 다운로드하고, `GPT_SoVITS/pretrained_models` 디렉토리에 배치하세요.
@ -204,8 +229,12 @@ docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GP
5. 영어 또는 일본어 ASR (추가 기능)의 경우, [Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) 에서 모델을 다운로드하고, `tools/asr/models` 디렉토리에 배치하세요. 또한, [다른 모델](https://huggingface.co/Systran) 은 더 적은 디스크 용량으로 비슷한 효과를 가질 수 있습니다. 5. 영어 또는 일본어 ASR (추가 기능)의 경우, [Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) 에서 모델을 다운로드하고, `tools/asr/models` 디렉토리에 배치하세요. 또한, [다른 모델](https://huggingface.co/Systran) 은 더 적은 디스크 용량으로 비슷한 효과를 가질 수 있습니다.
<div align="center">
## 데이터셋 형식 ## 데이터셋 형식
</div>
텍스트 음성 합성(TTS) 주석 .list 파일 형식: 텍스트 음성 합성(TTS) 주석 .list 파일 형식:
```text ```text
@ -224,10 +253,14 @@ vocal_path|speaker_name|language|text
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin. D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
``` ```
<div align="center">
## 미세 조정 및 추론 ## 미세 조정 및 추론
### WebUI 열기 ### WebUI 열기
</div>
#### 통합 패키지 사용자 #### 통합 패키지 사용자
`go-webui.bat`을 더블 클릭하거나 `go-webui.ps1`를 사용하십시오. `go-webui.bat`을 더블 클릭하거나 `go-webui.ps1`를 사용하십시오.
@ -239,8 +272,12 @@ V1으로 전환하려면, `go-webui-v1.bat`을 더블 클릭하거나 `go-webui-
python webui.py <언어(옵션)> python webui.py <언어(옵션)>
``` ```
<div align="center">
### 미세 조정 ### 미세 조정
</div>
#### 경로 자동 채우기가 지원됩니다 #### 경로 자동 채우기가 지원됩니다
1. 오디오 경로를 입력하십시오. 1. 오디오 경로를 입력하십시오.
@ -250,8 +287,12 @@ python webui.py <언어(옵션)>
5. ASR 전사를 교정하십시오. 5. ASR 전사를 교정하십시오.
6. 다음 탭으로 이동하여 모델을 미세 조정하십시오. 6. 다음 탭으로 이동하여 모델을 미세 조정하십시오.
<div align="center">
### 추론 WebUI 열기 ### 추론 WebUI 열기
</div>
#### 통합 패키지 사용자 #### 통합 패키지 사용자
`go-webui-v2.bat`을 더블 클릭하거나 `go-webui-v2.ps1`를 사용한 다음 `1-GPT-SoVITS-TTS/1C-inference`에서 추론 webui를 엽니다. `go-webui-v2.bat`을 더블 클릭하거나 `go-webui-v2.ps1`를 사용한 다음 `1-GPT-SoVITS-TTS/1C-inference`에서 추론 webui를 엽니다.
@ -270,8 +311,12 @@ python webui.py
그런 다음 `1-GPT-SoVITS-TTS/1C-inference`에서 추론 webui를 엽니다. 그런 다음 `1-GPT-SoVITS-TTS/1C-inference`에서 추론 webui를 엽니다.
<div align="center">
## V2 릴리스 노트 ## V2 릴리스 노트
</div>
새로운 기능: 새로운 기능:
1. 한국어 및 광둥어 지원 1. 한국어 및 광둥어 지원
@ -284,18 +329,12 @@ python webui.py
[자세한 내용](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v2%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>) [자세한 내용](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v2%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
V1 환경에서 V2를 사용하려면: <div align="center">
1. `pip install -r requirements.txt`를 사용하여 일부 패키지 업데이트
2. github에서 최신 코드를 클론하십시오.
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained)에서 V2 사전 학습 모델을 다운로드하여 `GPT_SoVITS/pretrained_models/gsv-v2final-pretrained`에 넣으십시오.
중국어 V2 추가: [G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip) (G2PW 모델을 다운로드하여 압축을 풀고 `G2PWModel`로 이름을 변경한 다음 `GPT_SoVITS/text`에 배치합니다.)
## V3 릴리스 노트 ## V3 릴리스 노트
</div>
새로운 기능: 새로운 기능:
1. 음색 유사성이 더 높아져 목표 음성에 대한 학습 데이터가 적게 필요합니다. (기본 모델을 직접 사용하여 미세 조정 없이 음색 유사성이 크게 향상됩니다.) 1. 음색 유사성이 더 높아져 목표 음성에 대한 학습 데이터가 적게 필요합니다. (기본 모델을 직접 사용하여 미세 조정 없이 음색 유사성이 크게 향상됩니다.)
@ -304,33 +343,23 @@ V1 환경에서 V2를 사용하려면:
[자세한 내용](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>) [자세한 내용](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
v2 환경에서 v3 사용하기: <div align="center">
1. `pip install -r requirements.txt`로 일부 패키지를 업데이트합니다.
2. 최신 코드를 github 에서 클론합니다.
3. v3 사전 훈련된 모델(s1v3.ckpt, s2Gv3.pth, 그리고 models--nvidia--bigvgan_v2_24khz_100band_256x 폴더)을 [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main)에서 다운로드하여 `GPT_SoVITS/pretrained_models` 폴더에 넣습니다.
추가: 오디오 슈퍼 해상도 모델에 대해서는 [다운로드 방법](../../tools/AP_BWE/24kto48k/readme.txt)을 참고하세요.
## V4 릴리스 노트 ## V4 릴리스 노트
</div>
신규 기능: 신규 기능:
1. **V4는 V3에서 발생하는 비정수 배율 업샘플링으로 인한 금속성 잡음 문제를 수정했으며, 소리가 먹먹해지는 것을 방지하기 위해 기본적으로 48kHz 오디오를 출력합니다 (V3는 기본적으로 24kHz만 지원)**. 개발자는 V4를 V3의 직접적인 대체 버전으로 보고 있지만 추가 테스트가 필요합니다. 1. **V4는 V3에서 발생하는 비정수 배율 업샘플링으로 인한 금속성 잡음 문제를 수정했으며, 소리가 먹먹해지는 것을 방지하기 위해 기본적으로 48kHz 오디오를 출력합니다 (V3는 기본적으로 24kHz만 지원)**. 개발자는 V4를 V3의 직접적인 대체 버전으로 보고 있지만 추가 테스트가 필요합니다.
[자세히 보기](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3v4%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>) [자세히 보기](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3v4%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
V1/V2/V3 환경에서 V4로 전환 방법: <div align="center">
1. 일부 의존 패키지를 업데이트하기 위해 `pip install -r requirements.txt` 명령어를 실행하세요.
2. GitHub에서 최신 코드를 클론하세요.
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main)에서 V4 사전 학습 모델(`gsv-v4-pretrained/s2v4.ckpt``gsv-v4-pretrained/vocoder.pth`)을 다운로드하고 `GPT_SoVITS/pretrained_models` 디렉토리에 넣으세요.
## V2Pro 릴리스 노트 ## V2Pro 릴리스 노트
</div>
신규 기능: 신규 기능:
1. **V2보다 약간 높은 VRAM 사용량이지만 성능은 V4보다 우수하며, V2 수준의 하드웨어 비용과 속도를 유지합니다**. 1. **V2보다 약간 높은 VRAM 사용량이지만 성능은 V4보다 우수하며, V2 수준의 하드웨어 비용과 속도를 유지합니다**.
@ -346,8 +375,12 @@ V1/V2/V3/V4 환경에서 V2Pro로 전환 방법:
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main)에서 V2Pro 사전 학습 모델(`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, 및 `sv/pretrained_eres2netv2w24s4ep4.ckpt`)을 다운로드하고 `GPT_SoVITS/pretrained_models` 디렉토리에 넣으세요. 3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main)에서 V2Pro 사전 학습 모델(`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, 및 `sv/pretrained_eres2netv2w24s4ep4.ckpt`)을 다운로드하고 `GPT_SoVITS/pretrained_models` 디렉토리에 넣으세요.
<div align="center">
## 할 일 목록 ## 할 일 목록
</div>
- [x] **최우선순위:** - [x] **최우선순위:**
- [x] 일본어 및 영어 지역화. - [x] 일본어 및 영어 지역화.
@ -408,8 +441,12 @@ python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p
사용자 정의 목록 저장 경로가 활성화되었습니다. 사용자 정의 목록 저장 경로가 활성화되었습니다.
<div align="center">
## 감사의 말 ## 감사의 말
</div>
다음 프로젝트와 기여자들에게 특별히 감사드립니다: 다음 프로젝트와 기여자들에게 특별히 감사드립니다:
### 이론 연구 ### 이론 연구
@ -452,8 +489,12 @@ python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p
@Naozumi520 님께 감사드립니다. 광둥어 학습 자료를 제공해 주시고, 광둥어 관련 지식을 지도해 주셔서 감사합니다. @Naozumi520 님께 감사드립니다. 광둥어 학습 자료를 제공해 주시고, 광둥어 관련 지식을 지도해 주셔서 감사합니다.
## 모든 기여자들에게 감사드립니다 ;) <div align="center">
## 모든 기여자들에게 감사드립니다
</div>
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank"> <a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" /> <img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" alt=""/>
</a> </a>

View File

@ -1,3 +1,5 @@
#
<div align="center"> <div align="center">
<h1>GPT-SoVITS-WebUI</h1> <h1>GPT-SoVITS-WebUI</h1>
@ -25,8 +27,12 @@ Güçlü Birkaç Örnekli Ses Dönüştürme ve Metinden Konuşmaya Web Arayüz
--- ---
<div align="center">
## Özellikler ## Özellikler
</div>
1. **Sıfır Örnekli Metinden Konuşmaya:** 5 saniyelik bir vokal örneği girin ve anında metinden konuşmaya dönüşümünü deneyimleyin. 1. **Sıfır Örnekli Metinden Konuşmaya:** 5 saniyelik bir vokal örneği girin ve anında metinden konuşmaya dönüşümünü deneyimleyin.
2. **Birkaç Örnekli Metinden Konuşmaya:** Daha iyi ses benzerliği ve gerçekçiliği için modeli yalnızca 1 dakikalık eğitim verisiyle ince ayarlayın. 2. **Birkaç Örnekli Metinden Konuşmaya:** Daha iyi ses benzerliği ve gerçekçiliği için modeli yalnızca 1 dakikalık eğitim verisiyle ince ayarlayın.
@ -41,28 +47,37 @@ Görünmeyen konuşmacılar birkaç örnekli ince ayar demosu:
<https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb> <https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb>
<div align="center">
## çıkarım hızı ## çıkarım hızı
| Device | RTF | Batch Size | Backend | | Device | RTF | TTFB | Batch Size | Backend |
| ----------- | ----- | ---------- | --------------------------- | | :---------: | :---: | :----: | :--------: | :-------------------------: |
| RTX 5090 | 0.05 | 1 | Flash Attn Varlen CUDAGraph | | RTX 5090 | 0.05 | 150 ms | 1 | Flash Attn Varlen CUDAGraph |
| Apple M4 | 0.21 | 1 | MLX Quantized Affined | | RTX 4090 | 0.014 | UNK | 24 | Flash Attn Varlen CUDAGraph |
| RTX 4090 | 0.014 | 24 | Flash Attn Varlen CUDAGraph | | RTX 4060 Ti | 0.07 | 460 ms | 1 | Flash Attn Varlen CUDAGraph |
| RTX 4060 Ti | 0.028 | 28 | Flash Attn Varlen CUDAGraph | | RTX 4060 Ti | 0.028 | UNK | 28 | Flash Attn Varlen CUDAGraph |
| Apple M4 | 0.21 | UNK | 1 | MLX Quantized Affined |
</div>
**Kullanıcı Kılavuzu: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)** **Kullanıcı Kılavuzu: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)**
<div align="center">
## Kurulum ## Kurulum
### Test Edilmiş Ortamlar ### Test Edilmiş Ortamlar
| Python Version | PyTorch Version | Device | | Python Version | PyTorch Version | Device |
| -------------- | --------------- | ------------- | | :------------: | :-------------: | :-----------: |
| Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 | | Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 |
| Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 | | Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 |
| Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 | | Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 |
| Python 3.11 | PyTorch 2.8.0 | Apple Silicon | | Python 3.11 | PyTorch 2.8.0 | Apple Silicon |
| Python 3.10 | PyTorch 2.8.0 | CPU | | Python 3.10 | PyTorch 2.8.0 | CPU |
</div>
### Windows ### Windows
@ -94,8 +109,12 @@ conda activate GPTSoVits
bash install.sh --device <MLX|CPU> --source <HF|HF-Mirror|ModelScope> [--download-uvr5] bash install.sh --device <MLX|CPU> --source <HF|HF-Mirror|ModelScope> [--download-uvr5]
``` ```
<div align="center">
### El ile Yükleme ### El ile Yükleme
</div>
#### Bağımlılıkları Yükleme #### Bağımlılıkları Yükleme
```bash ```bash
@ -134,7 +153,11 @@ sudo apt install libsox-dev
brew install ffmpeg brew install ffmpeg
``` ```
### GPT-SoVITS Çalıştırma (Docker Kullanarak) <div align="center">
### Docker kullanarak GPT-SoVITS çalıştırma
</div>
#### Docker İmajı Seçimi #### Docker İmajı Seçimi
@ -184,8 +207,12 @@ Konteyner arka planda çalışırken, aşağıdaki komutla içine girebilirsiniz
docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128> bash docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128> bash
``` ```
<div align="center">
## Önceden Eğitilmiş Modeller ## Önceden Eğitilmiş Modeller
</div>
**Eğer `install.sh` başarıyla çalıştırılırsa, No.1,2,3 adımını atlayabilirsiniz.** **Eğer `install.sh` başarıyla çalıştırılırsa, No.1,2,3 adımını atlayabilirsiniz.**
1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) üzerinden önceden eğitilmiş modelleri indirip `GPT_SoVITS/pretrained_models` dizinine yerleştirin. 1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) üzerinden önceden eğitilmiş modelleri indirip `GPT_SoVITS/pretrained_models` dizinine yerleştirin.
@ -202,11 +229,15 @@ docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GP
5. İngilizce veya Japonca ASR için, [Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) üzerinden modeli indirip `tools/asr/models` dizinine yerleştirin. Ayrıca, [diğer modeller](https://huggingface.co/Systran) benzer bir etki yaratabilir ve daha az disk alanı kaplayabilir. 5. İngilizce veya Japonca ASR için, [Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) üzerinden modeli indirip `tools/asr/models` dizinine yerleştirin. Ayrıca, [diğer modeller](https://huggingface.co/Systran) benzer bir etki yaratabilir ve daha az disk alanı kaplayabilir.
<div align="center">
## Veri Seti Formatı ## Veri Seti Formatı
</div>
TTS açıklama .list dosya formatı: TTS açıklama .list dosya formatı:
``` ```text
vocal_path|speaker_name|language|text vocal_path|speaker_name|language|text
``` ```
@ -220,14 +251,18 @@ Dil sözlüğü:
Örnek: Örnek:
``` ```text
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin. D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
``` ```
<div align="center">
## İnce Ayar ve Çıkarım ## İnce Ayar ve Çıkarım
### WebUI'yi Açın ### WebUI'yi Açın
</div>
#### Entegre Paket Kullanıcıları #### Entegre Paket Kullanıcıları
`go-webui.bat` dosyasına çift tıklayın veya `go-webui.ps1` kullanın. `go-webui.bat` dosyasına çift tıklayın veya `go-webui.ps1` kullanın.
@ -239,8 +274,12 @@ V1'e geçmek istiyorsanız, `go-webui-v1.bat` dosyasına çift tıklayın veya `
python webui.py <dil(isteğe bağlı)> python webui.py <dil(isteğe bağlı)>
``` ```
<div align="center">
### İnce Ayar ### İnce Ayar
</div>
#### Yol Otomatik Doldurma artık destekleniyor #### Yol Otomatik Doldurma artık destekleniyor
1. Ses yolunu doldurun 1. Ses yolunu doldurun
@ -250,8 +289,12 @@ python webui.py <dil(isteğe bağlı)>
5. ASR transkripsiyonlarını düzeltin 5. ASR transkripsiyonlarını düzeltin
6. Bir sonraki sekmeye geçin ve modeli ince ayar yapın 6. Bir sonraki sekmeye geçin ve modeli ince ayar yapın
<div align="center">
### Çıkarım WebUI'sini Açın ### Çıkarım WebUI'sini Açın
</div>
#### Entegre Paket Kullanıcıları #### Entegre Paket Kullanıcıları
`go-webui-v2.bat` dosyasına çift tıklayın veya `go-webui-v2.ps1` kullanın, ardından çıkarım webui'sini `1-GPT-SoVITS-TTS/1C-inference` adresinde açın. `go-webui-v2.bat` dosyasına çift tıklayın veya `go-webui-v2.ps1` kullanın, ardından çıkarım webui'sini `1-GPT-SoVITS-TTS/1C-inference` adresinde açın.
@ -270,8 +313,12 @@ python webui.py
ardından çıkarım webui'sini `1-GPT-SoVITS-TTS/1C-inference` adresinde açın. ardından çıkarım webui'sini `1-GPT-SoVITS-TTS/1C-inference` adresinde açın.
<div align="center">
## V2 Sürüm Notları ## V2 Sürüm Notları
</div>
Yeni Özellikler: Yeni Özellikler:
1. Korece ve Kantonca destekler 1. Korece ve Kantonca destekler
@ -284,18 +331,12 @@ Yeni Özellikler:
[detaylar burada](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v2%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>) [detaylar burada](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v2%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
V1 ortamından V2'yi kullanmak için: <div align="center">
1. `pip install -r requirements.txt` ile bazı paketleri güncelleyin
2. github'dan en son kodları klonlayın.
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained) adresinden v2 önceden eğitilmiş modelleri indirin ve bunları `GPT_SoVITS/pretrained_models/gsv-v2final-pretrained` dizinine yerleştirin.
Ek olarak Çince V2: [G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip) (G2PW modellerini indirip, zipten çıkarıp, `G2PWModel` olarak yeniden adlandırıp `GPT_SoVITS/text` dizinine yerleştirin.)
## V3 Sürüm Notları ## V3 Sürüm Notları
</div>
Yeni Özellikler: Yeni Özellikler:
1. **Tını benzerliği** daha yüksek olup, hedef konuşmacıyı yakınsamak için daha az eğitim verisi gerekmektedir (tını benzerliği, base model doğrudan kullanılacak şekilde fine-tuning yapılmadan önemli ölçüde iyileştirilmiştir). 1. **Tını benzerliği** daha yüksek olup, hedef konuşmacıyı yakınsamak için daha az eğitim verisi gerekmektedir (tını benzerliği, base model doğrudan kullanılacak şekilde fine-tuning yapılmadan önemli ölçüde iyileştirilmiştir).
@ -304,33 +345,23 @@ Yeni Özellikler:
[daha fazla detay](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>) [daha fazla detay](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
V2 ortamında V3 kullanımı: <div align="center">
1. `pip install -r requirements.txt` ile bazı paketleri güncelleyin.
2. GitHub'dan en son kodları klonlayın.
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) üzerinden v3 önceden eğitilmiş modellerini (s1v3.ckpt, s2Gv3.pth ve models--nvidia--bigvgan_v2_24khz_100band_256x klasörünü) indirin ve `GPT_SoVITS/pretrained_models` dizinine yerleştirin.
ek: Ses Süper Çözünürlük modeli için [nasıl indirileceği](../../tools/AP_BWE/24kto48k/readme.txt) hakkında bilgi alabilirsiniz.
## V4 Sürüm Notları ## V4 Sürüm Notları
</div>
Yeni Özellikler: Yeni Özellikler:
1. **V4, V3'te görülen non-integer upsample işleminden kaynaklanan metalik ses sorununu düzeltti ve sesin boğuklaşmasını önlemek için doğrudan 48kHz ses çıktısı sunar (V3 sadece 24kHz destekler)**. Yazar, V4'ün V3'ün yerine geçebileceğini belirtmiştir ancak daha fazla test yapılması gerekmektedir. 1. **V4, V3'te görülen non-integer upsample işleminden kaynaklanan metalik ses sorununu düzeltti ve sesin boğuklaşmasını önlemek için doğrudan 48kHz ses çıktısı sunar (V3 sadece 24kHz destekler)**. Yazar, V4'ün V3'ün yerine geçebileceğini belirtmiştir ancak daha fazla test yapılması gerekmektedir.
[Daha fazla bilgi](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3v4%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>) [Daha fazla bilgi](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3v4%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
V1/V2/V3 ortamından V4'e geçiş: <div align="center">
1. Bazı bağımlılıkları güncellemek için `pip install -r requirements.txt` komutunu çalıştırın.
2. GitHub'dan en son kodları klonlayın.
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) üzerinden V4 ön eğitilmiş modelleri indirin (`gsv-v4-pretrained/s2v4.ckpt` ve `gsv-v4-pretrained/vocoder.pth`) ve bunları `GPT_SoVITS/pretrained_models` dizinine koyun.
## V2Pro Sürüm Notları ## V2Pro Sürüm Notları
</div>
Yeni Özellikler: Yeni Özellikler:
1. **V2 ile karşılaştırıldığında biraz daha yüksek VRAM kullanımı sağlar ancak V4'ten daha iyi performans gösterir; aynı donanım maliyeti ve hız avantajını korur**. 1. **V2 ile karşılaştırıldığında biraz daha yüksek VRAM kullanımı sağlar ancak V4'ten daha iyi performans gösterir; aynı donanım maliyeti ve hız avantajını korur**.
@ -346,8 +377,12 @@ V1/V2/V3/V4 ortamından V2Pro'ya geçiş:
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) üzerinden V2Pro ön eğitilmiş modelleri indirin (`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, ve `sv/pretrained_eres2netv2w24s4ep4.ckpt`) ve bunları `GPT_SoVITS/pretrained_models` dizinine koyun. 3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) üzerinden V2Pro ön eğitilmiş modelleri indirin (`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, ve `sv/pretrained_eres2netv2w24s4ep4.ckpt`) ve bunları `GPT_SoVITS/pretrained_models` dizinine koyun.
<div align="center">
## Yapılacaklar Listesi ## Yapılacaklar Listesi
</div>
- [x] **Yüksek Öncelikli:** - [x] **Yüksek Öncelikli:**
- [x] Japonca ve İngilizceye yerelleştirme. - [x] Japonca ve İngilizceye yerelleştirme.
@ -407,8 +442,12 @@ python ./tools/asr/fasterwhisper_asr.py -i <girdi> -o <çıktı> -l <dil>
Özel bir liste kaydetme yolu etkinleştirildi Özel bir liste kaydetme yolu etkinleştirildi
<div align="center">
## Katkı Verenler ## Katkı Verenler
</div>
Özellikle aşağıdaki projelere ve katkıda bulunanlara teşekkür ederiz: Özellikle aşağıdaki projelere ve katkıda bulunanlara teşekkür ederiz:
### Teorik Araştırma ### Teorik Araştırma
@ -451,8 +490,12 @@ python ./tools/asr/fasterwhisper_asr.py -i <girdi> -o <çıktı> -l <dil>
@Naozumi520'ye Kantonca eğitim setini sağladığı ve Kantonca ile ilgili bilgiler konusunda rehberlik ettiği için minnettarım. @Naozumi520'ye Kantonca eğitim setini sağladığı ve Kantonca ile ilgili bilgiler konusunda rehberlik ettiği için minnettarım.
<div align="center">
## Tüm katkıda bulunanlara çabaları için teşekkürler ## Tüm katkıda bulunanlara çabaları için teşekkürler
</div>
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank"> <a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" /> <img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" alt=""/>
</a> </a>