mirror of
https://github.com/RVC-Boss/GPT-SoVITS.git
synced 2025-08-10 18:19:52 +08:00
Update README
Update README Remove Outdated Content in README
This commit is contained in:
parent
cbbc2f0913
commit
473514c881
57
README.md
57
README.md
@ -1,3 +1,5 @@
|
|||||||
|
#
|
||||||
|
|
||||||
<div align="center">
|
<div align="center">
|
||||||
|
|
||||||
<h1>GPT-SoVITS-WebUI</h1>
|
<h1>GPT-SoVITS-WebUI</h1>
|
||||||
@ -7,12 +9,21 @@ A Powerful Few-shot Voice Conversion and Text-to-Speech WebUI.<br><br>
|
|||||||
|
|
||||||
<a href="https://trendshift.io/repositories/7033" target="_blank"><img src="https://trendshift.io/api/badge/repositories/7033" alt="RVC-Boss%2FGPT-SoVITS | Trendshift" style="width: 250px; height: 55px;" width="250" height="55"/></a>
|
<a href="https://trendshift.io/repositories/7033" target="_blank"><img src="https://trendshift.io/api/badge/repositories/7033" alt="RVC-Boss%2FGPT-SoVITS | Trendshift" style="width: 250px; height: 55px;" width="250" height="55"/></a>
|
||||||
|
|
||||||
<!-- img src="https://counter.seku.su/cmoe?name=gptsovits&theme=r34" /><br> -->
|
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/Colab-WebUI.ipynb)
|
||||||
|
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/Colab-Inference.ipynb)
|
||||||
|
[](https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2)
|
||||||
|
|
||||||
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/colab_webui.ipynb)
|
[](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e)
|
||||||
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE)
|
[](https://rentry.co/GPT-SoVITS-guide#/)
|
||||||
[](https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2)
|
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/en/Changelog_EN.md)
|
||||||
[](https://discord.gg/dnrgs5GHfG)
|
|
||||||
|
[](https://github.com/RVC-Boss/gpt-sovits/releases)
|
||||||
|
[](https://github.com/RVC-Boss/gpt-sovits/stargazers)
|
||||||
|
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE)
|
||||||
|
|
||||||
|
[](https://www.python.org/downloads/)
|
||||||
|
[](https://pytorch.org/)
|
||||||
|
[](https://hub.docker.com/r/xxxxrt666/gpt-sovits)
|
||||||
|
|
||||||
**English** | [**中文简体**](./docs/cn/README.md) | [**日本語**](./docs/ja/README.md) | [**한국어**](./docs/ko/README.md) | [**Türkçe**](./docs/tr/README.md)
|
**English** | [**中文简体**](./docs/cn/README.md) | [**日本語**](./docs/ja/README.md) | [**한국어**](./docs/ko/README.md) | [**Türkçe**](./docs/tr/README.md)
|
||||||
|
|
||||||
@ -20,7 +31,7 @@ A Powerful Few-shot Voice Conversion and Text-to-Speech WebUI.<br><br>
|
|||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## Features:
|
## Features
|
||||||
|
|
||||||
1. **Zero-shot TTS:** Input a 5-second vocal sample and experience instant text-to-speech conversion.
|
1. **Zero-shot TTS:** Input a 5-second vocal sample and experience instant text-to-speech conversion.
|
||||||
|
|
||||||
@ -34,13 +45,13 @@ A Powerful Few-shot Voice Conversion and Text-to-Speech WebUI.<br><br>
|
|||||||
|
|
||||||
Unseen speakers few-shot fine-tuning demo:
|
Unseen speakers few-shot fine-tuning demo:
|
||||||
|
|
||||||
https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb
|
<https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb>
|
||||||
|
|
||||||
**User guide: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)**
|
<!-- **User guide: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)** -->
|
||||||
|
|
||||||
## Installation
|
## Installation
|
||||||
|
|
||||||
For users in China, you can [click here](https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official) to use AutoDL Cloud Docker to experience the full functionality online.
|
For users in China, you can use [AutoDL Cloud Docker](https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official) to experience the full functionality online.
|
||||||
|
|
||||||
### Tested Environments
|
### Tested Environments
|
||||||
|
|
||||||
@ -171,7 +182,7 @@ docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GP
|
|||||||
|
|
||||||
## Pretrained Models
|
## Pretrained Models
|
||||||
|
|
||||||
**If `install.sh` runs successfully, you may skip No.1,2,3**
|
**If `install.sh` runs successfully, you may skip No.1, 2, 3**
|
||||||
|
|
||||||
**Users in China can [download all these models here](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4#nVNhX).**
|
**Users in China can [download all these models here](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4#nVNhX).**
|
||||||
|
|
||||||
@ -193,10 +204,8 @@ docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GP
|
|||||||
|
|
||||||
The TTS annotation .list file format:
|
The TTS annotation .list file format:
|
||||||
|
|
||||||
```
|
```text
|
||||||
|
|
||||||
vocal_path|speaker_name|language|text
|
vocal_path|speaker_name|language|text
|
||||||
|
|
||||||
```
|
```
|
||||||
|
|
||||||
Language dictionary:
|
Language dictionary:
|
||||||
@ -209,10 +218,8 @@ Language dictionary:
|
|||||||
|
|
||||||
Example:
|
Example:
|
||||||
|
|
||||||
```
|
```text
|
||||||
|
|
||||||
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
||||||
|
|
||||||
```
|
```
|
||||||
|
|
||||||
## Finetune and inference
|
## Finetune and inference
|
||||||
@ -222,7 +229,6 @@ D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
|||||||
#### Integrated Package Users
|
#### Integrated Package Users
|
||||||
|
|
||||||
Double-click `go-webui.bat`or use `go-webui.ps1`
|
Double-click `go-webui.bat`or use `go-webui.ps1`
|
||||||
if you want to switch to V1,then double-click`go-webui-v1.bat` or use `go-webui-v1.ps1`
|
|
||||||
|
|
||||||
#### Others
|
#### Others
|
||||||
|
|
||||||
@ -230,14 +236,6 @@ if you want to switch to V1,then double-click`go-webui-v1.bat` or use `go-webui-
|
|||||||
python webui.py <language(optional)>
|
python webui.py <language(optional)>
|
||||||
```
|
```
|
||||||
|
|
||||||
if you want to switch to V1,then
|
|
||||||
|
|
||||||
```bash
|
|
||||||
python webui.py v1 <language(optional)>
|
|
||||||
```
|
|
||||||
|
|
||||||
Or maunally switch version in WebUI
|
|
||||||
|
|
||||||
### Finetune
|
### Finetune
|
||||||
|
|
||||||
#### Path Auto-filling is now supported
|
#### Path Auto-filling is now supported
|
||||||
@ -253,7 +251,7 @@ Or maunally switch version in WebUI
|
|||||||
|
|
||||||
#### Integrated Package Users
|
#### Integrated Package Users
|
||||||
|
|
||||||
Double-click `go-webui-v2.bat` or use `go-webui-v2.ps1` ,then open the inference webui at `1-GPT-SoVITS-TTS/1C-inference`
|
Double-click `go-webui.bat` or use `go-webui.ps1` , then open the inference webui at `1-GPT-SoVITS-TTS/1C-inference`
|
||||||
|
|
||||||
#### Others
|
#### Others
|
||||||
|
|
||||||
@ -373,11 +371,6 @@ Use the command line to open the WebUI for UVR5
|
|||||||
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
|
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
|
||||||
```
|
```
|
||||||
|
|
||||||
<!-- If you can't open a browser, follow the format below for UVR processing,This is using mdxnet for audio processing
|
|
||||||
```
|
|
||||||
python mdxnet.py --model --input_root --output_vocal --output_ins --agg_level --format --device --is_half_precision
|
|
||||||
``` -->
|
|
||||||
|
|
||||||
This is how the audio segmentation of the dataset is done using the command line
|
This is how the audio segmentation of the dataset is done using the command line
|
||||||
|
|
||||||
```bash
|
```bash
|
||||||
@ -453,5 +446,5 @@ Thankful to @Naozumi520 for providing the Cantonese training set and for the gui
|
|||||||
## Thanks to all contributors for their efforts
|
## Thanks to all contributors for their efforts
|
||||||
|
|
||||||
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
|
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
|
||||||
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" />
|
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" alt="Contributors"/>
|
||||||
</a>
|
</a>
|
||||||
|
@ -1,18 +1,29 @@
|
|||||||
|
#
|
||||||
|
|
||||||
<div align="center">
|
<div align="center">
|
||||||
|
|
||||||
<h1>GPT-SoVITS-WebUI</h1>
|
<h1>GPT-SoVITS-WebUI</h1>
|
||||||
强大的少样本语音转换与语音合成Web用户界面.<br><br>
|
强大的少样本语音转换与语音合成Web用户界面. <br><br>
|
||||||
|
|
||||||
[](https://github.com/RVC-Boss/GPT-SoVITS)
|
[](https://github.com/RVC-Boss/GPT-SoVITS)
|
||||||
|
|
||||||
<a href="https://trendshift.io/repositories/7033" target="_blank"><img src="https://trendshift.io/api/badge/repositories/7033" alt="RVC-Boss%2FGPT-SoVITS | Trendshift" style="width: 250px; height: 55px;" width="250" height="55"/></a>
|
<a href="https://trendshift.io/repositories/7033" target="_blank"><img src="https://trendshift.io/api/badge/repositories/7033" alt="RVC-Boss%2FGPT-SoVITS | Trendshift" style="width: 250px; height: 55px;" width="250" height="55"/></a>
|
||||||
|
|
||||||
<!-- img src="https://counter.seku.su/cmoe?name=gptsovits&theme=r34" /><br> -->
|
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/Colab-WebUI.ipynb)
|
||||||
|
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/Colab-Inference.ipynb)
|
||||||
|
[](https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2)
|
||||||
|
|
||||||
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/colab_webui.ipynb)
|
[](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e)
|
||||||
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE)
|
[](https://rentry.co/GPT-SoVITS-guide#/)
|
||||||
[](https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2)
|
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/Changelog_CN.md)
|
||||||
[](https://discord.gg/dnrgs5GHfG)
|
|
||||||
|
[](https://github.com/RVC-Boss/gpt-sovits/releases)
|
||||||
|
[](https://github.com/RVC-Boss/gpt-sovits/stargazers)
|
||||||
|
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE)
|
||||||
|
|
||||||
|
[](https://www.python.org/downloads/)
|
||||||
|
[](https://pytorch.org/)
|
||||||
|
[](https://hub.docker.com/r/xxxxrt666/gpt-sovits)
|
||||||
|
|
||||||
[**English**](../../README.md) | **中文简体** | [**日本語**](../ja/README.md) | [**한국어**](../ko/README.md) | [**Türkçe**](../tr/README.md)
|
[**English**](../../README.md) | **中文简体** | [**日本語**](../ja/README.md) | [**한국어**](../ko/README.md) | [**Türkçe**](../tr/README.md)
|
||||||
|
|
||||||
@ -36,7 +47,7 @@
|
|||||||
|
|
||||||
<https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb>
|
<https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb>
|
||||||
|
|
||||||
**用户手册: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)**
|
<!-- **用户手册: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)** -->
|
||||||
|
|
||||||
## 安装
|
## 安装
|
||||||
|
|
||||||
@ -171,7 +182,7 @@ docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GP
|
|||||||
|
|
||||||
## 预训练模型
|
## 预训练模型
|
||||||
|
|
||||||
**若成功运行`install.sh`可跳过 No.1,2,3**
|
**若成功运行`install.sh`可跳过 No.1, 2, 3**
|
||||||
|
|
||||||
**中国地区的用户可以[在此处下载这些模型](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4#nVNhX).**
|
**中国地区的用户可以[在此处下载这些模型](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4#nVNhX).**
|
||||||
|
|
||||||
@ -181,19 +192,19 @@ docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GP
|
|||||||
|
|
||||||
3. 对于 UVR5 (人声/伴奏分离和混响移除, 额外功能), 从 [UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) 下载模型, 并将其放置在 `tools/uvr5/uvr5_weights` 目录中.
|
3. 对于 UVR5 (人声/伴奏分离和混响移除, 额外功能), 从 [UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) 下载模型, 并将其放置在 `tools/uvr5/uvr5_weights` 目录中.
|
||||||
|
|
||||||
- 如果你在 UVR5 中使用 `bs_roformer` 或 `mel_band_roformer`模型, 你可以手动下载模型和相应的配置文件, 并将它们放在 `tools/UVR5/UVR5_weights` 中.**重命名模型文件和配置文件, 确保除后缀外**, 模型和配置文件具有相同且对应的名称.此外, 模型和配置文件名**必须包含"roformer"**, 才能被识别为 roformer 类的模型.
|
- 如果你在 UVR5 中使用 `bs_roformer` 或 `mel_band_roformer`模型, 你可以手动下载模型和相应的配置文件, 并将它们放在 `tools/UVR5/UVR5_weights` 中. **重命名模型文件和配置文件, 确保除后缀外**, 模型和配置文件具有相同且对应的名称. 此外, 模型和配置文件名**必须包含"roformer"**, 才能被识别为 roformer 类的模型.
|
||||||
|
|
||||||
- 建议在模型名称和配置文件名中**直接指定模型类型**, 例如`mel_mand_roformer`、`bs_roformer`.如果未指定, 将从配置文中比对特征, 以确定它是哪种类型的模型.例如, 模型`bs_roformer_ep_368_sdr_12.9628.ckpt` 和对应的配置文件`bs_roformer_ep_368_sdr_12.9628.yaml` 是一对.`kim_mel_band_roformer.ckpt` 和 `kim_mel_band_roformer.yaml` 也是一对.
|
- 建议在模型名称和配置文件名中**直接指定模型类型**, 例如`mel_mand_roformer`、`bs_roformer`. 如果未指定, 将从配置文中比对特征, 以确定它是哪种类型的模型. 例如, 模型`bs_roformer_ep_368_sdr_12.9628.ckpt` 和对应的配置文件`bs_roformer_ep_368_sdr_12.9628.yaml` 是一对.`kim_mel_band_roformer.ckpt` 和 `kim_mel_band_roformer.yaml` 也是一对.
|
||||||
|
|
||||||
4. 对于中文 ASR (额外功能), 从 [Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files)、[Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files) 和 [Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files) 下载模型, 并将它们放置在 `tools/asr/models` 目录中.
|
4. 对于中文 ASR (额外功能), 从 [Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files)、[Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files) 和 [Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files) 下载模型, 并将它们放置在 `tools/asr/models` 目录中.
|
||||||
|
|
||||||
5. 对于英语或日语 ASR (额外功能), 从 [Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) 下载模型, 并将其放置在 `tools/asr/models` 目录中.此外, [其他模型](https://huggingface.co/Systran) 可能具有类似效果且占用更少的磁盘空间.
|
5. 对于英语或日语 ASR (额外功能), 从 [Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) 下载模型, 并将其放置在 `tools/asr/models` 目录中. 此外, [其他模型](https://huggingface.co/Systran) 可能具有类似效果且占用更少的磁盘空间.
|
||||||
|
|
||||||
## 数据集格式
|
## 数据集格式
|
||||||
|
|
||||||
文本到语音 (TTS) 注释 .list 文件格式:
|
文本到语音 (TTS) 注释 .list 文件格式:
|
||||||
|
|
||||||
```
|
```text
|
||||||
vocal_path|speaker_name|language|text
|
vocal_path|speaker_name|language|text
|
||||||
```
|
```
|
||||||
|
|
||||||
@ -207,7 +218,7 @@ vocal_path|speaker_name|language|text
|
|||||||
|
|
||||||
示例:
|
示例:
|
||||||
|
|
||||||
```
|
```text
|
||||||
D:\GPT-SoVITS\xxx/xxx.wav|xxx|zh|我爱玩原神.
|
D:\GPT-SoVITS\xxx/xxx.wav|xxx|zh|我爱玩原神.
|
||||||
```
|
```
|
||||||
|
|
||||||
@ -218,7 +229,6 @@ D:\GPT-SoVITS\xxx/xxx.wav|xxx|zh|我爱玩原神.
|
|||||||
#### 整合包用户
|
#### 整合包用户
|
||||||
|
|
||||||
双击`go-webui.bat`或者使用`go-webui.ps1`
|
双击`go-webui.bat`或者使用`go-webui.ps1`
|
||||||
若想使用 V1,则双击`go-webui-v1.bat`或者使用`go-webui-v1.ps1`
|
|
||||||
|
|
||||||
#### 其他
|
#### 其他
|
||||||
|
|
||||||
@ -226,14 +236,6 @@ D:\GPT-SoVITS\xxx/xxx.wav|xxx|zh|我爱玩原神.
|
|||||||
python webui.py <language(optional)>
|
python webui.py <language(optional)>
|
||||||
```
|
```
|
||||||
|
|
||||||
若想使用 V1,则
|
|
||||||
|
|
||||||
```bash
|
|
||||||
python webui.py v1 <language(optional)>
|
|
||||||
```
|
|
||||||
|
|
||||||
或者在 webUI 内动态切换
|
|
||||||
|
|
||||||
### 微调
|
### 微调
|
||||||
|
|
||||||
#### 现已支持自动填充路径
|
#### 现已支持自动填充路径
|
||||||
@ -243,13 +245,13 @@ python webui.py v1 <language(optional)>
|
|||||||
3. 进行降噪(可选)
|
3. 进行降噪(可选)
|
||||||
4. 进行 ASR
|
4. 进行 ASR
|
||||||
5. 校对标注
|
5. 校对标注
|
||||||
6. 前往下一个窗口,点击训练
|
6. 前往下一个窗口, 点击训练
|
||||||
|
|
||||||
### 打开推理 WebUI
|
### 打开推理 WebUI
|
||||||
|
|
||||||
#### 整合包用户
|
#### 整合包用户
|
||||||
|
|
||||||
双击 `go-webui.bat` 或者使用 `go-webui.ps1` ,然后在 `1-GPT-SoVITS-TTS/1C-推理` 中打开推理 webUI
|
双击 `go-webui.bat` 或者使用 `go-webui.ps1` , 然后在 `1-GPT-SoVITS-TTS/1C-推理` 中打开推理 webUI
|
||||||
|
|
||||||
#### 其他
|
#### 其他
|
||||||
|
|
||||||
@ -287,7 +289,7 @@ python webui.py
|
|||||||
|
|
||||||
3. 需要从[huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained) 下载预训练模型文件放到 GPT_SoVITS/pretrained_models/gsv-v2final-pretrained 下
|
3. 需要从[huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained) 下载预训练模型文件放到 GPT_SoVITS/pretrained_models/gsv-v2final-pretrained 下
|
||||||
|
|
||||||
中文额外需要下载[G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip) (下载 G2PW 模型,解压并重命名为`G2PWModel`,将其放到`GPT_SoVITS/text`目录下)
|
中文额外需要下载[G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip) (下载 G2PW 模型, 解压并重命名为`G2PWModel`, 将其放到`GPT_SoVITS/text`目录下)
|
||||||
|
|
||||||
## V3 更新说明
|
## V3 更新说明
|
||||||
|
|
||||||
@ -449,5 +451,5 @@ python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p
|
|||||||
## 感谢所有贡献者的努力
|
## 感谢所有贡献者的努力
|
||||||
|
|
||||||
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
|
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
|
||||||
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" />
|
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" alt="Contributors"/>
|
||||||
</a>
|
</a>
|
||||||
|
@ -1,16 +1,27 @@
|
|||||||
|
#
|
||||||
|
|
||||||
<div align="center">
|
<div align="center">
|
||||||
|
|
||||||
<h1>GPT-SoVITS-WebUI</h1>
|
<h1>GPT-SoVITS-WebUI</h1>
|
||||||
パワフルなFew-Shot音声変換・音声合成 WebUI.<br><br>
|
パワフルなFew-Shot音声変換・音声合成 WebUI. <br><br>
|
||||||
|
|
||||||
[](https://github.com/RVC-Boss/GPT-SoVITS)
|
[](https://github.com/RVC-Boss/GPT-SoVITS)
|
||||||
|
|
||||||
<img src="https://counter.seku.su/cmoe?name=gptsovits&theme=r34" /><br>
|
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/Colab-WebUI.ipynb)
|
||||||
|
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/Colab-Inference.ipynb)
|
||||||
|
[](https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2)
|
||||||
|
|
||||||
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/colab_webui.ipynb)
|
[](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e)
|
||||||
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE)
|
[](https://rentry.co/GPT-SoVITS-guide#/)
|
||||||
[](https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2)
|
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/ja/Changelog_JA.md)
|
||||||
[](https://discord.gg/dnrgs5GHfG)
|
|
||||||
|
[](https://github.com/RVC-Boss/gpt-sovits/releases)
|
||||||
|
[](https://github.com/RVC-Boss/gpt-sovits/stargazers)
|
||||||
|
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE)
|
||||||
|
|
||||||
|
[](https://www.python.org/downloads/)
|
||||||
|
[](https://pytorch.org/)
|
||||||
|
[](https://hub.docker.com/r/xxxxrt666/gpt-sovits)
|
||||||
|
|
||||||
[**English**](../../README.md) | [**中文简体**](../cn/README.md) | **日本語** | [**한국어**](../ko/README.md) | [**Türkçe**](../tr/README.md)
|
[**English**](../../README.md) | [**中文简体**](../cn/README.md) | **日本語** | [**한국어**](../ko/README.md) | [**Türkçe**](../tr/README.md)
|
||||||
|
|
||||||
@ -18,7 +29,7 @@
|
|||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 機能:
|
## 機能
|
||||||
|
|
||||||
1. **Zero-Shot TTS:** たった 5 秒間の音声サンプルで、即座にテキストからその音声に変換できます.
|
1. **Zero-Shot TTS:** たった 5 秒間の音声サンプルで、即座にテキストからその音声に変換できます.
|
||||||
|
|
||||||
@ -32,9 +43,9 @@
|
|||||||
|
|
||||||
声の事前学習無しかつ Few-Shot でトレーニングされたモデルのデモ:
|
声の事前学習無しかつ Few-Shot でトレーニングされたモデルのデモ:
|
||||||
|
|
||||||
https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb
|
<https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb>
|
||||||
|
|
||||||
**ユーザーマニュアル: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)**
|
<!-- **ユーザーマニュアル: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)** -->
|
||||||
|
|
||||||
## インストール
|
## インストール
|
||||||
|
|
||||||
@ -165,7 +176,7 @@ docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GP
|
|||||||
|
|
||||||
## 事前訓練済みモデル
|
## 事前訓練済みモデル
|
||||||
|
|
||||||
**`install.sh`が正常に実行された場合、No.1,2,3 はスキップしてかまいません.**
|
**`install.sh`が正常に実行された場合、No.1, 2, 3 はスキップしてかまいません.**
|
||||||
|
|
||||||
1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) から事前訓練済みモデルをダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリに配置してください.
|
1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) から事前訓練済みモデルをダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリに配置してください.
|
||||||
|
|
||||||
@ -173,19 +184,19 @@ docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GP
|
|||||||
|
|
||||||
3. UVR5 (ボーカル/伴奏 (BGM 等) 分離 & リバーブ除去の追加機能) の場合は、[UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) からモデルをダウンロードし、`tools/uvr5/uvr5_weights` ディレクトリに配置してください.
|
3. UVR5 (ボーカル/伴奏 (BGM 等) 分離 & リバーブ除去の追加機能) の場合は、[UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) からモデルをダウンロードし、`tools/uvr5/uvr5_weights` ディレクトリに配置してください.
|
||||||
|
|
||||||
- UVR5 で bs_roformer または mel_band_roformer モデルを使用する場合、モデルと対応する設定ファイルを手動でダウンロードし、`tools/UVR5/UVR5_weights`フォルダに配置することができます.**モデルファイルと設定ファイルの名前は、拡張子を除いて同じであることを確認してください**.さらに、モデルと設定ファイルの名前には**「roformer」が含まれている必要があります**.これにより、roformer クラスのモデルとして認識されます.
|
- UVR5 で bs_roformer または mel_band_roformer モデルを使用する場合、モデルと対応する設定ファイルを手動でダウンロードし、`tools/UVR5/UVR5_weights`フォルダに配置することができます. **モデルファイルと設定ファイルの名前は、拡張子を除いて同じであることを確認してください**. さらに、モデルと設定ファイルの名前には**「roformer」が含まれている必要があります**. これにより、roformer クラスのモデルとして認識されます.
|
||||||
|
|
||||||
- モデル名と設定ファイル名には、**直接モデルタイプを指定することをお勧めします**.例: mel_mand_roformer、bs_roformer.指定しない場合、設定文から特徴を照合して、モデルの種類を特定します.例えば、モデル`bs_roformer_ep_368_sdr_12.9628.ckpt`と対応する設定ファイル`bs_roformer_ep_368_sdr_12.9628.yaml`はペアです.同様に、`kim_mel_band_roformer.ckpt`と`kim_mel_band_roformer.yaml`もペアです.
|
- モデル名と設定ファイル名には、**直接モデルタイプを指定することをお勧めします**. 例: mel_mand_roformer、bs_roformer. 指定しない場合、設定文から特徴を照合して、モデルの種類を特定します. 例えば、モデル`bs_roformer_ep_368_sdr_12.9628.ckpt`と対応する設定ファイル`bs_roformer_ep_368_sdr_12.9628.yaml`はペアです. 同様に、`kim_mel_band_roformer.ckpt`と`kim_mel_band_roformer.yaml`もペアです.
|
||||||
|
|
||||||
4. 中国語 ASR (追加機能) の場合は、[Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files)、[Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files)、および [Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files) からモデルをダウンロードし、`tools/asr/models` ディレクトリに配置してください.
|
4. 中国語 ASR (追加機能) の場合は、[Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files)、[Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files)、および [Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files) からモデルをダウンロードし、`tools/asr/models` ディレクトリに配置してください.
|
||||||
|
|
||||||
5. 英語または日本語の ASR (追加機能) を使用する場合は、[Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) からモデルをダウンロードし、`tools/asr/models` ディレクトリに配置してください.また、[他のモデル](https://huggingface.co/Systran) は、より小さいサイズで高クオリティな可能性があります.
|
5. 英語または日本語の ASR (追加機能) を使用する場合は、[Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) からモデルをダウンロードし、`tools/asr/models` ディレクトリに配置してください. また、[他のモデル](https://huggingface.co/Systran) は、より小さいサイズで高クオリティな可能性があります.
|
||||||
|
|
||||||
## データセット形式
|
## データセット形式
|
||||||
|
|
||||||
TTS アノテーション .list ファイル形式:
|
TTS アノテーション .list ファイル形式:
|
||||||
|
|
||||||
```
|
```text
|
||||||
vocal_path|speaker_name|language|text
|
vocal_path|speaker_name|language|text
|
||||||
```
|
```
|
||||||
|
|
||||||
@ -197,7 +208,7 @@ vocal_path|speaker_name|language|text
|
|||||||
|
|
||||||
例:
|
例:
|
||||||
|
|
||||||
```
|
```text
|
||||||
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
||||||
```
|
```
|
||||||
|
|
||||||
@ -208,7 +219,6 @@ D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
|||||||
#### 統合パッケージ利用者
|
#### 統合パッケージ利用者
|
||||||
|
|
||||||
`go-webui.bat`をダブルクリックするか、`go-webui.ps1`を使用します.
|
`go-webui.bat`をダブルクリックするか、`go-webui.ps1`を使用します.
|
||||||
V1 に切り替えたい場合は、`go-webui-v1.bat`をダブルクリックするか、`go-webui-v1.ps1`を使用してください.
|
|
||||||
|
|
||||||
#### その他
|
#### その他
|
||||||
|
|
||||||
@ -216,14 +226,6 @@ V1 に切り替えたい場合は、`go-webui-v1.bat`をダブルクリックす
|
|||||||
python webui.py <言語(オプション)>
|
python webui.py <言語(オプション)>
|
||||||
```
|
```
|
||||||
|
|
||||||
V1 に切り替えたい場合は
|
|
||||||
|
|
||||||
```bash
|
|
||||||
python webui.py v1 <言語(オプション)>
|
|
||||||
```
|
|
||||||
|
|
||||||
または WebUI で手動でバージョンを切り替えてください.
|
|
||||||
|
|
||||||
### 微調整
|
### 微調整
|
||||||
|
|
||||||
#### パス自動補完のサポート
|
#### パス自動補完のサポート
|
||||||
@ -239,7 +241,7 @@ python webui.py v1 <言語(オプション)>
|
|||||||
|
|
||||||
#### 統合パッケージ利用者
|
#### 統合パッケージ利用者
|
||||||
|
|
||||||
`go-webui-v2.bat`をダブルクリックするか、`go-webui-v2.ps1`を使用して、`1-GPT-SoVITS-TTS/1C-inference`で推論 webui を開きます.
|
`go-webui.bat`をダブルクリックするか、`go-webui.ps1`を使用して、`1-GPT-SoVITS-TTS/1C-inference`で推論 webui を開きます.
|
||||||
|
|
||||||
#### その他
|
#### その他
|
||||||
|
|
||||||
@ -359,11 +361,6 @@ V1/V2/V3/V4 環境から V2Pro への移行方法:
|
|||||||
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
|
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
|
||||||
```
|
```
|
||||||
|
|
||||||
<!-- ブラウザを開けない場合は、以下の形式に従って UVR 処理を行ってください.これはオーディオ処理に mdxnet を使用しています.
|
|
||||||
```
|
|
||||||
python mdxnet.py --model --input_root --output_vocal --output_ins --agg_level --format --device --is_half_precision
|
|
||||||
``` -->
|
|
||||||
|
|
||||||
コマンド ラインを使用してデータセットのオーディオ セグメンテーションを行う方法は次のとおりです.
|
コマンド ラインを使用してデータセットのオーディオ セグメンテーションを行う方法は次のとおりです.
|
||||||
|
|
||||||
```bash
|
```bash
|
||||||
@ -384,7 +381,7 @@ python tools/asr/funasr_asr.py -i <input> -o <output>
|
|||||||
|
|
||||||
ASR 処理は Faster_Whisper を通じて実行されます(中国語を除く ASR マーキング)
|
ASR 処理は Faster_Whisper を通じて実行されます(中国語を除く ASR マーキング)
|
||||||
|
|
||||||
(進行状況バーは表示されません.GPU のパフォーマンスにより時間遅延が発生する可能性があります)
|
(進行状況バーは表示されません. GPU のパフォーマンスにより時間遅延が発生する可能性があります)
|
||||||
|
|
||||||
```bash
|
```bash
|
||||||
python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>
|
python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>
|
||||||
@ -439,5 +436,5 @@ python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p
|
|||||||
## すべてのコントリビューターに感謝します
|
## すべてのコントリビューターに感謝します
|
||||||
|
|
||||||
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
|
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
|
||||||
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" />
|
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" alt="Contributors"/>
|
||||||
</a>
|
</a>
|
||||||
|
@ -1,3 +1,5 @@
|
|||||||
|
#
|
||||||
|
|
||||||
<div align="center">
|
<div align="center">
|
||||||
|
|
||||||
<h1>GPT-SoVITS-WebUI</h1>
|
<h1>GPT-SoVITS-WebUI</h1>
|
||||||
@ -5,12 +7,21 @@
|
|||||||
|
|
||||||
[](https://github.com/RVC-Boss/GPT-SoVITS)
|
[](https://github.com/RVC-Boss/GPT-SoVITS)
|
||||||
|
|
||||||
<img src="https://counter.seku.su/cmoe?name=gptsovits&theme=r34" /><br>
|
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/Colab-WebUI.ipynb)
|
||||||
|
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/Colab-Inference.ipynb)
|
||||||
|
[](https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2)
|
||||||
|
|
||||||
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/colab_webui.ipynb)
|
[](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e)
|
||||||
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE)
|
[](https://rentry.co/GPT-SoVITS-guide#/)
|
||||||
[](https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2)
|
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/ko/Changelog_KO.md)
|
||||||
[](https://discord.gg/dnrgs5GHfG)
|
|
||||||
|
[](https://github.com/RVC-Boss/gpt-sovits/releases)
|
||||||
|
[](https://github.com/RVC-Boss/gpt-sovits/stargazers)
|
||||||
|
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE)
|
||||||
|
|
||||||
|
[](https://www.python.org/downloads/)
|
||||||
|
[](https://pytorch.org/)
|
||||||
|
[](https://hub.docker.com/r/xxxxrt666/gpt-sovits)
|
||||||
|
|
||||||
[**English**](../../README.md) | [**中文简体**](../cn/README.md) | [**日本語**](../ja/README.md) | **한국어** | [**Türkçe**](../tr/README.md)
|
[**English**](../../README.md) | [**中文简体**](../cn/README.md) | [**日本語**](../ja/README.md) | **한국어** | [**Türkçe**](../tr/README.md)
|
||||||
|
|
||||||
@ -18,7 +29,7 @@
|
|||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 기능:
|
## 기능
|
||||||
|
|
||||||
1. **제로샷 텍스트 음성 변환 (TTS):** 5초의 음성 샘플을 입력하면 즉시 텍스트를 음성으로 변환할 수 있습니다.
|
1. **제로샷 텍스트 음성 변환 (TTS):** 5초의 음성 샘플을 입력하면 즉시 텍스트를 음성으로 변환할 수 있습니다.
|
||||||
|
|
||||||
@ -32,9 +43,9 @@
|
|||||||
|
|
||||||
보지 못한 발화자의 퓨샷(few-shot) 파인튜닝 데모:
|
보지 못한 발화자의 퓨샷(few-shot) 파인튜닝 데모:
|
||||||
|
|
||||||
https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb
|
<https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb>
|
||||||
|
|
||||||
**사용자 설명서: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)**
|
<!-- **사용자 설명서: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)** -->
|
||||||
|
|
||||||
## 설치
|
## 설치
|
||||||
|
|
||||||
@ -165,7 +176,7 @@ docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GP
|
|||||||
|
|
||||||
## 사전 학습된 모델
|
## 사전 학습된 모델
|
||||||
|
|
||||||
**`install.sh`가 성공적으로 실행되면 No.1,2,3 은 건너뛰어도 됩니다.**
|
**`install.sh`가 성공적으로 실행되면 No.1, 2, 3 은 건너뛰어도 됩니다.**
|
||||||
|
|
||||||
1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) 에서 사전 학습된 모델을 다운로드하고, `GPT_SoVITS/pretrained_models` 디렉토리에 배치하세요.
|
1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) 에서 사전 학습된 모델을 다운로드하고, `GPT_SoVITS/pretrained_models` 디렉토리에 배치하세요.
|
||||||
|
|
||||||
@ -185,7 +196,7 @@ docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GP
|
|||||||
|
|
||||||
텍스트 음성 합성(TTS) 주석 .list 파일 형식:
|
텍스트 음성 합성(TTS) 주석 .list 파일 형식:
|
||||||
|
|
||||||
```
|
```text
|
||||||
vocal_path|speaker_name|language|text
|
vocal_path|speaker_name|language|text
|
||||||
```
|
```
|
||||||
|
|
||||||
@ -197,7 +208,7 @@ vocal_path|speaker_name|language|text
|
|||||||
|
|
||||||
예시:
|
예시:
|
||||||
|
|
||||||
```
|
```text
|
||||||
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
||||||
```
|
```
|
||||||
|
|
||||||
@ -208,7 +219,6 @@ D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
|||||||
#### 통합 패키지 사용자
|
#### 통합 패키지 사용자
|
||||||
|
|
||||||
`go-webui.bat`을 더블 클릭하거나 `go-webui.ps1`를 사용하십시오.
|
`go-webui.bat`을 더블 클릭하거나 `go-webui.ps1`를 사용하십시오.
|
||||||
V1으로 전환하려면, `go-webui-v1.bat`을 더블 클릭하거나 `go-webui-v1.ps1`를 사용하십시오.
|
|
||||||
|
|
||||||
#### 기타
|
#### 기타
|
||||||
|
|
||||||
@ -216,14 +226,6 @@ V1으로 전환하려면, `go-webui-v1.bat`을 더블 클릭하거나 `go-webui-
|
|||||||
python webui.py <언어(옵션)>
|
python webui.py <언어(옵션)>
|
||||||
```
|
```
|
||||||
|
|
||||||
V1으로 전환하려면,
|
|
||||||
|
|
||||||
```bash
|
|
||||||
python webui.py v1 <언어(옵션)>
|
|
||||||
```
|
|
||||||
|
|
||||||
또는 WebUI에서 수동으로 버전을 전환하십시오.
|
|
||||||
|
|
||||||
### 미세 조정
|
### 미세 조정
|
||||||
|
|
||||||
#### 경로 자동 채우기가 지원됩니다
|
#### 경로 자동 채우기가 지원됩니다
|
||||||
@ -239,7 +241,7 @@ python webui.py v1 <언어(옵션)>
|
|||||||
|
|
||||||
#### 통합 패키지 사용자
|
#### 통합 패키지 사용자
|
||||||
|
|
||||||
`go-webui-v2.bat`을 더블 클릭하거나 `go-webui-v2.ps1`를 사용한 다음 `1-GPT-SoVITS-TTS/1C-inference`에서 추론 webui를 엽니다.
|
`go-webui.bat`을 더블 클릭하거나 `go-webui.ps1`를 사용한 다음 `1-GPT-SoVITS-TTS/1C-inference`에서 추론 webui를 엽니다.
|
||||||
|
|
||||||
#### 기타
|
#### 기타
|
||||||
|
|
||||||
@ -277,13 +279,13 @@ V1 환경에서 V2를 사용하려면:
|
|||||||
|
|
||||||
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained)에서 V2 사전 학습 모델을 다운로드하여 `GPT_SoVITS/pretrained_models/gsv-v2final-pretrained`에 넣으십시오.
|
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained)에서 V2 사전 학습 모델을 다운로드하여 `GPT_SoVITS/pretrained_models/gsv-v2final-pretrained`에 넣으십시오.
|
||||||
|
|
||||||
중국어 V2 추가: [G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip) (G2PW 모델을 다운로드하여 압축을 풀고 `G2PWModel`로 이름을 변경한 다음 `GPT_SoVITS/text`에 배치합니다.)
|
중국어 V2 추가: [G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip) (G2PW 모델을 다운로드하여 압축을 풀고 `G2PWModel`로 이름을 변경한 다음 `GPT_SoVITS/text`에 배치합니다)
|
||||||
|
|
||||||
## V3 릴리스 노트
|
## V3 릴리스 노트
|
||||||
|
|
||||||
새로운 기능:
|
새로운 기능:
|
||||||
|
|
||||||
1. 음색 유사성이 더 높아져 목표 음성에 대한 학습 데이터가 적게 필요합니다. (기본 모델을 직접 사용하여 미세 조정 없이 음색 유사성이 크게 향상됩니다.)
|
1. 음색 유사성이 더 높아져 목표 음성에 대한 학습 데이터가 적게 필요합니다. (기본 모델을 직접 사용하여 미세 조정 없이 음색 유사성이 크게 향상됩니다)
|
||||||
|
|
||||||
2. GPT 모델이 더 안정적이며 반복 및 생략이 적고, 더 풍부한 감정 표현을 가진 음성을 생성하기가 더 쉽습니다.
|
2. GPT 모델이 더 안정적이며 반복 및 생략이 적고, 더 풍부한 감정 표현을 가진 음성을 생성하기가 더 쉽습니다.
|
||||||
|
|
||||||
@ -437,8 +439,8 @@ python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p
|
|||||||
|
|
||||||
@Naozumi520 님께 감사드립니다. 광둥어 학습 자료를 제공해 주시고, 광둥어 관련 지식을 지도해 주셔서 감사합니다.
|
@Naozumi520 님께 감사드립니다. 광둥어 학습 자료를 제공해 주시고, 광둥어 관련 지식을 지도해 주셔서 감사합니다.
|
||||||
|
|
||||||
## 모든 기여자들에게 감사드립니다 ;)
|
## 모든 기여자들에게 감사드립니다
|
||||||
|
|
||||||
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
|
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
|
||||||
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" />
|
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" alt="Contributors"/>
|
||||||
</a>
|
</a>
|
||||||
|
@ -1,3 +1,5 @@
|
|||||||
|
#
|
||||||
|
|
||||||
<div align="center">
|
<div align="center">
|
||||||
|
|
||||||
<h1>GPT-SoVITS-WebUI</h1>
|
<h1>GPT-SoVITS-WebUI</h1>
|
||||||
@ -7,12 +9,21 @@ Güçlü Birkaç Örnekli Ses Dönüştürme ve Metinden Konuşmaya Web Arayüz
|
|||||||
|
|
||||||
<a href="https://trendshift.io/repositories/7033" target="_blank"><img src="https://trendshift.io/api/badge/repositories/7033" alt="RVC-Boss%2FGPT-SoVITS | Trendshift" style="width: 250px; height: 55px;" width="250" height="55"/></a>
|
<a href="https://trendshift.io/repositories/7033" target="_blank"><img src="https://trendshift.io/api/badge/repositories/7033" alt="RVC-Boss%2FGPT-SoVITS | Trendshift" style="width: 250px; height: 55px;" width="250" height="55"/></a>
|
||||||
|
|
||||||
<!-- img src="https://counter.seku.su/cmoe?name=gptsovits&theme=r34" /><br> -->
|
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/Colab-WebUI.ipynb)
|
||||||
|
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/Colab-Inference.ipynb)
|
||||||
|
[](https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2)
|
||||||
|
|
||||||
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/colab_webui.ipynb)
|
[](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e)
|
||||||
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE)
|
[](https://rentry.co/GPT-SoVITS-guide#/)
|
||||||
[](https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2)
|
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/tr/Changelog_TR.md)
|
||||||
[](https://discord.gg/dnrgs5GHfG)
|
|
||||||
|
[](https://github.com/RVC-Boss/gpt-sovits/releases)
|
||||||
|
[](https://github.com/RVC-Boss/gpt-sovits/stargazers)
|
||||||
|
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE)
|
||||||
|
|
||||||
|
[](https://www.python.org/downloads/)
|
||||||
|
[](https://pytorch.org/)
|
||||||
|
[](https://hub.docker.com/r/xxxxrt666/gpt-sovits)
|
||||||
|
|
||||||
[**English**](../../README.md) | [**中文简体**](../cn/README.md) | [**日本語**](../ja/README.md) | [**한국어**](../ko/README.md) | **Türkçe**
|
[**English**](../../README.md) | [**中文简体**](../cn/README.md) | [**日本語**](../ja/README.md) | [**한국어**](../ko/README.md) | **Türkçe**
|
||||||
|
|
||||||
@ -20,7 +31,7 @@ Güçlü Birkaç Örnekli Ses Dönüştürme ve Metinden Konuşmaya Web Arayüz
|
|||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## Özellikler:
|
## Özellikler
|
||||||
|
|
||||||
1. **Sıfır Örnekli Metinden Konuşmaya:** 5 saniyelik bir vokal örneği girin ve anında metinden konuşmaya dönüşümünü deneyimleyin.
|
1. **Sıfır Örnekli Metinden Konuşmaya:** 5 saniyelik bir vokal örneği girin ve anında metinden konuşmaya dönüşümünü deneyimleyin.
|
||||||
|
|
||||||
@ -34,9 +45,9 @@ Güçlü Birkaç Örnekli Ses Dönüştürme ve Metinden Konuşmaya Web Arayüz
|
|||||||
|
|
||||||
Görünmeyen konuşmacılar birkaç örnekli ince ayar demosu:
|
Görünmeyen konuşmacılar birkaç örnekli ince ayar demosu:
|
||||||
|
|
||||||
https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb
|
<https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb>
|
||||||
|
|
||||||
**Kullanıcı Kılavuzu: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)**
|
<!-- **Kullanıcı Kılavuzu: [简体中文](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) | [English](https://rentry.co/GPT-SoVITS-guide#/)** -->
|
||||||
|
|
||||||
## Kurulum
|
## Kurulum
|
||||||
|
|
||||||
@ -167,7 +178,7 @@ docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GP
|
|||||||
|
|
||||||
## Önceden Eğitilmiş Modeller
|
## Önceden Eğitilmiş Modeller
|
||||||
|
|
||||||
**Eğer `install.sh` başarıyla çalıştırılırsa, No.1,2,3 adımını atlayabilirsiniz.**
|
**Eğer `install.sh` başarıyla çalıştırılırsa, No.1, 2, 3 adımını atlayabilirsiniz.**
|
||||||
|
|
||||||
1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) üzerinden önceden eğitilmiş modelleri indirip `GPT_SoVITS/pretrained_models` dizinine yerleştirin.
|
1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) üzerinden önceden eğitilmiş modelleri indirip `GPT_SoVITS/pretrained_models` dizinine yerleştirin.
|
||||||
|
|
||||||
@ -187,7 +198,7 @@ docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GP
|
|||||||
|
|
||||||
TTS açıklama .list dosya formatı:
|
TTS açıklama .list dosya formatı:
|
||||||
|
|
||||||
```
|
```text
|
||||||
vocal_path|speaker_name|language|text
|
vocal_path|speaker_name|language|text
|
||||||
```
|
```
|
||||||
|
|
||||||
@ -201,7 +212,7 @@ Dil sözlüğü:
|
|||||||
|
|
||||||
Örnek:
|
Örnek:
|
||||||
|
|
||||||
```
|
```text
|
||||||
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
||||||
```
|
```
|
||||||
|
|
||||||
@ -212,7 +223,6 @@ D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
|||||||
#### Entegre Paket Kullanıcıları
|
#### Entegre Paket Kullanıcıları
|
||||||
|
|
||||||
`go-webui.bat` dosyasına çift tıklayın veya `go-webui.ps1` kullanın.
|
`go-webui.bat` dosyasına çift tıklayın veya `go-webui.ps1` kullanın.
|
||||||
V1'e geçmek istiyorsanız, `go-webui-v1.bat` dosyasına çift tıklayın veya `go-webui-v1.ps1` kullanın.
|
|
||||||
|
|
||||||
#### Diğerleri
|
#### Diğerleri
|
||||||
|
|
||||||
@ -220,14 +230,6 @@ V1'e geçmek istiyorsanız, `go-webui-v1.bat` dosyasına çift tıklayın veya `
|
|||||||
python webui.py <dil(isteğe bağlı)>
|
python webui.py <dil(isteğe bağlı)>
|
||||||
```
|
```
|
||||||
|
|
||||||
V1'e geçmek istiyorsanız,
|
|
||||||
|
|
||||||
```bash
|
|
||||||
python webui.py v1 <dil(isteğe bağlı)>
|
|
||||||
```
|
|
||||||
|
|
||||||
veya WebUI'de manuel olarak sürüm değiştirin.
|
|
||||||
|
|
||||||
### İnce Ayar
|
### İnce Ayar
|
||||||
|
|
||||||
#### Yol Otomatik Doldurma artık destekleniyor
|
#### Yol Otomatik Doldurma artık destekleniyor
|
||||||
@ -243,7 +245,7 @@ veya WebUI'de manuel olarak sürüm değiştirin.
|
|||||||
|
|
||||||
#### Entegre Paket Kullanıcıları
|
#### Entegre Paket Kullanıcıları
|
||||||
|
|
||||||
`go-webui-v2.bat` dosyasına çift tıklayın veya `go-webui-v2.ps1` kullanın, ardından çıkarım webui'sini `1-GPT-SoVITS-TTS/1C-inference` adresinde açın.
|
`go-webui.bat` dosyasına çift tıklayın veya `go-webui.ps1` kullanın, ardından çıkarım webui'sini `1-GPT-SoVITS-TTS/1C-inference` adresinde açın.
|
||||||
|
|
||||||
#### Diğerleri
|
#### Diğerleri
|
||||||
|
|
||||||
@ -281,11 +283,11 @@ V1 ortamından V2'yi kullanmak için:
|
|||||||
|
|
||||||
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained) adresinden v2 önceden eğitilmiş modelleri indirin ve bunları `GPT_SoVITS/pretrained_models/gsv-v2final-pretrained` dizinine yerleştirin.
|
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained) adresinden v2 önceden eğitilmiş modelleri indirin ve bunları `GPT_SoVITS/pretrained_models/gsv-v2final-pretrained` dizinine yerleştirin.
|
||||||
|
|
||||||
Ek olarak Çince V2: [G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip) (G2PW modellerini indirip, zipten çıkarıp, `G2PWModel` olarak yeniden adlandırıp `GPT_SoVITS/text` dizinine yerleştirin.)
|
Ek olarak Çince V2: [G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2PWModel.zip)| [G2PWModel.zip(ModelScope)](https://www.modelscope.cn/models/XXXXRT/GPT-SoVITS-Pretrained/resolve/master/G2PWModel.zip) (G2PW modellerini indirip, zipten çıkarıp, `G2PWModel` olarak yeniden adlandırıp `GPT_SoVITS/text` dizinine yerleştirin)
|
||||||
|
|
||||||
## V3 Sürüm Notları
|
## V3 Sürüm Notları
|
||||||
|
|
||||||
Yeni Özellikler:
|
### Yeni Özellikler
|
||||||
|
|
||||||
1. **Tını benzerliği** daha yüksek olup, hedef konuşmacıyı yakınsamak için daha az eğitim verisi gerekmektedir (tını benzerliği, base model doğrudan kullanılacak şekilde fine-tuning yapılmadan önemli ölçüde iyileştirilmiştir).
|
1. **Tını benzerliği** daha yüksek olup, hedef konuşmacıyı yakınsamak için daha az eğitim verisi gerekmektedir (tını benzerliği, base model doğrudan kullanılacak şekilde fine-tuning yapılmadan önemli ölçüde iyileştirilmiştir).
|
||||||
|
|
||||||
@ -293,7 +295,7 @@ Yeni Özellikler:
|
|||||||
|
|
||||||
[daha fazla detay](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
|
[daha fazla detay](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
|
||||||
|
|
||||||
V2 ortamında V3 kullanımı:
|
### v2 ortamında v3 kullanımı
|
||||||
|
|
||||||
1. `pip install -r requirements.txt` ile bazı paketleri güncelleyin.
|
1. `pip install -r requirements.txt` ile bazı paketleri güncelleyin.
|
||||||
|
|
||||||
@ -323,7 +325,7 @@ V1/V2/V3 ortamından V4'e geçiş:
|
|||||||
Yeni Özellikler:
|
Yeni Özellikler:
|
||||||
|
|
||||||
1. **V2 ile karşılaştırıldığında biraz daha yüksek VRAM kullanımı sağlar ancak V4'ten daha iyi performans gösterir; aynı donanım maliyeti ve hız avantajını korur**.
|
1. **V2 ile karşılaştırıldığında biraz daha yüksek VRAM kullanımı sağlar ancak V4'ten daha iyi performans gösterir; aynı donanım maliyeti ve hız avantajını korur**.
|
||||||
[Daha fazla bilgi](https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90features-(%E5%90%84%E7%89%88%E6%9C%AC%E7%89%B9%E6%80%A7))
|
[Daha fazla bilgi](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90features-(%E5%90%84%E7%89%88%E6%9C%AC%E7%89%B9%E6%80%A7)>)
|
||||||
|
|
||||||
2. V1/V2 ve V2Pro serisi benzer özelliklere sahipken, V3/V4 de yakın işlevleri paylaşır. Ortalama kalite düşük olan eğitim setleriyle V1/V2/V2Pro iyi sonuçlar verebilir ama V3/V4 veremez. Ayrıca, V3/V4’ün ürettiği ses tonu genel eğitim setine değil, referans ses örneğine daha çok benzemektedir.
|
2. V1/V2 ve V2Pro serisi benzer özelliklere sahipken, V3/V4 de yakın işlevleri paylaşır. Ortalama kalite düşük olan eğitim setleriyle V1/V2/V2Pro iyi sonuçlar verebilir ama V3/V4 veremez. Ayrıca, V3/V4’ün ürettiği ses tonu genel eğitim setine değil, referans ses örneğine daha çok benzemektedir.
|
||||||
|
|
||||||
@ -363,11 +365,6 @@ UVR5 için Web Arayüzünü açmak için komut satırını kullanın
|
|||||||
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
|
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
|
||||||
```
|
```
|
||||||
|
|
||||||
<!-- Bir tarayıcı açamıyorsanız, UVR işleme için aşağıdaki formatı izleyin,Bu ses işleme için mdxnet kullanıyor
|
|
||||||
```
|
|
||||||
python mdxnet.py --model --input_root --output_vocal --output_ins --agg_level --format --device --is_half_precision
|
|
||||||
``` -->
|
|
||||||
|
|
||||||
Veri setinin ses segmentasyonu komut satırı kullanılarak bu şekilde yapılır
|
Veri setinin ses segmentasyonu komut satırı kullanılarak bu şekilde yapılır
|
||||||
|
|
||||||
```bash
|
```bash
|
||||||
@ -443,5 +440,5 @@ python ./tools/asr/fasterwhisper_asr.py -i <girdi> -o <çıktı> -l <dil>
|
|||||||
## Tüm katkıda bulunanlara çabaları için teşekkürler
|
## Tüm katkıda bulunanlara çabaları için teşekkürler
|
||||||
|
|
||||||
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
|
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
|
||||||
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" />
|
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" alt="Contributors"/>
|
||||||
</a>
|
</a>
|
||||||
|
Loading…
x
Reference in New Issue
Block a user