mirror of
https://github.com/RVC-Boss/GPT-SoVITS.git
synced 2025-04-06 03:57:44 +08:00
Merge pull request #315 from pengooseDev/pengooseDev
Update i18n & sync docs
This commit is contained in:
commit
f143ea97fb
31
README.md
31
README.md
@ -3,8 +3,7 @@
|
||||
<h1>GPT-SoVITS-WebUI</h1>
|
||||
A Powerful Few-shot Voice Conversion and Text-to-Speech WebUI.<br><br>
|
||||
|
||||
[](https://github.com/RVC-Boss/GPT-SoVITS)
|
||||
[](https://github.com/RVC-Boss/GPT-SoVITS)
|
||||
|
||||
<img src="https://counter.seku.su/cmoe?name=gptsovits&theme=r34" /><br>
|
||||
|
||||
@ -12,14 +11,11 @@ A Powerful Few-shot Voice Conversion and Text-to-Speech WebUI.<br><br>
|
||||
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE)
|
||||
[](https://huggingface.co/lj1995/GPT-SoVITS/tree/main)
|
||||
|
||||
|
||||
[**English**](./README.md) | [**中文简体**](./docs/cn/README.md) | [**日本語**](./docs/ja/README.md)
|
||||
[**English**](./README.md) | [**中文简体**](./docs/cn/README.md) | [**日本語**](./docs/ja/README.md) | [**한국어**](./docs/ko/README.md)
|
||||
|
||||
</div>
|
||||
|
||||
------
|
||||
|
||||
|
||||
---
|
||||
|
||||
> Check out our [demo video](https://www.bilibili.com/video/BV12g4y1m7Uw) here!
|
||||
|
||||
@ -30,6 +26,7 @@ https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-
|
||||
For users in China region, you can use AutoDL Cloud Docker to experience the full functionality online: https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official
|
||||
|
||||
## Features:
|
||||
|
||||
1. **Zero-shot TTS:** Input a 5-second vocal sample and experience instant text-to-speech conversion.
|
||||
|
||||
2. **Few-shot TTS:** Fine-tune the model with just 1 minute of training data for improved voice similarity and realism.
|
||||
@ -57,6 +54,7 @@ conda create -n GPTSoVits python=3.9
|
||||
conda activate GPTSoVits
|
||||
bash install.sh
|
||||
```
|
||||
|
||||
### Install Manually
|
||||
|
||||
#### Pip Packages
|
||||
@ -68,6 +66,7 @@ pip install -r requirements.txt
|
||||
#### FFmpeg
|
||||
|
||||
##### Conda Users
|
||||
|
||||
```bash
|
||||
conda install ffmpeg
|
||||
```
|
||||
@ -92,7 +91,6 @@ Download and place [ffmpeg.exe](https://huggingface.co/lj1995/VoiceConversionWeb
|
||||
|
||||
### Pretrained Models
|
||||
|
||||
|
||||
Download pretrained models from [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) and place them in `GPT_SoVITS/pretrained_models`.
|
||||
|
||||
For UVR5 (Vocals/Accompaniment Separation & Reverberation Removal, additionally), download models from [UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) and place them in `tools/uvr5/uvr5_weights`.
|
||||
@ -105,9 +103,10 @@ Users in China region can download these two models by entering the links below
|
||||
|
||||
For Chinese ASR (additionally), download models from [Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files), [Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files), and [Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files) and place them in `tools/damo_asr/models`.
|
||||
|
||||
|
||||
### For Mac Users
|
||||
|
||||
If you are a Mac user, make sure you meet the following conditions for training and inferencing with GPU:
|
||||
|
||||
- Mac computers with Apple silicon or AMD GPUs
|
||||
- macOS 12.3 or later
|
||||
- Xcode command-line tools installed by running `xcode-select --install`
|
||||
@ -115,12 +114,16 @@ If you are a Mac user, make sure you meet the following conditions for training
|
||||
_Other Macs can do inference with CPU only._
|
||||
|
||||
Then install by using the following commands:
|
||||
|
||||
#### Create Environment
|
||||
|
||||
```bash
|
||||
conda create -n GPTSoVits python=3.9
|
||||
conda activate GPTSoVits
|
||||
```
|
||||
|
||||
#### Install Requirements
|
||||
|
||||
```bash
|
||||
pip install -r requirements.txt
|
||||
pip uninstall torch torchaudio
|
||||
@ -133,14 +136,15 @@ pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl
|
||||
|
||||
0. Regarding image tags: Due to rapid updates in the codebase and the slow process of packaging and testing images, please check [Docker Hub](https://hub.docker.com/r/breakstring/gpt-sovits) for the currently packaged latest images and select as per your situation, or alternatively, build locally using a Dockerfile according to your own needs.
|
||||
1. Environment Variables:
|
||||
- is_half: Controls half-precision/double-precision. This is typically the cause if the content under the directories 4-cnhubert/5-wav32k is not generated correctly during the "SSL extracting" step. Adjust to True or False based on your actual situation.
|
||||
|
||||
- is_half: Controls half-precision/double-precision. This is typically the cause if the content under the directories 4-cnhubert/5-wav32k is not generated correctly during the "SSL extracting" step. Adjust to True or False based on your actual situation.
|
||||
|
||||
2. Volumes Configuration,The application's root directory inside the container is set to /workspace. The default docker-compose.yaml lists some practical examples for uploading/downloading content.
|
||||
3. shm_size: The default available memory for Docker Desktop on Windows is too small, which can cause abnormal operations. Adjust according to your own situation.
|
||||
4. Under the deploy section, GPU-related settings should be adjusted cautiously according to your system and actual circumstances.
|
||||
|
||||
|
||||
#### Running with docker compose
|
||||
|
||||
```
|
||||
docker compose -f "docker-compose.yaml" up -d
|
||||
```
|
||||
@ -148,11 +152,11 @@ docker compose -f "docker-compose.yaml" up -d
|
||||
#### Running with docker command
|
||||
|
||||
As above, modify the corresponding parameters based on your actual situation, then run the following command:
|
||||
|
||||
```
|
||||
docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-DockerTest\output:/workspace/output --volume=G:\GPT-SoVITS-DockerTest\logs:/workspace/logs --volume=G:\GPT-SoVITS-DockerTest\SoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9870:9870 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
|
||||
```
|
||||
|
||||
|
||||
## Dataset Format
|
||||
|
||||
The TTS annotation .list file format:
|
||||
@ -172,9 +176,11 @@ Example:
|
||||
```
|
||||
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
||||
```
|
||||
|
||||
## Todo List
|
||||
|
||||
- [ ] **High Priority:**
|
||||
|
||||
- [x] Localization in Japanese and English.
|
||||
- [ ] User guide.
|
||||
- [x] Japanese and English dataset fine tune training.
|
||||
@ -211,6 +217,7 @@ Special thanks to the following projects and contributors:
|
||||
- [gradio](https://github.com/gradio-app/gradio)
|
||||
|
||||
## Thanks to all contributors for their efforts
|
||||
|
||||
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
|
||||
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" />
|
||||
</a>
|
||||
|
@ -3,8 +3,7 @@
|
||||
<h1>GPT-SoVITS-WebUI</h1>
|
||||
强大的少样本语音转换与语音合成Web用户界面。<br><br>
|
||||
|
||||
[](https://github.com/RVC-Boss/GPT-SoVITS)
|
||||
[](https://github.com/RVC-Boss/GPT-SoVITS)
|
||||
|
||||
<img src="https://counter.seku.su/cmoe?name=gptsovits&theme=r34" /><br>
|
||||
|
||||
@ -12,72 +11,78 @@
|
||||
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE)
|
||||
[](https://huggingface.co/lj1995/GPT-SoVITS/tree/main)
|
||||
|
||||
[**English**](../../README.md) | [**中文简体**](./README.md) | [**日本語**](../ja/README.md)
|
||||
[**English**](../../README.md) | [**中文简体**](./README.md) | [**日本語**](../ja/README.md) | [**한국어**](../ko/README.md)
|
||||
|
||||
</div>
|
||||
|
||||
------
|
||||
|
||||
|
||||
---
|
||||
|
||||
> 查看我们的介绍视频 [demo video](https://www.bilibili.com/video/BV12g4y1m7Uw)
|
||||
|
||||
https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb
|
||||
|
||||
中国地区用户可使用AutoDL云端镜像进行体验:https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official
|
||||
中国地区用户可使用 AutoDL 云端镜像进行体验:https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official
|
||||
|
||||
## 功能:
|
||||
1. **零样本文本到语音(TTS):** 输入5秒的声音样本,即刻体验文本到语音转换。
|
||||
|
||||
2. **少样本TTS:** 仅需1分钟的训练数据即可微调模型,提升声音相似度和真实感。
|
||||
1. **零样本文本到语音(TTS):** 输入 5 秒的声音样本,即刻体验文本到语音转换。
|
||||
|
||||
2. **少样本 TTS:** 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
|
||||
|
||||
3. **跨语言支持:** 支持与训练数据集不同语言的推理,目前支持英语、日语和中文。
|
||||
|
||||
4. **WebUI工具:** 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和GPT/SoVITS模型。
|
||||
4. **WebUI 工具:** 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。
|
||||
|
||||
## 环境准备
|
||||
|
||||
如果你是Windows用户(已在win>=10上测试),可以直接通过预打包文件安装。只需下载[预打包文件](https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-beta.7z?download=true),解压后双击go-webui.bat即可启动GPT-SoVITS-WebUI。
|
||||
如果你是 Windows 用户(已在 win>=10 上测试),可以直接通过预打包文件安装。只需下载[预打包文件](https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-beta.7z?download=true),解压后双击 go-webui.bat 即可启动 GPT-SoVITS-WebUI。
|
||||
|
||||
### 测试通过的 Python 和 PyTorch 版本
|
||||
|
||||
### 测试通过的Python和PyTorch版本
|
||||
|
||||
- Python 3.9、PyTorch 2.0.1和CUDA 11
|
||||
- Python 3.10.13, PyTorch 2.1.2和CUDA 12.3
|
||||
- Python 3.9、Pytorch 2.3.0.dev20240122和macOS 14.3(Apple 芯片,GPU)
|
||||
- Python 3.9、PyTorch 2.0.1 和 CUDA 11
|
||||
- Python 3.10.13, PyTorch 2.1.2 和 CUDA 12.3
|
||||
- Python 3.9、Pytorch 2.3.0.dev20240122 和 macOS 14.3(Apple 芯片,GPU)
|
||||
|
||||
_注意: numba==0.56.4 需要 python<3.11_
|
||||
|
||||
### Mac 用户
|
||||
如果你是Mac用户,请先确保满足以下条件以使用GPU进行训练和推理:
|
||||
- 搭载Apple芯片或AMD GPU的Mac
|
||||
- macOS 12.3或更高版本
|
||||
- 已通过运行`xcode-select --install`安装Xcode command-line tools
|
||||
|
||||
_其他Mac仅支持使用CPU进行推理_
|
||||
如果你是 Mac 用户,请先确保满足以下条件以使用 GPU 进行训练和推理:
|
||||
|
||||
- 搭载 Apple 芯片或 AMD GPU 的 Mac
|
||||
- macOS 12.3 或更高版本
|
||||
- 已通过运行`xcode-select --install`安装 Xcode command-line tools
|
||||
|
||||
_其他 Mac 仅支持使用 CPU 进行推理_
|
||||
|
||||
然后使用以下命令安装:
|
||||
|
||||
#### 创建环境
|
||||
|
||||
```bash
|
||||
conda create -n GPTSoVits python=3.9
|
||||
conda activate GPTSoVits
|
||||
```
|
||||
|
||||
#### 安装依赖
|
||||
|
||||
```bash
|
||||
pip install -r requirements.txt
|
||||
pip uninstall torch torchaudio
|
||||
pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu
|
||||
```
|
||||
|
||||
### 使用Conda快速安装
|
||||
### 使用 Conda 快速安装
|
||||
|
||||
```bash
|
||||
conda create -n GPTSoVits python=3.9
|
||||
conda activate GPTSoVits
|
||||
bash install.sh
|
||||
```
|
||||
|
||||
### 手动安装包
|
||||
#### Pip包
|
||||
|
||||
#### Pip 包
|
||||
|
||||
```bash
|
||||
pip install -r requirements.txt
|
||||
@ -86,6 +91,7 @@ pip install -r requirements.txt
|
||||
#### FFmpeg
|
||||
|
||||
##### Conda 使用者
|
||||
|
||||
```bash
|
||||
conda install ffmpeg
|
||||
```
|
||||
@ -111,17 +117,18 @@ brew install ffmpeg
|
||||
### 在 Docker 中使用
|
||||
|
||||
#### docker-compose.yaml 设置
|
||||
0. image的标签:由于代码库更新很快,镜像的打包和测试又很慢,所以请自行在 [Docker Hub](https://hub.docker.com/r/breakstring/gpt-sovits) 查看当前打包好的最新的镜像并根据自己的情况选用,或者在本地根据您自己的需求通过Dockerfile进行构建。
|
||||
|
||||
0. image 的标签:由于代码库更新很快,镜像的打包和测试又很慢,所以请自行在 [Docker Hub](https://hub.docker.com/r/breakstring/gpt-sovits) 查看当前打包好的最新的镜像并根据自己的情况选用,或者在本地根据您自己的需求通过 Dockerfile 进行构建。
|
||||
1. 环境变量:
|
||||
- is_half: 半精度/双精度控制。在进行 "SSL extracting" 步骤时如果无法正确生成 4-cnhubert/5-wav32k 目录下的内容时,一般都是它引起的,可以根据实际情况来调整为True或者False。
|
||||
|
||||
2. Volume设置,容器内的应用根目录设置为 /workspace。 默认的 docker-compose.yaml 中列出了一些实际的例子,便于上传/下载内容。
|
||||
3. shm_size:Windows下的Docker Desktop默认可用内存过小,会导致运行异常,根据自己情况酌情设置。
|
||||
4. deploy小节下的gpu相关内容,请根据您的系统和实际情况酌情设置。
|
||||
- is_half: 半精度/双精度控制。在进行 "SSL extracting" 步骤时如果无法正确生成 4-cnhubert/5-wav32k 目录下的内容时,一般都是它引起的,可以根据实际情况来调整为 True 或者 False。
|
||||
|
||||
2. Volume 设置,容器内的应用根目录设置为 /workspace。 默认的 docker-compose.yaml 中列出了一些实际的例子,便于上传/下载内容。
|
||||
3. shm_size:Windows 下的 Docker Desktop 默认可用内存过小,会导致运行异常,根据自己情况酌情设置。
|
||||
4. deploy 小节下的 gpu 相关内容,请根据您的系统和实际情况酌情设置。
|
||||
|
||||
#### 通过 docker compose 运行
|
||||
|
||||
#### 通过 docker compose运行
|
||||
```
|
||||
docker compose -f "docker-compose.yaml" up -d
|
||||
```
|
||||
@ -129,17 +136,16 @@ docker compose -f "docker-compose.yaml" up -d
|
||||
#### 通过 docker 命令运行
|
||||
|
||||
同上,根据您自己的实际情况修改对应的参数,然后运行如下命令:
|
||||
|
||||
```
|
||||
docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-DockerTest\output:/workspace/output --volume=G:\GPT-SoVITS-DockerTest\logs:/workspace/logs --volume=G:\GPT-SoVITS-DockerTest\SoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9870:9870 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
|
||||
```
|
||||
|
||||
|
||||
### 预训练模型
|
||||
|
||||
|
||||
从 [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) 下载预训练模型,并将它们放置在 `GPT_SoVITS\pretrained_models` 中。
|
||||
|
||||
对于UVR5(人声/伴奏分离和混响移除,另外),从 [UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) 下载模型,并将它们放置在 `tools/uvr5/uvr5_weights` 中。
|
||||
对于 UVR5(人声/伴奏分离和混响移除,另外),从 [UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) 下载模型,并将它们放置在 `tools/uvr5/uvr5_weights` 中。
|
||||
|
||||
中国地区用户可以进入以下链接并点击“下载副本”下载以上两个模型:
|
||||
|
||||
@ -149,8 +155,6 @@ docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-Docker
|
||||
|
||||
对于中文自动语音识别(另外),从 [Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files), [Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files), 和 [Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files) 下载模型,并将它们放置在 `tools/damo_asr/models` 中。
|
||||
|
||||
|
||||
|
||||
## 数据集格式
|
||||
|
||||
文本到语音(TTS)注释 .list 文件格式:
|
||||
@ -170,23 +174,25 @@ vocal_path|speaker_name|language|text
|
||||
```
|
||||
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
||||
```
|
||||
|
||||
## 待办事项清单
|
||||
|
||||
- [ ] **高优先级:**
|
||||
|
||||
- [x] 日语和英语的本地化。
|
||||
- [ ] 用户指南。
|
||||
- [x] 日语和英语数据集微调训练。
|
||||
|
||||
- [ ] **Features:**
|
||||
- [ ] 零样本声音转换(5秒)/ 少样本声音转换(1分钟)。
|
||||
- [ ] TTS语速控制。
|
||||
- [ ] 增强的TTS情感控制。
|
||||
- [ ] 尝试将SoVITS令牌输入更改为词汇的概率分布。
|
||||
- [ ] 零样本声音转换(5 秒)/ 少样本声音转换(1 分钟)。
|
||||
- [ ] TTS 语速控制。
|
||||
- [ ] 增强的 TTS 情感控制。
|
||||
- [ ] 尝试将 SoVITS 令牌输入更改为词汇的概率分布。
|
||||
- [ ] 改进英语和日语文本前端。
|
||||
- [ ] 开发体积小和更大的TTS模型。
|
||||
- [x] Colab脚本。
|
||||
- [ ] 扩展训练数据集(从2k小时到10k小时)。
|
||||
- [ ] 更好的sovits基础模型(增强的音频质量)。
|
||||
- [ ] 开发体积小和更大的 TTS 模型。
|
||||
- [x] Colab 脚本。
|
||||
- [ ] 扩展训练数据集(从 2k 小时到 10k 小时)。
|
||||
- [ ] 更好的 sovits 基础模型(增强的音频质量)。
|
||||
- [ ] 模型混合。
|
||||
|
||||
## 致谢
|
||||
@ -209,6 +215,7 @@ D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
||||
- [gradio](https://github.com/gradio-app/gradio)
|
||||
|
||||
## 感谢所有贡献者的努力
|
||||
|
||||
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
|
||||
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" />
|
||||
</a>
|
||||
|
85
docs/ja/Changelog_JA.md
Normal file
85
docs/ja/Changelog_JA.md
Normal file
@ -0,0 +1,85 @@
|
||||
### 20240121 更新
|
||||
|
||||
1. `config`に`is_share`を追加し、Colab などの環境でこれを`True`に設定すると、webui を公共ネットワークにマッピングできます。
|
||||
|
||||
2. WebUI に英語システムの英語翻訳を追加しました。
|
||||
|
||||
3. `cmd-asr`は damo モデルが既に含まれているかどうかを自動的に確認し、デフォルトのパスにない場合は modelscope から自動的にダウンロードします。
|
||||
|
||||
4. [SoVITS 训练报错 ZeroDivisionError](https://github.com/RVC-Boss/GPT-SoVITS/issues/79) 修復を試みます(長さ 0 のサンプルをフィルタリングなど)
|
||||
|
||||
5. TEMP ファイルフォルダからオーディオやその他のファイルをクリーンアップして最適化します。
|
||||
|
||||
6. 合成オーディオがリファレンスオーディオの終わりを含む問題を大幅に改善しました。
|
||||
|
||||
### 20240122 更新
|
||||
|
||||
1. 短すぎる出力ファイルが重複したリファレンスオーディオを返す問題を修正しました。
|
||||
|
||||
2. 英語-日本語学習がスムーズに進む QA を完了しました。(ただし、日本語学習はルートディレクトリに英語以外の文字が含まれていない必要があります)
|
||||
|
||||
3. オーディオパスをチェックします。間違ったパスを読み取ろうとすると、「パスが存在しません」というエラーメッセージが返されます。これは ffmpeg モジュールのエラーではありません。
|
||||
|
||||
### 20240123 更新
|
||||
|
||||
1. hubert から nan 抽出による SoVITS/GPT 学習中の ZeroDivisionError 関連エラーを修正しました。
|
||||
|
||||
2. 推論インターフェースでモデルを素早く切り替えることができるようにサポートしました。
|
||||
|
||||
3. モデルファイルのソートロジックを最適化しました。
|
||||
|
||||
4. 中国語の分析に`jieba_fast`を`jieba`に置き換えました。
|
||||
|
||||
### 20240126 更新
|
||||
|
||||
1. 中国語と英語、日本語と英語が混在した出力テキストをサポートします。
|
||||
|
||||
2. 出力で選択的な分割モードをサポートします。
|
||||
|
||||
3. uvr5 がディレクトリを読み取り、自動的に終了する問題を修正しました。
|
||||
|
||||
4. 複数の改行による推論エラーを修正しました。
|
||||
|
||||
5. 推論インターフェースから不要なログを削除しました。
|
||||
|
||||
6. MacOS での学習と推論をサポートします。
|
||||
|
||||
7. 半精度をサポートしていないカードを自動的に識別して単精度を強制し、CPU 推論では単精度を強制します。
|
||||
|
||||
### 20240128 更新
|
||||
|
||||
1. 数字を漢字で読む問題を修正しました。
|
||||
|
||||
2. 文章の先頭の一部の単語が欠落する問題を修正しました。
|
||||
|
||||
3. 不適切な長さのリファレンスオーディオを制限しました。
|
||||
|
||||
4. GPT 学習時の ckpt が保存されない問題を修正しました。
|
||||
|
||||
5. Dockerfile のモデルダウンロードプロセスを改善しました。
|
||||
|
||||
### 20240129 更新
|
||||
|
||||
1. 16 系などの半精度学習に問題があるカードは、学習構成を単精度学習に変更しました。
|
||||
|
||||
2. Colab でも使用可能なバージョンをテストして更新しました。
|
||||
|
||||
3. `git clone modelscope funasr`リポジトリと古いバージョンの funasr を使用してインターフェースが一致しないエラーを修正しました。
|
||||
|
||||
### 20240130 更新
|
||||
|
||||
1. パスと関連する文字列を解析して、二重引用符を自動的に削除します。また、パスをコピーする場合、二重引用符が含まれていてもエラーが発生しません。
|
||||
|
||||
2. 中国語と英語、日本語と英語の混合出力をサポートします。
|
||||
|
||||
3. 出力で選択的な分割モードをサポートします。
|
||||
|
||||
todolist:
|
||||
|
||||
1. 同音異義語(中国語)の推論の最適化
|
||||
|
||||
2. 英語大文字認識と英語ハイフン [問題](https://github.com/RVC-Boss/GPT-SoVITS/issues/271)
|
||||
|
||||
3. テキストに%記号が含まれているとエラーが発生し、推論が不可能です。また、「元/吨」が「元吨」ではなく「元每吨」と読まれるなどの問題があります。このような問題を解決するには、どのライブラリを使用する必要があり、それに対する改善を検討しています。
|
||||
|
||||
4. 中-日-英、中-英、日-英を含む 5 つの言語をサポートすることを目標にしています。
|
@ -3,8 +3,7 @@
|
||||
<h1>GPT-SoVITS-WebUI</h1>
|
||||
パワフルな数発音声変換・音声合成 WebUI。<br><br>
|
||||
|
||||
[](https://github.com/RVC-Boss/GPT-SoVITS)
|
||||
[](https://github.com/RVC-Boss/GPT-SoVITS)
|
||||
|
||||
<img src="https://counter.seku.su/cmoe?name=gptsovits&theme=r34" /><br>
|
||||
|
||||
@ -12,22 +11,21 @@
|
||||
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE)
|
||||
[](https://huggingface.co/lj1995/GPT-SoVITS/tree/main)
|
||||
|
||||
[**English**](../../README.md) | [**中文简体**](../cn/README.md) | [**日本語**](./README.md)
|
||||
[**English**](../../README.md) | [**中文简体**](../cn/README.md) | [**日本語**](./README.md) | [**한국어**](../ko/README.md)
|
||||
|
||||
</div>
|
||||
|
||||
------
|
||||
|
||||
|
||||
---
|
||||
|
||||
> [デモ動画](https://www.bilibili.com/video/BV12g4y1m7Uw)をチェック!
|
||||
|
||||
https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb
|
||||
|
||||
## 機能:
|
||||
1. **ゼロショット TTS:** 5秒間のボーカルサンプルを入力すると、即座にテキストから音声に変換されます。
|
||||
|
||||
2. **数ショット TTS:** わずか1分間のトレーニングデータでモデルを微調整し、音声の類似性とリアリズムを向上。
|
||||
1. **ゼロショット TTS:** 5 秒間のボーカルサンプルを入力すると、即座にテキストから音声に変換されます。
|
||||
|
||||
2. **数ショット TTS:** わずか 1 分間のトレーニングデータでモデルを微調整し、音声の類似性とリアリズムを向上。
|
||||
|
||||
3. **多言語サポート:** 現在、英語、日本語、中国語をサポートしています。
|
||||
|
||||
@ -38,33 +36,42 @@ https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-
|
||||
Windows ユーザーであれば(win>=10 にてテスト済み)、prezip 経由で直接インストールできます。[prezip](https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-beta.7z?download=true) をダウンロードして解凍し、go-webui.bat をダブルクリックするだけで GPT-SoVITS-WebUI が起動します。
|
||||
|
||||
### Python と PyTorch のバージョン
|
||||
|
||||
- Python 3.9, PyTorch 2.0.1, CUDA 11
|
||||
- Python 3.10.13, PyTorch 2.1.2, CUDA 12.3
|
||||
- Python 3.9, PyTorch 2.3.0.dev20240122, macOS 14.3 (Apple silicon, GPU)
|
||||
|
||||
_注記: numba==0.56.4 は py<3.11 が必要です_
|
||||
|
||||
### Macユーザーへ
|
||||
如果あなたがMacユーザーである場合、GPUを使用してトレーニングおよび推論を行うために以下の条件を満たしていることを確認してください:
|
||||
- AppleシリコンまたはAMD GPUを搭載したMacコンピューター
|
||||
- macOS 12.3以降
|
||||
- `xcode-select --install`を実行してインストールされたXcodeコマンドラインツール
|
||||
### Mac ユーザーへ
|
||||
|
||||
_その他のMacはCPUのみで推論を行うことができます。_
|
||||
如果あなたが Mac ユーザーである場合、GPU を使用してトレーニングおよび推論を行うために以下の条件を満たしていることを確認してください:
|
||||
|
||||
- Apple シリコンまたは AMD GPU を搭載した Mac コンピューター
|
||||
- macOS 12.3 以降
|
||||
- `xcode-select --install`を実行してインストールされた Xcode コマンドラインツール
|
||||
|
||||
_その他の Mac は CPU のみで推論を行うことができます。_
|
||||
|
||||
次に、以下のコマンドを使用してインストールします:
|
||||
|
||||
#### 環境作成
|
||||
|
||||
```bash
|
||||
conda create -n GPTSoVits python=3.9
|
||||
conda activate GPTSoVits
|
||||
```
|
||||
|
||||
#### Pip パッケージ
|
||||
|
||||
```bash
|
||||
pip install -r requirements.txt
|
||||
pip uninstall torch torchaudio
|
||||
pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu
|
||||
```
|
||||
_注記: UVR5を使用して前処理を行う場合は、[オリジナルプロジェクトのGUIをダウンロード](https://github.com/Anjok07/ultimatevocalremovergui)して、「GPU Conversion」を選択することをお勧めします。さらに、特に推論時にメモリリークの問題が発生する可能性があります。推論webUIを再起動することでメモリを解放することができます。_
|
||||
|
||||
_注記: UVR5 を使用して前処理を行う場合は、[オリジナルプロジェクトの GUI をダウンロード](https://github.com/Anjok07/ultimatevocalremovergui)して、「GPU Conversion」を選択することをお勧めします。さらに、特に推論時にメモリリークの問題が発生する可能性があります。推論 webUI を再起動することでメモリを解放することができます。_
|
||||
|
||||
### Conda によるクイックインストール
|
||||
|
||||
```bash
|
||||
@ -72,6 +79,7 @@ conda create -n GPTSoVits python=3.9
|
||||
conda activate GPTSoVits
|
||||
bash install.sh
|
||||
```
|
||||
|
||||
### 手動インストール
|
||||
|
||||
#### Pip パッケージ
|
||||
@ -83,6 +91,7 @@ pip install -r requirementx.txt
|
||||
#### FFmpeg
|
||||
|
||||
##### Conda ユーザー
|
||||
|
||||
```bash
|
||||
conda install ffmpeg
|
||||
```
|
||||
@ -105,41 +114,41 @@ brew install ffmpeg
|
||||
|
||||
[ffmpeg.exe](https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffmpeg.exe) と [ffprobe.exe](https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffprobe.exe) をダウンロードし、GPT-SoVITS のルートディレクトリに置きます。
|
||||
|
||||
### Dockerの使用
|
||||
### Docker の使用
|
||||
|
||||
#### docker-compose.yamlの設定
|
||||
#### docker-compose.yaml の設定
|
||||
|
||||
0. イメージのタグについて:コードベースの更新が速く、イメージのパッケージングとテストが遅いため、[Docker Hub](https://hub.docker.com/r/breakstring/gpt-sovits) で現在パッケージされている最新のイメージをご覧になり、ご自身の状況に応じて選択するか、またはご自身のニーズに応じてDockerfileを使用してローカルで構築してください。
|
||||
0. イメージのタグについて:コードベースの更新が速く、イメージのパッケージングとテストが遅いため、[Docker Hub](https://hub.docker.com/r/breakstring/gpt-sovits) で現在パッケージされている最新のイメージをご覧になり、ご自身の状況に応じて選択するか、またはご自身のニーズに応じて Dockerfile を使用してローカルで構築してください。
|
||||
1. 環境変数:
|
||||
- `is_half`:半精度/倍精度の制御。"SSL抽出"ステップ中に`4-cnhubert/5-wav32k`ディレクトリ内の内容が正しく生成されない場合、通常これが原因です。実際の状況に応じてTrueまたはFalseに調整してください。
|
||||
|
||||
- `is_half`:半精度/倍精度の制御。"SSL 抽出"ステップ中に`4-cnhubert/5-wav32k`ディレクトリ内の内容が正しく生成されない場合、通常これが原因です。実際の状況に応じて True または False に調整してください。
|
||||
|
||||
2. ボリューム設定:コンテナ内のアプリケーションのルートディレクトリは`/workspace`に設定されます。デフォルトの`docker-compose.yaml`には、アップロード/ダウンロードの内容の実例がいくつか記載されています。
|
||||
3. `shm_size`:WindowsのDocker Desktopのデフォルトの利用可能メモリが小さすぎるため、異常な動作を引き起こす可能性があります。状況に応じて適宜設定してください。
|
||||
4. `deploy`セクションのGPUに関連する内容は、システムと実際の状況に応じて慎重に設定してください。
|
||||
3. `shm_size`:Windows の Docker Desktop のデフォルトの利用可能メモリが小さすぎるため、異常な動作を引き起こす可能性があります。状況に応じて適宜設定してください。
|
||||
4. `deploy`セクションの GPU に関連する内容は、システムと実際の状況に応じて慎重に設定してください。
|
||||
|
||||
#### docker compose で実行する
|
||||
|
||||
#### docker composeで実行する
|
||||
```markdown
|
||||
docker compose -f "docker-compose.yaml" up -d
|
||||
```
|
||||
|
||||
#### dockerコマンドで実行する
|
||||
#### docker コマンドで実行する
|
||||
|
||||
上記と同様に、実際の状況に基づいて対応するパラメータを変更し、次のコマンドを実行します:
|
||||
|
||||
```markdown
|
||||
docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-DockerTest\output:/workspace/output --volume=G:\GPT-SoVITS-DockerTest\logs:/workspace/logs --volume=G:\GPT-SoVITS-DockerTest\SoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9870:9870 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
|
||||
```
|
||||
|
||||
|
||||
### 事前訓練済みモデル
|
||||
|
||||
|
||||
[GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) から事前訓練済みモデルをダウンロードし、`GPT_SoVITSpretrained_models` に置きます。
|
||||
|
||||
中国語 ASR(追加)については、[Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files)、[Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files)、[Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files) からモデルをダウンロードし、`tools/damo_asr/models` に置いてください。
|
||||
|
||||
UVR5 (Vocals/Accompaniment Separation & Reverberation Removal, additionally) の場合は、[UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) からモデルをダウンロードして `tools/uvr5/uvr5_weights` に置きます。
|
||||
|
||||
|
||||
## データセット形式
|
||||
|
||||
TTS アノテーション .list ファイル形式:
|
||||
@ -159,15 +168,17 @@ vocal_path|speaker_name|language|text
|
||||
```
|
||||
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
||||
```
|
||||
|
||||
## Todo リスト
|
||||
|
||||
- [ ] **優先度 高:**
|
||||
|
||||
- [x] 日本語と英語でのローカライズ。
|
||||
- [ ] ユーザーガイド。
|
||||
- [x] 日本語データセットと英語データセットのファインチューニングトレーニング。
|
||||
|
||||
- [ ] **機能:**
|
||||
- [ ] ゼロショット音声変換(5秒)/数ショット音声変換(1分)。
|
||||
- [ ] ゼロショット音声変換(5 秒)/数ショット音声変換(1 分)。
|
||||
- [ ] TTS スピーキングスピードコントロール。
|
||||
- [ ] TTS の感情コントロールの強化。
|
||||
- [ ] SoVITS トークン入力を語彙の確率分布に変更する実験。
|
||||
@ -198,6 +209,7 @@ D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
||||
- [gradio](https://github.com/gradio-app/gradio)
|
||||
|
||||
## すべてのコントリビューターに感謝します
|
||||
|
||||
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
|
||||
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" />
|
||||
</a>
|
||||
|
58
docs/ko/Changelog_KO.md
Normal file
58
docs/ko/Changelog_KO.md
Normal file
@ -0,0 +1,58 @@
|
||||
### 20240121 업데이트
|
||||
|
||||
1. `config`에 `is_share` 추가, Colab 등의 환경에서 이를 `True`로 설정하여 webui를 공용 네트워크에 매핑되도록 할 수 있습니다.
|
||||
2. WebUI에 영어 번역이 추가되었습니다.
|
||||
3. `cmd-asr`은 damo 모델이 이미 포함되어 있는지 자동으로 확인하고, 기본 경로에 없는 경우 modelscope에서 자동 다운로드 되도록 수정하였습니다.
|
||||
4. [SoVITS 학습 중 ZeroDivisionError가 발생](https://github.com/RVC-Boss/GPT-SoVITS/issues/79)하는 경우 복구를 시도합니다. (길이가 0인 샘플 필터링 등)
|
||||
5. TEMP 파일 폴더에서 오디오 및 기타 파일을 정리하여 최적화합니다.
|
||||
6. 합성 오디오가 레퍼런스 오디오의 끝부분을 포함하는 문제를 개선하였습니다.
|
||||
|
||||
### 20240122 업데이트
|
||||
|
||||
1. 너무 짧은 출력 파일이 중복된 레퍼런스 오디오를 반환하는 문제 수정하였습니다.
|
||||
2. 영어-일본어 학습이 원활하게 진행되는 QA를 완료하였습니다. (다만, 일본어 학습은 루트 디렉토리에 영어 이외의 문자가 없어야 합니다)
|
||||
3. 오디오 경로를 검사합니다. 잘못된 경로를 읽으려고 할 때 '경로가 존재하지 않습니다'라는 에러 메시지를 반환하도록 수정하였습니다. 이는 ffmpeg 모듈의 에러가 아닙니다.
|
||||
|
||||
### 20240123 업데이트
|
||||
|
||||
1. hubert에서 nan 추출로 인한 SoVITS/GPT 학습 중 ZeroDivisionError 관련 에러를 해결하였습니다.
|
||||
2. 추론 인터페이스에서 모델을 빠르게 전환할 수 있도록 지원하도록 수정되었습니다.
|
||||
3. 모델 파일 정렬 로직 최적화하였습니다.
|
||||
4. 중문 분석에 `jieba_fast`를 `jieba`로 대체하였습니다.
|
||||
|
||||
### 20240126 업데이트
|
||||
|
||||
1. 중국어와 영어, 일본어와 영어가 혼합된 출력 텍스트를 지원합니다.
|
||||
2. 출력에서 선택적 분할 모드를 지원합니다.
|
||||
3. uvr5가 디렉토리를 읽고 자동으로 종료되는 문제를 수정하였습니다.
|
||||
4. 여러 줄바꿈으로 인한 추론 오류를 수정하였습니다.
|
||||
5. 추론 인터페이스에서 불필요한 로그 제거하였습니다.
|
||||
6. MacOS에서의 학습 및 추론을 지원합니다.
|
||||
7. 반정밀을 지원하지 않는 카드를 자동으로 식별하여 단일 정밀도를 강제 적용하고, CPU 추론에서 단일 정밀도를 강제 적용합니다.
|
||||
|
||||
### 20240128 업데이트
|
||||
|
||||
1. 숫자를 한자로 읽는 문제를 수정했습니다.
|
||||
2. 문장 시작 부분의 일부 단어가 누락되는 문제 수정하였습니다.
|
||||
3. 부적절한 길이의 레퍼런스 오디오를 제한하였습니다.
|
||||
4. GPT 학습 시 ckpt가 저장되지 않는 문제 수정하였습니다.
|
||||
5. Dockerfile에서 모델 다운로드 프로세스 개선하였습니다.
|
||||
|
||||
### 20240129 업데이트
|
||||
|
||||
1. 반정밀도 훈련에 문제가 있는 16 시리즈 및 기타 그래픽 카드의 훈련 구성을 단정밀도 훈련으로 변경했습니다.
|
||||
2. Colab에서도 사용이 가능한 버전을 테스트 및 업데이트 하였습니다.
|
||||
3. `git clone modelscope funasr` 저장소와 오래된 버전의 funasr 사용으로 인해 인터페이스가 일치하지 않는 오류를 수정하였습니다.
|
||||
|
||||
### 20240130 업데이트
|
||||
|
||||
1. 경로와 관련된 문자열을 파싱하여 큰따옴표를 자동으로 제거합니다. 또한, 경로를 복사하는 경우 큰따옴표가 포함되어도 오류가 발생하지 않습니다.
|
||||
2. 중국어 및 영어 문자열의 문장 부호가 잘리는 문제 및 문장의 시작과 끝에 문장 부호가 추가되는 문제를 수정했습니다.
|
||||
3. 문장 부호의 수를 확장하였습니다.
|
||||
|
||||
todolist:
|
||||
|
||||
1. 동음이의어(중문) 추론 최적화
|
||||
2. 영문 대문자 인식 및 영문 하이픈 [문제](https://github.com/RVC-Boss/GPT-SoVITS/issues/271)
|
||||
3. 텍스트에 % 기호가 포함되어 있으면 오류가 발생하며 추론이 불가능합니다. 또한 '元/吨'이 '元吨'으로 읽히지 않고 '元每吨'으로 읽히도록 하는 등의 문제가 존재합니다. 이러한 문제를 해결하기 위해 어떤 라이브러리를 사용해야 하며, 이에 대한 개선을 고민하고 있습니다.
|
||||
4. 중-일-영, 중-영, 일-영을 포함한 다섯 가지 언어를 지원하는 것을 목표로 잡고있습니다.
|
219
docs/ko/README.md
Normal file
219
docs/ko/README.md
Normal file
@ -0,0 +1,219 @@
|
||||
<div align="center">
|
||||
|
||||
<h1>GPT-SoVITS-WebUI</h1>
|
||||
소량의 데이터로 음성 변환 및 음성 합성을 지원하는 강력한 WebUI.<br><br>
|
||||
|
||||
[](https://github.com/RVC-Boss/GPT-SoVITS)
|
||||
|
||||
<img src="https://counter.seku.su/cmoe?name=gptsovits&theme=r34" /><br>
|
||||
|
||||
[](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/colab_webui.ipynb)
|
||||
[](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE)
|
||||
[](https://huggingface.co/lj1995/GPT-SoVITS/tree/main)
|
||||
|
||||
[**English**](../../README.md) | [**中文简体**](../cn/README.md) | [**日本語**](../ja/README.md) | [**한국어**](./README.md)
|
||||
|
||||
</div>
|
||||
|
||||
---
|
||||
|
||||
> 데모 비디오를 확인하세요! [demo video](https://www.bilibili.com/video/BV12g4y1m7Uw)
|
||||
|
||||
https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb
|
||||
|
||||
중국 지역의 사용자는 AutoDL 클라우드 이미지를 사용하여 체험할 수 있습니다: https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official
|
||||
|
||||
## 기능:
|
||||
|
||||
1. **제로샷 텍스트 음성 변환 (TTS):** 5초의 음성 샘플을 입력하면 즉시 텍스트를 음성으로 변환할 수 있습니다.
|
||||
|
||||
2. **소량의 데이터 TTS:** 1분의 훈련 데이터만으로 모델을 미세 조정하여 음성 유사도와 실제감을 향상시킬 수 있습니다.
|
||||
|
||||
3. **다국어 지원:** 훈련 데이터셋과 다른 언어의 추론을 지원하며, 현재 영어, 일본어, 중국어를 지원합니다.
|
||||
|
||||
4. **WebUI 도구:** 음성 반주 분리, 자동 훈련 데이터셋 분할, 중국어 자동 음성 인식(ASR) 및 텍스트 주석 등의 도구를 통합하여 초보자가 훈련 데이터셋과 GPT/SoVITS 모델을 생성하는 데 도움을 줍니다.
|
||||
|
||||
## 환경 준비
|
||||
|
||||
Windows 사용자는 (win>=10 에서 테스트되었습니다) 미리 빌드된 파일을 다운로드하여 설치할 수 있습니다. 다운로드 후 GPT-SoVITS-WebUI를 시작하려면 압축을 풀고 go-webui.bat을 두 번 클릭하면 됩니다.
|
||||
|
||||
### 테스트된 Python 및 PyTorch 버전
|
||||
|
||||
- Python 3.9, PyTorch 2.0.1 및 CUDA 11
|
||||
- Python 3.10.13, PyTorch 2.1.2 및 CUDA 12.3
|
||||
- Python 3.9, Pytorch 2.3.0.dev20240122 및 macOS 14.3 (Apple 칩, GPU)
|
||||
|
||||
_참고: numba==0.56.4 는 python<3.11 을 필요로 합니다._
|
||||
|
||||
### MacOS 사용자
|
||||
|
||||
MacOS 사용자는 GPU를 사용하여 훈련 및 추론을 하려면 다음 조건을 충족해야 합니다:
|
||||
|
||||
- Apple 칩 또는 AMD GPU가 장착된 Mac
|
||||
- macOS 12.3 이상
|
||||
- `xcode-select --install`을 실행하여 Xcode command-line tools를 설치했습니다.
|
||||
|
||||
_다른 Mac은 CPU를 사용하여 추론만 지원합니다._
|
||||
|
||||
그런 다음 다음 명령을 사용하여 설치합니다:
|
||||
|
||||
#### 환경 설정
|
||||
|
||||
```bash
|
||||
conda create -n GPTSoVits python=3.9
|
||||
conda activate GPTSoVits
|
||||
```
|
||||
|
||||
#### 의존성 모듈 설치
|
||||
|
||||
```bash
|
||||
pip install -r requirements.txt
|
||||
pip uninstall torch torchaudio
|
||||
pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu
|
||||
```
|
||||
|
||||
### Conda를 사용한 간편 설치
|
||||
|
||||
```bash
|
||||
conda create -n GPTSoVits python=3.9
|
||||
conda activate GPTSoVits
|
||||
bash install.sh
|
||||
```
|
||||
|
||||
### 수동 설치
|
||||
|
||||
#### Pip 패키지
|
||||
|
||||
```bash
|
||||
pip install -r requirements.txt
|
||||
```
|
||||
|
||||
#### FFmpeg
|
||||
|
||||
##### Conda 사용자
|
||||
|
||||
```bash
|
||||
conda install ffmpeg
|
||||
```
|
||||
|
||||
##### Ubuntu/Debian 사용자
|
||||
|
||||
```bash
|
||||
sudo apt install ffmpeg
|
||||
sudo apt install libsox-dev
|
||||
conda install -c conda-forge 'ffmpeg<7'
|
||||
```
|
||||
|
||||
##### MacOS 사용자
|
||||
|
||||
```bash
|
||||
brew install ffmpeg
|
||||
```
|
||||
|
||||
##### Windows 사용자
|
||||
|
||||
[ffmpeg.exe](https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffmpeg.exe)와 [ffprobe.exe](https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffprobe.exe)를 GPT-SoVITS root 디렉토리에 넣습니다.
|
||||
|
||||
### Docker에서 사용
|
||||
|
||||
#### docker-compose.yaml 설정
|
||||
|
||||
0. 이미지 태그: 코드 저장소가 빠르게 업데이트되고 패키지가 느리게 빌드되고 테스트되므로, 현재 빌드된 최신 도커 이미지를 [Docker Hub](https://hub.docker.com/r/breakstring/gpt-sovits)에서 확인하고 필요에 따라 Dockerfile을 사용하여 로컬에서 빌드할 수 있습니다.
|
||||
|
||||
1. 환경 변수:
|
||||
|
||||
- is_half: 반정밀/배정밀 제어. "SSL 추출" 단계에서 4-cnhubert/5-wav32k 디렉토리의 내용을 올바르게 생성할 수 없는 경우, 일반적으로 이것 때문입니다. 실제 상황에 따라 True 또는 False로 조정할 수 있습니다.
|
||||
|
||||
2. 볼륨 설정, 컨테이너 내의 애플리케이션 루트 디렉토리를 /workspace로 설정합니다. 기본 docker-compose.yaml에는 실제 예제가 나열되어 있으므로 업로드/다운로드를 쉽게 할 수 있습니다.
|
||||
|
||||
3. shm_size: Windows의 Docker Desktop의 기본 사용 가능한 메모리가 너무 작아 오류가 발생할 수 있으므로 실제 상황에 따라 조정합니다.
|
||||
|
||||
4. deploy 섹션의 gpu 관련 내용은 시스템 및 실제 상황에 따라 조정합니다.
|
||||
|
||||
#### docker compose로 실행
|
||||
|
||||
```
|
||||
docker compose -f "docker-compose.yaml" up -d
|
||||
```
|
||||
|
||||
#### docker 명령으로 실행
|
||||
|
||||
위와 동일하게 실제 상황에 맞게 매개변수를 수정한 다음 다음 명령을 실행합니다:
|
||||
|
||||
```
|
||||
docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-DockerTest\output:/workspace/output --volume=G:\GPT-SoVITS-DockerTest\logs:/workspace/logs --volume=G:\GPT-SoVITS-DockerTest\SoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9870:9870 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
|
||||
```
|
||||
|
||||
### 사전 훈련된 모델
|
||||
|
||||
[GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS)에서 사전 훈련된 모델을 다운로드하고 `GPT_SoVITS\pretrained_models`에 넣습니다.
|
||||
|
||||
중국어 자동 음성 인식(ASR), 음성 반주 분리 및 음성 제거를 위해 [Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files), [Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files) 및 [Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files)을 다운로드하고 `tools/damo_asr/models`에 넣습니다.
|
||||
|
||||
UVR5(음성/반주 분리 및 잔향 제거)를 위해 [UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights)에서 모델을 다운로드하고 `tools/uvr5/uvr5_weights`에 넣습니다.
|
||||
|
||||
## 데이터셋 형식
|
||||
|
||||
텍스트 음성 합성(TTS) 주석 .list 파일 형식:
|
||||
|
||||
```
|
||||
vocal_path|speaker_name|language|text
|
||||
```
|
||||
|
||||
언어 사전:
|
||||
|
||||
- 'zh': 중국어
|
||||
- 'ja': 일본어
|
||||
- 'en': 영어
|
||||
|
||||
예시:
|
||||
|
||||
```
|
||||
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
||||
```
|
||||
|
||||
## 할 일 목록
|
||||
|
||||
- [ ] **최우선순위:**
|
||||
|
||||
- [x] 일본어 및 영어 지역화.
|
||||
- [ ] 사용자 가이드.
|
||||
- [x] 일본어 및 영어 데이터셋 미세 조정 훈련.
|
||||
|
||||
- [ ] **기능:**
|
||||
|
||||
- [ ] 제로샷 음성 변환 (5초) / 소량의 음성 변환 (1분).
|
||||
- [ ] TTS 속도 제어.
|
||||
- [ ] 향상된 TTS 감정 제어.
|
||||
- [ ] SoVITS 토큰 입력을 단어 확률 분포로 변경해 보세요.
|
||||
- [ ] 영어 및 일본어 텍스트 프론트 엔드 개선.
|
||||
- [ ] 작은 크기와 큰 크기의 TTS 모델 개발.
|
||||
- [x] Colab 스크립트.
|
||||
- [ ] 훈련 데이터셋 확장 (2k 시간에서 10k 시간).
|
||||
- [ ] 더 나은 sovits 기본 모델 (향상된 오디오 품질).
|
||||
- [ ] 모델 블렌딩.
|
||||
|
||||
## 감사의 말
|
||||
|
||||
특별히 다음 프로젝트와 기여자에게 감사드립니다:
|
||||
|
||||
- [ar-vits](https://github.com/innnky/ar-vits)
|
||||
- [SoundStorm](https://github.com/yangdongchao/SoundStorm/tree/master/soundstorm/s1/AR)
|
||||
- [vits](https://github.com/jaywalnut310/vits)
|
||||
- [TransferTTS](https://github.com/hcy71o/TransferTTS/blob/master/models.py#L556)
|
||||
- [Chinese Speech Pretrain](https://github.com/TencentGameMate/chinese_speech_pretrain)
|
||||
- [contentvec](https://github.com/auspicious3000/contentvec/)
|
||||
- [hifi-gan](https://github.com/jik876/hifi-gan)
|
||||
- [Chinese-Roberta-WWM-Ext-Large](https://huggingface.co/hfl/chinese-roberta-wwm-ext-large)
|
||||
- [fish-speech](https://github.com/fishaudio/fish-speech/blob/main/tools/llama/generate.py#L41)
|
||||
- [ultimatevocalremovergui](https://github.com/Anjok07/ultimatevocalremovergui)
|
||||
- [audio-slicer](https://github.com/openvpi/audio-slicer)
|
||||
- [SubFix](https://github.com/cronrpc/SubFix)
|
||||
- [FFmpeg](https://github.com/FFmpeg/FFmpeg)
|
||||
- [gradio](https://github.com/gradio-app/gradio)
|
||||
|
||||
## 모든 기여자들에게 감사드립니다 ;)
|
||||
|
||||
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
|
||||
<img src="https://contrib.rocks/image?repo=RVC-Boss/GPT-SoVITS" />
|
||||
</a>
|
@ -1,15 +1,23 @@
|
||||
{
|
||||
"很遗憾您这没有能用的显卡来支持您训练": "아쉽게도 훈련을 지원할 수 있는 사용 가능한 그래픽 카드가 없습니다",
|
||||
"很遗憾您这没有能用的显卡来支持您训练": "죄송합니다. 훈련을 지원할 수 있는 그래픽 카드가 없습니다.",
|
||||
"UVR5已开启": "UVR5가 활성화되었습니다",
|
||||
"UVR5已关闭": "UVR5가 비활성화되었습니다",
|
||||
"本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. <br>如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录<b>LICENSE</b>.": "본 소프트웨어는 MIT 라이선스로 오픈 소스로 제공되며, 제작자는 소프트웨어에 대해 어떠한 제어력도 가지지 않습니다. 소프트웨어 사용자 및 소프트웨어에서 내보낸 소리를 전파하는 자는 전적으로 책임져야 합니다. <br>이 조항을 인정하지 않으면 소프트웨어의 코드 및 파일을 사용하거나 인용할 수 없습니다. 루트 디렉터리의 <b>LICENSE</b>를 참조하십시오.",
|
||||
"0-前置数据集获取工具": "0-전방 데이터 세트 수집 도구",
|
||||
"0a-UVR5人声伴奏分离&去混响去延迟工具": "0a-UVR5 보컬 및 반주 분리 및 에코 및 지연 제거 도구",
|
||||
"是否开启UVR5-WebUI": "UVR5-WebUI를 열까요?",
|
||||
"是否开启UVR5-WebUI": "UVR5-WebUI 활성화 여부",
|
||||
"UVR5进程输出信息": "UVR5 프로세스 출력 정보",
|
||||
"0b-语音切分工具": "0b-음성 분리 도구",
|
||||
".list标注文件的路径": ".list 주석 파일 경로",
|
||||
"GPT模型路径": "GPT 모델 경로",
|
||||
"SoVITS模型列表": "SoVITS 모델 목록",
|
||||
"填切割后音频所在目录!读取的音频文件完整路径=该目录-拼接-list文件里波形对应的文件名(不是全路径)。": "분리된 오디오가 있는 디렉터리를 입력하십시오! 읽은 오디오 파일의 전체 경로 = 해당 디렉터리-연결-목록 파일에 해당하는 원본 이름 (전체 경로가 아님).",
|
||||
"音频自动切分输入路径,可文件可文件夹": "오디오 자동 분리 입력 경로, 파일 또는 폴더 가능",
|
||||
"切分后的子音频的输出根目录": "분리된 하위 오디오의 출력 기본 디렉터리",
|
||||
"怎么切": "자르기 옵션",
|
||||
"不切": "자르지 않음",
|
||||
"凑四句一切": "네 문장의 세트를 완성하세요.",
|
||||
"按英文句号.切": "영어 문장으로 분리하기",
|
||||
"threshold:音量小于这个值视作静音的备选切割点": "임계 값: 이 값보다 작은 볼륨은 대체 분리 지점으로 간주됩니다.",
|
||||
"min_length:每段最小多长,如果第一段太短一直和后面段连起来直到超过这个值": "최소 길이: 각 세그먼트의 최소 길이. 첫 번째 세그먼트가 너무 짧으면 계속해서 뒷부분과 연결하여 이 값 이상이 될 때까지",
|
||||
"min_interval:最短切割间隔": "최소 분리 간격",
|
||||
@ -86,11 +94,13 @@
|
||||
"TTS推理WebUI进程输出信息": "TTS 추론 WebUI 프로세스 출력 정보",
|
||||
"2-GPT-SoVITS-变声": "2-GPT-SoVITS-음성 변환",
|
||||
"施工中,请静候佳音": "공사 중입니다. 기다려주십시오.",
|
||||
"参考音频在3~10秒范围外,请更换!": "참고 오디오가 3~10초 범위를 벗어났습니다. 다른 것으로 바꾸십시오!",
|
||||
"请上传3~10秒内参考音频,超过会报错!": "3~10초 이내의 참고 오디오를 업로드하십시오. 초과하면 오류가 발생합니다!",
|
||||
"TTS推理进程已开启": "TTS 추론 프로세스가 열렸습니다",
|
||||
"TTS推理进程已关闭": "TTS 추론 프로세스가 닫혔습니다",
|
||||
"打标工具WebUI已开启": "주석 도구 WebUI가 열렸습니다",
|
||||
"打标工具WebUI已关闭": "주석 도구 WebUI가 닫혔습니다",
|
||||
"*请上传并填写参考信息": "*참고 정보를 업로드하고 입력하십시오",
|
||||
"*请填写需要合成的目标文本。中英混合选中文,日英混合选日文,中日混合暂不支持,非目标语言文本自动遗弃。": "*합성할 대상 텍스트를 입력하십시오. 중국어와 영어를 혼합하면 중국어를 선택하고 일본어와 영어를 혼합하면 일본어를 선택하십시오. 중국어와 일본어를 혼합하는 것은 아직 지원되지 않으며 대상 언어가 아닌 텍스트는 자동으로 버려집니다.",
|
||||
"*请填写需要合成的目标文本": "*합성할 대상 텍스트를 입력하십시오",
|
||||
"ASR任务开启:%s": "ASR 작업 시작: %s",
|
||||
"GPT训练完成": "GPT 훈련 완료",
|
||||
@ -272,4 +282,4 @@
|
||||
"音频设备(请使用同种类驱动)": "오디오 장치(동일한 유형의 드라이버 사용 권장)",
|
||||
"音高算法": "음높이 알고리즘",
|
||||
"额外推理时长": "추가 추론 시간"
|
||||
}
|
||||
}
|
||||
|
Loading…
x
Reference in New Issue
Block a user