From ef700ea9d517dcf6e754c9c4f61ead5000786c11 Mon Sep 17 00:00:00 2001 From: Pengoose Date: Tue, 30 Jan 2024 23:44:09 +0900 Subject: [PATCH] update README.md(ko_KR) route & Lint docs convention --- README.md | 63 +++++++++++++++------------- docs/cn/README.md | 103 +++++++++++++++++++++++++--------------------- docs/ja/README.md | 90 ++++++++++++++++++++++------------------ 3 files changed, 141 insertions(+), 115 deletions(-) diff --git a/README.md b/README.md index d2e8daa..958e314 100644 --- a/README.md +++ b/README.md @@ -3,8 +3,7 @@

GPT-SoVITS-WebUI

A Powerful Few-shot Voice Conversion and Text-to-Speech WebUI.

-[![madewithlove](https://img.shields.io/badge/made_with-%E2%9D%A4-red?style=for-the-badge&labelColor=orange -)](https://github.com/RVC-Boss/GPT-SoVITS) +[![madewithlove](https://img.shields.io/badge/made_with-%E2%9D%A4-red?style=for-the-badge&labelColor=orange)](https://github.com/RVC-Boss/GPT-SoVITS)
@@ -12,14 +11,11 @@ A Powerful Few-shot Voice Conversion and Text-to-Speech WebUI.

[![Licence](https://img.shields.io/badge/LICENSE-MIT-green.svg?style=for-the-badge)](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE) [![Huggingface](https://img.shields.io/badge/🤗%20-Models%20Repo-yellow.svg?style=for-the-badge)](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) - -[**English**](./README.md) | [**中文简体**](./docs/cn/README.md) | [**日本語**](./docs/ja/README.md) +[**English**](./README.md) | [**中文简体**](./docs/cn/README.md) | [**日本語**](./docs/ja/README.md) | [**한국어**](./docs/ko/README.md) ------- - - +--- > Check out our [demo video](https://www.bilibili.com/video/BV12g4y1m7Uw) here! @@ -30,6 +26,7 @@ https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350- For users in China region, you can use AutoDL Cloud Docker to experience the full functionality online: https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official ## Features: + 1. **Zero-shot TTS:** Input a 5-second vocal sample and experience instant text-to-speech conversion. 2. **Few-shot TTS:** Fine-tune the model with just 1 minute of training data for improved voice similarity and realism. @@ -57,6 +54,7 @@ conda create -n GPTSoVits python=3.9 conda activate GPTSoVits bash install.sh ``` + ### Install Manually #### Pip Packages @@ -68,6 +66,7 @@ pip install -r requirements.txt #### FFmpeg ##### Conda Users + ```bash conda install ffmpeg ``` @@ -92,7 +91,6 @@ Download and place [ffmpeg.exe](https://huggingface.co/lj1995/VoiceConversionWeb ### Pretrained Models - Download pretrained models from [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) and place them in `GPT_SoVITS/pretrained_models`. For UVR5 (Vocals/Accompaniment Separation & Reverberation Removal, additionally), download models from [UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) and place them in `tools/uvr5/uvr5_weights`. @@ -105,9 +103,10 @@ Users in China region can download these two models by entering the links below For Chinese ASR (additionally), download models from [Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files), [Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files), and [Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files) and place them in `tools/damo_asr/models`. - ### For Mac Users -If you are a Mac user, make sure you meet the following conditions for training and inferencing with GPU: + +If you are a Mac user, make sure you meet the following conditions for training and inferencing with GPU: + - Mac computers with Apple silicon or AMD GPUs - macOS 12.3 or later - Xcode command-line tools installed by running `xcode-select --install` @@ -115,12 +114,16 @@ If you are a Mac user, make sure you meet the following conditions for training _Other Macs can do inference with CPU only._ Then install by using the following commands: -#### Create Environment + +#### Create Environment + ```bash conda create -n GPTSoVits python=3.9 conda activate GPTSoVits ``` + #### Install Requirements + ```bash pip install -r requirements.txt pip uninstall torch torchaudio @@ -129,18 +132,19 @@ pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl ### Using Docker -#### docker-compose.yaml configuration +#### docker-compose.yaml configuration 0. Regarding image tags: Due to rapid updates in the codebase and the slow process of packaging and testing images, please check [Docker Hub](https://hub.docker.com/r/breakstring/gpt-sovits) for the currently packaged latest images and select as per your situation, or alternatively, build locally using a Dockerfile according to your own needs. 1. Environment Variables: - - is_half: Controls half-precision/double-precision. This is typically the cause if the content under the directories 4-cnhubert/5-wav32k is not generated correctly during the "SSL extracting" step. Adjust to True or False based on your actual situation. + +- is_half: Controls half-precision/double-precision. This is typically the cause if the content under the directories 4-cnhubert/5-wav32k is not generated correctly during the "SSL extracting" step. Adjust to True or False based on your actual situation. 2. Volumes Configuration,The application's root directory inside the container is set to /workspace. The default docker-compose.yaml lists some practical examples for uploading/downloading content. 3. shm_size: The default available memory for Docker Desktop on Windows is too small, which can cause abnormal operations. Adjust according to your own situation. 4. Under the deploy section, GPU-related settings should be adjusted cautiously according to your system and actual circumstances. - #### Running with docker compose + ``` docker compose -f "docker-compose.yaml" up -d ``` @@ -148,11 +152,11 @@ docker compose -f "docker-compose.yaml" up -d #### Running with docker command As above, modify the corresponding parameters based on your actual situation, then run the following command: + ``` docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-DockerTest\output:/workspace/output --volume=G:\GPT-SoVITS-DockerTest\logs:/workspace/logs --volume=G:\GPT-SoVITS-DockerTest\SoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9870:9870 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx ``` - ## Dataset Format The TTS annotation .list file format: @@ -172,24 +176,26 @@ Example: ``` D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin. ``` + ## Todo List - [ ] **High Priority:** - - [x] Localization in Japanese and English. - - [ ] User guide. - - [x] Japanese and English dataset fine tune training. + + - [x] Localization in Japanese and English. + - [ ] User guide. + - [x] Japanese and English dataset fine tune training. - [ ] **Features:** - - [ ] Zero-shot voice conversion (5s) / few-shot voice conversion (1min). - - [ ] TTS speaking speed control. - - [ ] Enhanced TTS emotion control. - - [ ] Experiment with changing SoVITS token inputs to probability distribution of vocabs. - - [ ] Improve English and Japanese text frontend. - - [ ] Develop tiny and larger-sized TTS models. - - [x] Colab scripts. - - [ ] Try expand training dataset (2k hours -> 10k hours). - - [ ] better sovits base model (enhanced audio quality) - - [ ] model mix + - [ ] Zero-shot voice conversion (5s) / few-shot voice conversion (1min). + - [ ] TTS speaking speed control. + - [ ] Enhanced TTS emotion control. + - [ ] Experiment with changing SoVITS token inputs to probability distribution of vocabs. + - [ ] Improve English and Japanese text frontend. + - [ ] Develop tiny and larger-sized TTS models. + - [x] Colab scripts. + - [ ] Try expand training dataset (2k hours -> 10k hours). + - [ ] better sovits base model (enhanced audio quality) + - [ ] model mix ## Credits @@ -211,6 +217,7 @@ Special thanks to the following projects and contributors: - [gradio](https://github.com/gradio-app/gradio) ## Thanks to all contributors for their efforts + diff --git a/docs/cn/README.md b/docs/cn/README.md index 39be7d2..da3051c 100644 --- a/docs/cn/README.md +++ b/docs/cn/README.md @@ -3,8 +3,7 @@

GPT-SoVITS-WebUI

强大的少样本语音转换与语音合成Web用户界面。

-[![madewithlove](https://img.shields.io/badge/made_with-%E2%9D%A4-red?style=for-the-badge&labelColor=orange -)](https://github.com/RVC-Boss/GPT-SoVITS) +[![madewithlove](https://img.shields.io/badge/made_with-%E2%9D%A4-red?style=for-the-badge&labelColor=orange)](https://github.com/RVC-Boss/GPT-SoVITS)
@@ -12,72 +11,78 @@ [![Licence](https://img.shields.io/badge/LICENSE-MIT-green.svg?style=for-the-badge)](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE) [![Huggingface](https://img.shields.io/badge/🤗%20-Models%20Repo-yellow.svg?style=for-the-badge)](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) -[**English**](../../README.md) | [**中文简体**](./README.md) | [**日本語**](../ja/README.md) +[**English**](../../README.md) | [**中文简体**](./README.md) | [**日本語**](../ja/README.md) | [**한국어**](../ko/README.md) ------- +--- - - -> 查看我们的介绍视频 [demo video](https://www.bilibili.com/video/BV12g4y1m7Uw) +> 查看我们的介绍视频 [demo video](https://www.bilibili.com/video/BV12g4y1m7Uw) https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb -中国地区用户可使用AutoDL云端镜像进行体验:https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official +中国地区用户可使用 AutoDL 云端镜像进行体验:https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official ## 功能: -1. **零样本文本到语音(TTS):** 输入5秒的声音样本,即刻体验文本到语音转换。 -2. **少样本TTS:** 仅需1分钟的训练数据即可微调模型,提升声音相似度和真实感。 +1. **零样本文本到语音(TTS):** 输入 5 秒的声音样本,即刻体验文本到语音转换。 + +2. **少样本 TTS:** 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。 3. **跨语言支持:** 支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 -4. **WebUI工具:** 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和GPT/SoVITS模型。 +4. **WebUI 工具:** 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。 ## 环境准备 -如果你是Windows用户(已在win>=10上测试),可以直接通过预打包文件安装。只需下载[预打包文件](https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-beta.7z?download=true),解压后双击go-webui.bat即可启动GPT-SoVITS-WebUI。 +如果你是 Windows 用户(已在 win>=10 上测试),可以直接通过预打包文件安装。只需下载[预打包文件](https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-beta.7z?download=true),解压后双击 go-webui.bat 即可启动 GPT-SoVITS-WebUI。 +### 测试通过的 Python 和 PyTorch 版本 -### 测试通过的Python和PyTorch版本 - -- Python 3.9、PyTorch 2.0.1和CUDA 11 -- Python 3.10.13, PyTorch 2.1.2和CUDA 12.3 -- Python 3.9、Pytorch 2.3.0.dev20240122和macOS 14.3(Apple 芯片,GPU) +- Python 3.9、PyTorch 2.0.1 和 CUDA 11 +- Python 3.10.13, PyTorch 2.1.2 和 CUDA 12.3 +- Python 3.9、Pytorch 2.3.0.dev20240122 和 macOS 14.3(Apple 芯片,GPU) _注意: numba==0.56.4 需要 python<3.11_ ### Mac 用户 -如果你是Mac用户,请先确保满足以下条件以使用GPU进行训练和推理: -- 搭载Apple芯片或AMD GPU的Mac -- macOS 12.3或更高版本 -- 已通过运行`xcode-select --install`安装Xcode command-line tools -_其他Mac仅支持使用CPU进行推理_ +如果你是 Mac 用户,请先确保满足以下条件以使用 GPU 进行训练和推理: + +- 搭载 Apple 芯片或 AMD GPU 的 Mac +- macOS 12.3 或更高版本 +- 已通过运行`xcode-select --install`安装 Xcode command-line tools + +_其他 Mac 仅支持使用 CPU 进行推理_ 然后使用以下命令安装: + #### 创建环境 + ```bash conda create -n GPTSoVits python=3.9 conda activate GPTSoVits ``` + #### 安装依赖 + ```bash pip install -r requirements.txt pip uninstall torch torchaudio pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu ``` -### 使用Conda快速安装 +### 使用 Conda 快速安装 ```bash conda create -n GPTSoVits python=3.9 conda activate GPTSoVits bash install.sh ``` + ### 手动安装包 -#### Pip包 + +#### Pip 包 ```bash pip install -r requirements.txt @@ -86,6 +91,7 @@ pip install -r requirements.txt #### FFmpeg ##### Conda 使用者 + ```bash conda install ffmpeg ``` @@ -111,17 +117,18 @@ brew install ffmpeg ### 在 Docker 中使用 #### docker-compose.yaml 设置 -0. image的标签:由于代码库更新很快,镜像的打包和测试又很慢,所以请自行在 [Docker Hub](https://hub.docker.com/r/breakstring/gpt-sovits) 查看当前打包好的最新的镜像并根据自己的情况选用,或者在本地根据您自己的需求通过Dockerfile进行构建。 + +0. image 的标签:由于代码库更新很快,镜像的打包和测试又很慢,所以请自行在 [Docker Hub](https://hub.docker.com/r/breakstring/gpt-sovits) 查看当前打包好的最新的镜像并根据自己的情况选用,或者在本地根据您自己的需求通过 Dockerfile 进行构建。 1. 环境变量: - - is_half: 半精度/双精度控制。在进行 "SSL extracting" 步骤时如果无法正确生成 4-cnhubert/5-wav32k 目录下的内容时,一般都是它引起的,可以根据实际情况来调整为True或者False。 -2. Volume设置,容器内的应用根目录设置为 /workspace。 默认的 docker-compose.yaml 中列出了一些实际的例子,便于上传/下载内容。 -3. shm_size:Windows下的Docker Desktop默认可用内存过小,会导致运行异常,根据自己情况酌情设置。 -4. deploy小节下的gpu相关内容,请根据您的系统和实际情况酌情设置。 +- is_half: 半精度/双精度控制。在进行 "SSL extracting" 步骤时如果无法正确生成 4-cnhubert/5-wav32k 目录下的内容时,一般都是它引起的,可以根据实际情况来调整为 True 或者 False。 +2. Volume 设置,容器内的应用根目录设置为 /workspace。 默认的 docker-compose.yaml 中列出了一些实际的例子,便于上传/下载内容。 +3. shm_size:Windows 下的 Docker Desktop 默认可用内存过小,会导致运行异常,根据自己情况酌情设置。 +4. deploy 小节下的 gpu 相关内容,请根据您的系统和实际情况酌情设置。 +#### 通过 docker compose 运行 -#### 通过 docker compose运行 ``` docker compose -f "docker-compose.yaml" up -d ``` @@ -129,17 +136,16 @@ docker compose -f "docker-compose.yaml" up -d #### 通过 docker 命令运行 同上,根据您自己的实际情况修改对应的参数,然后运行如下命令: + ``` docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-DockerTest\output:/workspace/output --volume=G:\GPT-SoVITS-DockerTest\logs:/workspace/logs --volume=G:\GPT-SoVITS-DockerTest\SoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9870:9870 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx ``` - ### 预训练模型 - 从 [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) 下载预训练模型,并将它们放置在 `GPT_SoVITS\pretrained_models` 中。 -对于UVR5(人声/伴奏分离和混响移除,另外),从 [UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) 下载模型,并将它们放置在 `tools/uvr5/uvr5_weights` 中。 +对于 UVR5(人声/伴奏分离和混响移除,另外),从 [UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) 下载模型,并将它们放置在 `tools/uvr5/uvr5_weights` 中。 中国地区用户可以进入以下链接并点击“下载副本”下载以上两个模型: @@ -149,8 +155,6 @@ docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-Docker 对于中文自动语音识别(另外),从 [Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files), [Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files), 和 [Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files) 下载模型,并将它们放置在 `tools/damo_asr/models` 中。 - - ## 数据集格式 文本到语音(TTS)注释 .list 文件格式: @@ -170,24 +174,26 @@ vocal_path|speaker_name|language|text ``` D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin. ``` + ## 待办事项清单 - [ ] **高优先级:** - - [x] 日语和英语的本地化。 - - [ ] 用户指南。 - - [x] 日语和英语数据集微调训练。 + + - [x] 日语和英语的本地化。 + - [ ] 用户指南。 + - [x] 日语和英语数据集微调训练。 - [ ] **Features:** - - [ ] 零样本声音转换(5秒)/ 少样本声音转换(1分钟)。 - - [ ] TTS语速控制。 - - [ ] 增强的TTS情感控制。 - - [ ] 尝试将SoVITS令牌输入更改为词汇的概率分布。 - - [ ] 改进英语和日语文本前端。 - - [ ] 开发体积小和更大的TTS模型。 - - [x] Colab脚本。 - - [ ] 扩展训练数据集(从2k小时到10k小时)。 - - [ ] 更好的sovits基础模型(增强的音频质量)。 - - [ ] 模型混合。 + - [ ] 零样本声音转换(5 秒)/ 少样本声音转换(1 分钟)。 + - [ ] TTS 语速控制。 + - [ ] 增强的 TTS 情感控制。 + - [ ] 尝试将 SoVITS 令牌输入更改为词汇的概率分布。 + - [ ] 改进英语和日语文本前端。 + - [ ] 开发体积小和更大的 TTS 模型。 + - [x] Colab 脚本。 + - [ ] 扩展训练数据集(从 2k 小时到 10k 小时)。 + - [ ] 更好的 sovits 基础模型(增强的音频质量)。 + - [ ] 模型混合。 ## 致谢 @@ -209,6 +215,7 @@ D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin. - [gradio](https://github.com/gradio-app/gradio) ## 感谢所有贡献者的努力 + diff --git a/docs/ja/README.md b/docs/ja/README.md index 7417dbc..7c31605 100644 --- a/docs/ja/README.md +++ b/docs/ja/README.md @@ -3,8 +3,7 @@

GPT-SoVITS-WebUI

パワフルな数発音声変換・音声合成 WebUI。

-[![madewithlove](https://img.shields.io/badge/made_with-%E2%9D%A4-red?style=for-the-badge&labelColor=orange -)](https://github.com/RVC-Boss/GPT-SoVITS) +[![madewithlove](https://img.shields.io/badge/made_with-%E2%9D%A4-red?style=for-the-badge&labelColor=orange)](https://github.com/RVC-Boss/GPT-SoVITS)
@@ -12,22 +11,21 @@ [![Licence](https://img.shields.io/badge/LICENSE-MIT-green.svg?style=for-the-badge)](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE) [![Huggingface](https://img.shields.io/badge/🤗%20-Models%20Repo-yellow.svg?style=for-the-badge)](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) -[**English**](../../README.md) | [**中文简体**](../cn/README.md) | [**日本語**](./README.md) +[**English**](../../README.md) | [**中文简体**](../cn/README.md) | [**日本語**](./README.md) | [**한국어**](../ko/README.md) ------- - - +--- > [デモ動画](https://www.bilibili.com/video/BV12g4y1m7Uw)をチェック! https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb ## 機能: -1. **ゼロショット TTS:** 5秒間のボーカルサンプルを入力すると、即座にテキストから音声に変換されます。 -2. **数ショット TTS:** わずか1分間のトレーニングデータでモデルを微調整し、音声の類似性とリアリズムを向上。 +1. **ゼロショット TTS:** 5 秒間のボーカルサンプルを入力すると、即座にテキストから音声に変換されます。 + +2. **数ショット TTS:** わずか 1 分間のトレーニングデータでモデルを微調整し、音声の類似性とリアリズムを向上。 3. **多言語サポート:** 現在、英語、日本語、中国語をサポートしています。 @@ -38,33 +36,42 @@ https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350- Windows ユーザーであれば(win>=10 にてテスト済み)、prezip 経由で直接インストールできます。[prezip](https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-beta.7z?download=true) をダウンロードして解凍し、go-webui.bat をダブルクリックするだけで GPT-SoVITS-WebUI が起動します。 ### Python と PyTorch のバージョン + - Python 3.9, PyTorch 2.0.1, CUDA 11 - Python 3.10.13, PyTorch 2.1.2, CUDA 12.3 - Python 3.9, PyTorch 2.3.0.dev20240122, macOS 14.3 (Apple silicon, GPU) _注記: numba==0.56.4 は py<3.11 が必要です_ -### Macユーザーへ -如果あなたがMacユーザーである場合、GPUを使用してトレーニングおよび推論を行うために以下の条件を満たしていることを確認してください: -- AppleシリコンまたはAMD GPUを搭載したMacコンピューター -- macOS 12.3以降 -- `xcode-select --install`を実行してインストールされたXcodeコマンドラインツール +### Mac ユーザーへ -_その他のMacはCPUのみで推論を行うことができます。_ +如果あなたが Mac ユーザーである場合、GPU を使用してトレーニングおよび推論を行うために以下の条件を満たしていることを確認してください: + +- Apple シリコンまたは AMD GPU を搭載した Mac コンピューター +- macOS 12.3 以降 +- `xcode-select --install`を実行してインストールされた Xcode コマンドラインツール + +_その他の Mac は CPU のみで推論を行うことができます。_ 次に、以下のコマンドを使用してインストールします: + #### 環境作成 + ```bash conda create -n GPTSoVits python=3.9 conda activate GPTSoVits ``` + #### Pip パッケージ + ```bash pip install -r requirements.txt pip uninstall torch torchaudio pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu ``` -_注記: UVR5を使用して前処理を行う場合は、[オリジナルプロジェクトのGUIをダウンロード](https://github.com/Anjok07/ultimatevocalremovergui)して、「GPU Conversion」を選択することをお勧めします。さらに、特に推論時にメモリリークの問題が発生する可能性があります。推論webUIを再起動することでメモリを解放することができます。_ + +_注記: UVR5 を使用して前処理を行う場合は、[オリジナルプロジェクトの GUI をダウンロード](https://github.com/Anjok07/ultimatevocalremovergui)して、「GPU Conversion」を選択することをお勧めします。さらに、特に推論時にメモリリークの問題が発生する可能性があります。推論 webUI を再起動することでメモリを解放することができます。_ + ### Conda によるクイックインストール ```bash @@ -72,6 +79,7 @@ conda create -n GPTSoVits python=3.9 conda activate GPTSoVits bash install.sh ``` + ### 手動インストール #### Pip パッケージ @@ -83,6 +91,7 @@ pip install -r requirementx.txt #### FFmpeg ##### Conda ユーザー + ```bash conda install ffmpeg ``` @@ -105,41 +114,41 @@ brew install ffmpeg [ffmpeg.exe](https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffmpeg.exe) と [ffprobe.exe](https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffprobe.exe) をダウンロードし、GPT-SoVITS のルートディレクトリに置きます。 -### Dockerの使用 +### Docker の使用 -#### docker-compose.yamlの設定 +#### docker-compose.yaml の設定 -0. イメージのタグについて:コードベースの更新が速く、イメージのパッケージングとテストが遅いため、[Docker Hub](https://hub.docker.com/r/breakstring/gpt-sovits) で現在パッケージされている最新のイメージをご覧になり、ご自身の状況に応じて選択するか、またはご自身のニーズに応じてDockerfileを使用してローカルで構築してください。 +0. イメージのタグについて:コードベースの更新が速く、イメージのパッケージングとテストが遅いため、[Docker Hub](https://hub.docker.com/r/breakstring/gpt-sovits) で現在パッケージされている最新のイメージをご覧になり、ご自身の状況に応じて選択するか、またはご自身のニーズに応じて Dockerfile を使用してローカルで構築してください。 1. 環境変数: - - `is_half`:半精度/倍精度の制御。"SSL抽出"ステップ中に`4-cnhubert/5-wav32k`ディレクトリ内の内容が正しく生成されない場合、通常これが原因です。実際の状況に応じてTrueまたはFalseに調整してください。 + + - `is_half`:半精度/倍精度の制御。"SSL 抽出"ステップ中に`4-cnhubert/5-wav32k`ディレクトリ内の内容が正しく生成されない場合、通常これが原因です。実際の状況に応じて True または False に調整してください。 2. ボリューム設定:コンテナ内のアプリケーションのルートディレクトリは`/workspace`に設定されます。デフォルトの`docker-compose.yaml`には、アップロード/ダウンロードの内容の実例がいくつか記載されています。 -3. `shm_size`:WindowsのDocker Desktopのデフォルトの利用可能メモリが小さすぎるため、異常な動作を引き起こす可能性があります。状況に応じて適宜設定してください。 -4. `deploy`セクションのGPUに関連する内容は、システムと実際の状況に応じて慎重に設定してください。 +3. `shm_size`:Windows の Docker Desktop のデフォルトの利用可能メモリが小さすぎるため、異常な動作を引き起こす可能性があります。状況に応じて適宜設定してください。 +4. `deploy`セクションの GPU に関連する内容は、システムと実際の状況に応じて慎重に設定してください。 + +#### docker compose で実行する -#### docker composeで実行する ```markdown docker compose -f "docker-compose.yaml" up -d ``` -#### dockerコマンドで実行する +#### docker コマンドで実行する 上記と同様に、実際の状況に基づいて対応するパラメータを変更し、次のコマンドを実行します: + ```markdown docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-DockerTest\output:/workspace/output --volume=G:\GPT-SoVITS-DockerTest\logs:/workspace/logs --volume=G:\GPT-SoVITS-DockerTest\SoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9870:9870 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx ``` - ### 事前訓練済みモデル - [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) から事前訓練済みモデルをダウンロードし、`GPT_SoVITSpretrained_models` に置きます。 中国語 ASR(追加)については、[Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files)、[Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files)、[Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files) からモデルをダウンロードし、`tools/damo_asr/models` に置いてください。 UVR5 (Vocals/Accompaniment Separation & Reverberation Removal, additionally) の場合は、[UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) からモデルをダウンロードして `tools/uvr5/uvr5_weights` に置きます。 - ## データセット形式 TTS アノテーション .list ファイル形式: @@ -159,24 +168,26 @@ vocal_path|speaker_name|language|text ``` D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin. ``` + ## Todo リスト - [ ] **優先度 高:** - - [x] 日本語と英語でのローカライズ。 - - [ ] ユーザーガイド。 - - [x] 日本語データセットと英語データセットのファインチューニングトレーニング。 + + - [x] 日本語と英語でのローカライズ。 + - [ ] ユーザーガイド。 + - [x] 日本語データセットと英語データセットのファインチューニングトレーニング。 - [ ] **機能:** - - [ ] ゼロショット音声変換(5秒)/数ショット音声変換(1分)。 - - [ ] TTS スピーキングスピードコントロール。 - - [ ] TTS の感情コントロールの強化。 - - [ ] SoVITS トークン入力を語彙の確率分布に変更する実験。 - - [ ] 英語と日本語のテキストフロントエンドを改善。 - - [ ] 小型と大型の TTS モデルを開発する。 - - [x] Colab のスクリプト。 - - [ ] トレーニングデータセットを拡張する(2k→10k)。 - - [ ] より良い sovits ベースモデル(音質向上) - - [ ] モデルミックス + - [ ] ゼロショット音声変換(5 秒)/数ショット音声変換(1 分)。 + - [ ] TTS スピーキングスピードコントロール。 + - [ ] TTS の感情コントロールの強化。 + - [ ] SoVITS トークン入力を語彙の確率分布に変更する実験。 + - [ ] 英語と日本語のテキストフロントエンドを改善。 + - [ ] 小型と大型の TTS モデルを開発する。 + - [x] Colab のスクリプト。 + - [ ] トレーニングデータセットを拡張する(2k→10k)。 + - [ ] より良い sovits ベースモデル(音質向上) + - [ ] モデルミックス ## クレジット @@ -198,6 +209,7 @@ D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin. - [gradio](https://github.com/gradio-app/gradio) ## すべてのコントリビューターに感謝します +