mirror of https://github.com/RVC-Boss/GPT-SoVITS.git synced 2026-06-04 21:45:30 +08:00

XXXXRT666 76fa3426ea Partial migration to UV to speed up installation, rename the tools folder to reduce conflicts, update readme

2026-02-17 01:54:14 +00:00

17 KiB

Raw Blame History

GPT-SoVITS-WebUI

Güçlü Birkaç Örnekli Ses Dönüştürme ve Metinden Konuşmaya Web Arayüzü.

English | 中文简体 | 日本語 | 한국어 | Türkçe

Özellikler

Sıfır Örnekli Metinden Konuşmaya: 5 saniyelik bir vokal örneği girin ve anında metinden konuşmaya dönüşümünü deneyimleyin.
Birkaç Örnekli Metinden Konuşmaya: Daha iyi ses benzerliği ve gerçekçiliği için modeli yalnızca 1 dakikalık eğitim verisiyle ince ayarlayın.
Çapraz Dil Desteği: Eğitim veri setinden farklı dillerde çıkarım, şu anda İngilizce, Japonca, Çince, Kantonca ve Koreceyi destekliyor.
Web Arayüzü Araçları: Entegre araçlar arasında vokal eşliğinde ayırma, otomatik eğitim seti segmentasyonu, Çince ASR ve metin etiketleme bulunur ve yeni başlayanların eğitim veri setleri ve GPT/SoVITS modelleri oluşturmalarına yardımcı olur.

Demo videomuzu buradan izleyin!

Görünmeyen konuşmacılar birkaç örnekli ince ayar demosu:

https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb

Kullanıcı Kılavuzu: 简体中文 | English

Kurulum

Test Edilmiş Ortamlar

Python Version	PyTorch Version	Device
Python 3.10	PyTorch 2.8.0	CUDA 12.6
Python 3.11	PyTorch 2.9.0	CUDA 12.6
Python 3.11	PyTorch 2.7.0	CUDA 12.8
Python 3.11	PyTorch 2.10.0	CUDA 12.8
Python 3.10	PyTorch 2.8.0	Apple silicon
Python 3.11	PyTorch 2.9.0	Apple silicon
Python 3.12	PyTorch 2.10.0	Apple silicon
Python 3.10	PyTorch 2.9.0	CPU

Windows

Eğer bir Windows kullanıcısıysanız (win>=10 ile test edilmiştir), entegre paketi indirin ve go-webui.bat dosyasına çift tıklayarak GPT-SoVITS-WebUI'yi başlatın.

Aşağıdaki komutları çalıştırarak programı yükleyin:

conda create -n GPTSoVITS python=3.11
conda activate GPTSoVITS
pwsh -F install.ps1 --help

Linux

Aşağıdaki komutları çalıştırarak programı yükleyin:

conda create -n GPTSoVITS python=3.11
conda activate GPTSoVITS
bash install.sh --help

macOS

Not: Mac'lerde GPU'larla eğitilen modeller, diğer cihazlarda eğitilenlere göre önemli ölçüde daha düşük kalitede sonuç verir, bu nedenle geçici olarak CPU'lar kullanıyoruz.

Aşağıdaki komutları çalıştırarak programı yükleyin:

conda create -n GPTSoVITS python=3.11
conda activate GPTSoVITS
bash install.sh --help

El ile Yükleme

Aşağıdaki komutları çalıştırarak programı yükleyin:

conda create -n GPTSoVITS python=3.11
conda activate GPTSoVITS
conda install uv ffmpeg -c conda-forge

uv export --extra main -o pylock.toml -q --extra [mlx|cu126|cu128|rocm|cpu]
uv pip sync pylock.toml --no-break-system-packages --preview-features pylock
uv pip install ".[flash-attn]"

Önceden Eğitilmiş Modeller

Eğer install.sh başarıyla çalıştırılırsa, No.1,2,3 adımını atlayabilirsiniz.

GPT-SoVITS Models üzerinden önceden eğitilmiş modelleri indirip GPT_SoVITS/pretrained_models dizinine yerleştirin.
G2PWModel.zip(HF)| G2PWModel.zip(ModelScope) üzerinden modeli indirip sıkıştırmayı açın ve G2PWModel olarak yeniden adlandırın, ardından GPT_SoVITS/text dizinine yerleştirin. (Sadece Çince TTS için)
UVR5 (Vokal/Enstrümantal Ayrımı & Yankı Giderme) için, UVR5 Weights üzerinden modelleri indirip gsv_tools/uvr5/uvr5_weights dizinine yerleştirin.
- UVR5'te bs_roformer veya mel_band_roformer modellerini kullanıyorsanız, modeli ve ilgili yapılandırma dosyasını manuel olarak indirip gsv_tools/UVR5/UVR5_weights klasörüne yerleştirebilirsiniz. Model dosyası ve yapılandırma dosyasının adı, uzantı dışında aynı olmalıdır. Ayrıca, model ve yapılandırma dosyasının adlarında "roformer" kelimesi yer almalıdır, böylece roformer sınıfındaki bir model olarak tanınır.
- Model adı ve yapılandırma dosyası adı içinde doğrudan model tipini belirtmek önerilir. Örneğin: mel_mand_roformer, bs_roformer. Belirtilmezse, yapılandırma dosyasından özellikler karşılaştırılarak model tipi belirlenir. Örneğin, bs_roformer_ep_368_sdr_12.9628.ckpt modeli ve karşılık gelen yapılandırma dosyası bs_roformer_ep_368_sdr_12.9628.yaml bir çifttir. Aynı şekilde, kim_mel_band_roformer.ckpt ve kim_mel_band_roformer.yaml da bir çifttir.
Çince ASR için, Damo ASR Model, Damo VAD Model ve Damo Punc Model üzerinden modelleri indirip gsv_tools/asr/models dizinine yerleştirin.
İngilizce veya Japonca ASR için, Faster Whisper Large V3 üzerinden modeli indirip gsv_tools/asr/models dizinine yerleştirin. Ayrıca, diğer modeller benzer bir etki yaratabilir ve daha az disk alanı kaplayabilir.

GPT-SoVITS Çalıştırma (Docker Kullanarak)

Docker İmajı Seçimi

Kod tabanı hızla geliştiği halde Docker imajları daha yavaş yayınlandığı için lütfen şu adımları izleyin:

En güncel kullanılabilir imaj etiketlerini görmek için Docker Hub adresini kontrol edin
Ortamınıza uygun bir imaj etiketi seçin
Lite, Docker imajında ASR modelleri ve UVR5 modellerinin bulunmadığı anlamına gelir. UVR5 modellerini manuel olarak indirebilirsiniz; ASR modelleri ise gerektiğinde program tarafından otomatik olarak indirilir
Docker Compose sırasında, uygun mimariye (amd64 veya arm64) ait imaj otomatik olarak indirilir
Docker Compose, mevcut dizindeki tüm dosyaları bağlayacaktır. Docker imajını kullanmadan önce lütfen proje kök dizinine geçin ve en son kodu çekin
Opsiyonel: En güncel değişiklikleri almak için, sağlanan Dockerfile ile yerel olarak imajı kendiniz oluşturabilirsiniz

Ortam Değişkenleri

is_half: Yarı hassasiyet (fp16) kullanımını kontrol eder. GPU’nuz destekliyorsa, belleği azaltmak için true olarak ayarlayın.

Paylaşılan Bellek Yapılandırması

Windows (Docker Desktop) ortamında, varsayılan paylaşılan bellek boyutu düşüktür ve bu beklenmedik hatalara neden olabilir. Sistem belleğinize göre Docker Compose dosyasındaki shm_size değerini (örneğin 16g) artırmanız önerilir.

Servis Seçimi

docker-compose.yaml dosyasında iki tür servis tanımlanmıştır:

GPT-SoVITS-CU126 ve GPT-SoVITS-CU128: Tüm özellikleri içeren tam sürüm.
GPT-SoVITS-CU126-Lite ve GPT-SoVITS-CU128-Lite: Daha az bağımlılığa ve sınırlı işlevselliğe sahip hafif sürüm.

Belirli bir servisi Docker Compose ile çalıştırmak için şu komutu kullanın:

docker compose run --service-ports <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128>

Docker İmajını Yerel Olarak Oluşturma

Docker imajını kendiniz oluşturmak isterseniz şu komutu kullanın:

bash docker_build.sh --cuda <12.6|12.8> [--lite]

Çalışan Konteynere Erişim (Bash Shell)

Konteyner arka planda çalışırken, aşağıdaki komutla içine girebilirsiniz:

docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128> bash

Veri Seti Formatı

TTS açıklama .list dosya formatı:


vocal_path|speaker_name|language|text

Dil sözlüğü:

'zh': Çince
'ja': Japonca
'en': İngilizce
'ko': Korece
'yue': Kantonca

Örnek:


D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.

İnce Ayar ve Çıkarım

WebUI'yi Açın

Entegre Paket Kullanıcıları

go-webui.bat dosyasına çift tıklayın veya go-webui.ps1 kullanın.

Diğerleri

python webui.py <dil(isteğe bağlı)>

İnce Ayar

Yol Otomatik Doldurma artık destekleniyor

Ses yolunu doldurun
Sesi küçük parçalara ayırın
Gürültü azaltma (isteğe bağlı)
ASR
ASR transkripsiyonlarını düzeltin
Bir sonraki sekmeye geçin ve modeli ince ayar yapın

Çıkarım WebUI'sini Açın

Entegre Paket Kullanıcıları

go-webui.bat dosyasına çift tıklayın veya go-webui.ps1 kullanın, ardından çıkarım webui'sini 1-GPT-SoVITS-TTS/1C-inference adresinde açın.

Diğerleri

python GPT_SoVITS/inference_webui.py <dil(isteğe bağlı)>

VEYA

python webui.py

ardından çıkarım webui'sini 1-GPT-SoVITS-TTS/1C-inference adresinde açın.

V2 Sürüm Notları

Yeni Özellikler:

Korece ve Kantonca destekler
Optimize edilmiş metin ön yüzü
Önceden eğitilmiş model 2k saatten 5k saate kadar genişletildi
Düşük kaliteli referans sesler için geliştirilmiş sentez kalitesi

detaylar burada

V3 Sürüm Notları

Yeni Özellikler:

Tını benzerliği daha yüksek olup, hedef konuşmacıyı yakınsamak için daha az eğitim verisi gerekmektedir (tını benzerliği, base model doğrudan kullanılacak şekilde fine-tuning yapılmadan önemli ölçüde iyileştirilmiştir).
GPT modeli daha kararlı hale geldi, tekrarlar ve atlamalar azaldı ve daha zengin duygusal ifadeler ile konuşma üretmek daha kolay hale geldi.

daha fazla detay

V4 Sürüm Notları

Yeni Özellikler:

V4, V3'te görülen non-integer upsample işleminden kaynaklanan metalik ses sorununu düzeltti ve sesin boğuklaşmasını önlemek için doğrudan 48kHz ses çıktısı sunar (V3 sadece 24kHz destekler). Yazar, V4'ün V3'ün yerine geçebileceğini belirtmiştir ancak daha fazla test yapılması gerekmektedir. Daha fazla bilgi

V2Pro Sürüm Notları

Yeni Özellikler:

V2 ile karşılaştırıldığında biraz daha yüksek VRAM kullanımı sağlar ancak V4'ten daha iyi performans gösterir; aynı donanım maliyeti ve hız avantajını korur. Daha fazla bilgi
V1/V2 ve V2Pro serisi benzer özelliklere sahipken, V3/V4 de yakın işlevleri paylaşır. Ortalama kalite düşük olan eğitim setleriyle V1/V2/V2Pro iyi sonuçlar verebilir ama V3/V4 veremez. Ayrıca, V3/V4’ün ürettiği ses tonu genel eğitim setine değil, referans ses örneğine daha çok benzemektedir.

Yapılacaklar Listesi

Yüksek Öncelikli:
- Japonca ve İngilizceye yerelleştirme.
- Kullanıcı kılavuzu.
- Japonca ve İngilizce veri seti ince ayar eğitimi.
Özellikler:
- Sıfır örnekli ses dönüştürme (5s) / birkaç örnekli ses dönüştürme (1dk).
- Metinden konuşmaya konuşma hızı kontrolü.
- ~~Gelişmiş metinden konuşmaya duygu kontrolü.~~
- SoVITS token girdilerini kelime dağarcığı olasılık dağılımına değiştirme denemesi.
- İngilizce ve Japonca metin ön ucunu iyileştirme.
- Küçük ve büyük boyutlu metinden konuşmaya modelleri geliştirme.
- Colab betikleri.
- Eğitim veri setini genişletmeyi dene (2k saat -> 10k saat).
- daha iyi sovits temel modeli (geliştirilmiş ses kalitesi)
- model karışımı

Katkı Verenler

Özellikle aşağıdaki projelere ve katkıda bulunanlara teşekkür ederiz:

Teorik Araştırma

Önceden Eğitilmiş Modeller

Tahmin İçin Metin Ön Ucu

WebUI Araçları

@Naozumi520'ye Kantonca eğitim setini sağladığı ve Kantonca ile ilgili bilgiler konusunda rehberlik ettiği için minnettarım.

17 KiB Raw Blame History Unescape Escape

GPT-SoVITS-WebUI

Özellikler

Kurulum

Test Edilmiş Ortamlar

Windows

Linux

macOS

El ile Yükleme

Önceden Eğitilmiş Modeller

GPT-SoVITS Çalıştırma (Docker Kullanarak)

Docker İmajı Seçimi

Ortam Değişkenleri

Paylaşılan Bellek Yapılandırması

Servis Seçimi

Docker İmajını Yerel Olarak Oluşturma

Çalışan Konteynere Erişim (Bash Shell)

Veri Seti Formatı

İnce Ayar ve Çıkarım

WebUI'yi Açın

Entegre Paket Kullanıcıları

Diğerleri

İnce Ayar

Yol Otomatik Doldurma artık destekleniyor

Çıkarım WebUI'sini Açın

Entegre Paket Kullanıcıları

Diğerleri

V2 Sürüm Notları

V3 Sürüm Notları

V4 Sürüm Notları

V2Pro Sürüm Notları

Yapılacaklar Listesi

Katkı Verenler

Teorik Araştırma

Önceden Eğitilmiş Modeller

Tahmin İçin Metin Ön Ucu

WebUI Araçları

Tüm katkıda bulunanlara çabaları için teşekkürler

17 KiB

Raw Blame History