mirror of
https://github.com/RVC-Boss/GPT-SoVITS.git
synced 2025-05-12 15:59:01 +08:00
* Update Req, Shell Scripts and Docs * Use half-width punctuation marks * Update install.sh
17 KiB
17 KiB
20240121 更新
config
にis_share
を追加し、Colab などの環境でこれをTrue
に設定すると、webui を公共ネットワークにマッピングできます.- WebUI に英語システムの英語翻訳を追加しました.
cmd-asr
は FunASR モデルが既に含まれているかどうかを自動的に確認し、デフォルトのパスにない場合は modelscope から自動的にダウンロードします.- SoVITS 训练报错 ZeroDivisionError 修復を試みます (長さ 0 のサンプルをフィルタリングなど)
- TEMP ファイルフォルダからオーディオやその他のファイルをクリーンアップして最適化します.
- 合成オーディオがリファレンスオーディオの終わりを含む問題を大幅に改善しました.
20240122 更新
- 短すぎる出力ファイルが重複したリファレンスオーディオを返す問題を修正しました.
- 英語-日本語学習がスムーズに進む QA を完了しました. (ただし、日本語学習はルートディレクトリに英語以外の文字が含まれていない必要があります)
- オーディオパスをチェックします.間違ったパスを読み取ろうとすると、「パスが存在しません」というエラーメッセージが返されます.これは ffmpeg モジュールのエラーではありません.
20240123 更新
- hubert から nan 抽出による SoVITS/GPT 学習中の ZeroDivisionError 関連エラーを修正しました.
- 推論インターフェースでモデルを素早く切り替えることができるようにサポートしました.
- モデルファイルのソートロジックを最適化しました.
- 中国語の分析に
jieba_fast
をjieba
に置き換えました.
20240126 更新
- 中国語と英語、日本語と英語が混在した出力テキストをサポートします.
- 出力で選択的な分割モードをサポートします.
- uvr5 がディレクトリを読み取り、自動的に終了する問題を修正しました.
- 複数の改行による推論エラーを修正しました.
- 推論インターフェースから不要なログを削除しました.
- MacOS での学習と推論をサポートします.
- 半精度をサポートしていないカードを自動的に識別して単精度を強制し、CPU 推論では単精度を強制します.
20240128 更新
- 数字を漢字で読む問題を修正しました.
- 文章の先頭の一部の単語が欠落する問題を修正しました.
- 不適切な長さのリファレンスオーディオを制限しました.
- GPT 学習時の ckpt が保存されない問題を修正しました.
- Dockerfile のモデルダウンロードプロセスを改善しました.
20240129 更新
- 16 系などの半精度学習に問題があるカードは、学習構成を単精度学習に変更しました.
- Colab でも使用可能なバージョンをテストして更新しました.
- ModelScope FunASR リポジトリの古いバージョンで git クローンを行う際のインターフェース不整合エラーの問題を修正しました.
20240130 更新
- パスと関連する文字列を解析して、二重引用符を自動的に削除します.また、パスをコピーする場合、二重引用符が含まれていてもエラーが発生しません.
- 中国語と英語、日本語と英語の混合出力をサポートします.
- 出力で選択的な分割モードをサポートします.
20240201 更新
- UVR5 形式の読み取りエラーによる分離失敗を修正しました.
- 中国語・日本語・英語の混合テキストに対する自動分割と言語認識をサポートしました.
20240202 更新
- ASRパスが
/
で終わることによるファイル名保存エラーの問題を修正しました. - PR 377 で PaddleSpeech の Normalizer を導入し、"xx.xx%" (パーセント記号) の読み取りや"元/吨"が"元吨"ではなく"元每吨"と読まれる問題、アンダースコアエラーを修正しました.
20240207 更新
- Issue 391 で報告された中国語推論品質の低下を引き起こした言語パラメータの混乱を修正しました.
- PR 403 で UVR5 を librosa のより高いバージョンに適応させました.
- Commit 14a2851 で、
is_half
パラメータがブール値に変換されず、常に半精度推論が行われ、16 シリーズの GPU でinf
が発生する UVR5 inf everywhereエラーを修正しました. - 英語テキストフロントエンドを最適化しました.
- Gradio の依存関係を修正しました.
- データセット準備中にルートディレクトリが空白の場合、
.list
フルパスの自動読み取りをサポートしました. - 日本語と英語のために Faster Whisper ASR を統合しました.
20240208 更新
- Commit 59f35ad で、Windows 10 1909 および Issue 232 (繁体字中国語システム言語) での GPT トレーニングのハングを修正する試みを行いました.
20240212 更新
- Faster Whisper と FunASR のロジックを最適化し、Faster Whisper をミラーダウンロードに切り替えて Hugging Face の接続問題を回避しました.
- PR 457 で、GPT の繰り返しと文字欠落を軽減するために、トレーニング中に負のサンプルを構築する実験的なDPO Lossトレーニングオプションを有効にし、いくつかの推論パラメータを推論WebUIで利用可能にしました.
20240214 更新
- トレーニングで中国語の実験名をサポート (以前はエラーが発生していました).
- DPOトレーニングを必須ではなくオプション機能に変更.選択された場合、バッチサイズは自動的に半分になります.推論 WebUI で新しいパラメータが渡されない問題を修正しました.
20240216 更新
- 参照テキストなしでの入力をサポート.
- Issue 475 で報告された中国語フロントエンドのバグを修正しました.
20240221 更新
- データ処理中のノイズ低減オプションを追加 (ノイズ低減は16kHzサンプリングレートのみを残します;背景ノイズが大きい場合にのみ使用してください).
- PR 559, PR 556, PR 532, PR 507, PR 509 で中国語と日本語のフロントエンド処理を最適化しました.
- Mac CPU 推論を MPS ではなく CPU を使用するように切り替え、パフォーマンスを向上させました.
- Colab のパブリック URL の問題を修正しました.
20240306 更新
- PR 672 で推論速度を50%向上させました (RTX3090 + PyTorch 2.2.1 + CU11.8 + Win10 + Py39 でテスト).
- Faster Whisper非中国語ASRを使用する際、最初に中国語FunASRモデルをダウンロードする必要がなくなりました.
- PR 610 で UVR5 残響除去モデルの設定が逆になっていた問題を修正しました.
- PR 675 で、CUDA が利用できない場合に Faster Whisper の自動 CPU 推論を有効にしました.
- PR 573 で、Mac での適切なCPU推論を確保するために
is_half
チェックを修正しました.
202403/202404/202405 更新
マイナー修正:
- 参照テキストなしモードの問題を修正しました.
- 中国語と英語のテキストフロントエンドを最適化しました.
- API フォーマットを改善しました.
- CMD フォーマットの問題を修正しました.
- トレーニングデータ処理中のサポートされていない言語に対するエラープロンプトを追加しました.
- Hubert 抽出のバグを修正しました.
メジャー修正:
- SoVITS トレーニングで VQ を凍結せずに品質低下を引き起こす問題を修正しました.
- クイック推論ブランチを追加しました.
20240610 更新
マイナー修正:
- PR 1168 & PR 1169で、純粋な句読点および複数の句読点を含むテキスト入力のロジックを改善しました.
- Commit 501a74aで、UVR5 の MDXNet デリバブをサポートする CMD フォーマットを修正し、スペースを含むパスをサポートしました.
- PR 1159で、
s2_train.py
の SoVITS トレーニングのプログレスバーロジックを修正しました.
メジャー修正:
- Commit 99f09c8 で、WebUI の GPT ファインチューニングが中国語入力テキストの BERT 特徴を読み取らず、推論との不一致や品質低下の可能性を修正しました. 注意: 以前に大量のデータでファインチューニングを行った場合、品質向上のためにモデルを再調整することをお勧めします.
20240706 更新
マイナー修正:
- Commit 1250670 で、CPU 推論のデフォルトバッチサイズの小数点問題を修正しました.
- PR 1258, PR 1265, PR 1267 で、ノイズ除去またはASRが例外に遭遇した場合に、すべての保留中のオーディオファイルが終了する問題を修正しました.
- PR 1253 で、句読点で分割する際の小数点分割の問題を修正しました.
- Commit a208698 で、マルチGPUトレーニングのマルチプロセス保存ロジックを修正しました.
- PR 1251 で、不要な
my_utils
を削除しました.
メジャー修正:
- PR 672 の加速推論コードが検証され、メインブランチにマージされ、ベースとの推論効果の一貫性が確保されました. また、参照テキストなしモードでの加速推論もサポートしています.
今後の更新では、fast_inference
ブランチの変更の一貫性を継続的に検証します.
20240727 更新
マイナー修正:
- PR 1298 で、不要な i18n コードをクリーンアップしました.
- PR 1299 で、ユーザーファイルパスの末尾のスラッシュがコマンドラインエラーを引き起こす問題を修正しました.
- PR 756 で、GPT トレーニングのステップ計算ロジックを修正しました.
メジャー修正:
- Commit 9588a3c で、合成のスピーチレート調整をサポートしました. スピーチレートのみを調整しながらランダム性を固定できるようになりました.
20240806 更新
- PR 1306、PR 1356 BS RoFormer ボーカルアコムパニ分離モデルのサポートを追加しました.Commit e62e965 FP16 推論を有効にしました.
- 中国語テキストフロントエンドを改善しました.
- PR 1355 WebUIでオーディオ処理時にパスを自動入力しました.
- Commit bce451a, Commit 4c8b761 GPU 認識ロジックを最適化しました.
- Commit 8a10147 広東語ASRのサポートを追加しました.
- GPT-SoVITS v2 のサポートを追加しました.
- PR 1387 タイミングロジックを最適化しました.
20240821 更新
- PR 1490
fast_inference
ブランチをメインブランチにマージしました. - Issue 1508 SSMLタグを使用して数字、電話番号、日付、時間などの最適化をサポートしました.
- PR 1503 APIの修正と最適化を行いました.
- PR 1422 参照音声のミキシングで1つしかアップロードできないバグを修正し、データセットの各種チェックを追加してファイルが欠落している場合に警告を表示するようにしました.
20250211 更新
- Wiki GPT-SoVITS v3 モデルを追加しました.SoVITS v3のファインチューニングには14GBのGPUメモリが必要です.
20250212 更新
- PR 2040 SoVITS v3のファインチューニングにグラデーションチェックポイントを追加、12GBのGPUメモリが必要です.
20250214 更新
- PR 2047 多言語混合テキスト分割戦略の最適化 A.
split-lang
を言語分割ツールとして追加し、多言語混合テキストの分割能力を向上させました.
20250217 更新
- PR 2062 テキスト内の数字と英語の処理ロジックを最適化.
20250218 更新
- PR 2073 多言語混合テキスト分割戦略の最適化 B.
20250223 更新
- LoRAトレーニングがSoVITS V3のファインチューニングに対応しました.8GBのGPUメモリが必要で、結果はフルパラメータファインチューニングより優れています.
- PR 2078 ボーカルと楽器分離のためにMel Band RoFormerモデルを追加しました.
20250226 更新
- PR 2112 Windowsでの非英語ディレクトリによる問題を修正しました.
langsegmenter
を使用して韓国語の問題を修正.
- PR 2113 Windowsでの非英語ディレクトリによる問題を修正しました.
langsegmenter
を使用して韓国語/日本語の問題を修正.
20250227 更新
- V3モデルで24Kオーディオを生成する際に発生するこもった音の問題を緩和するために、24Kから48Kのオーディオ超解像モデルを追加しました.Issue 2085、Issue 2117で報告されています.