Fixed imports and added initial setup for streaming support.

2025-10-05 22:20:01 +08:00 · 2025-04-19 01:52:32 -04:00 · 2025-04-19 01:52:32 -04:00 · 11e98462a2
commit 11e98462a2
parent c0b46314ca
61 changed files with 239 additions and 53 deletions
--- a/GPT_SoVITS/AR/models/t2s_lightning_module.py
+++ b/GPT_SoVITS/AR/models/t2s_lightning_module.py
@ -10,9 +10,9 @@ from typing import Dict
 import torch
 from pytorch_lightning import LightningModule

-from AR.models.t2s_model import Text2SemanticDecoder
-from AR.modules.lr_schedulers import WarmupCosineLRSchedule
-from AR.modules.optim import ScaledAdam
+from GPT_SoVITS.AR.models.t2s_model import Text2SemanticDecoder
+from GPT_SoVITS.AR.modules.lr_schedulers import WarmupCosineLRSchedule
+from GPT_SoVITS.AR.modules.optim import ScaledAdam


 class Text2SemanticLightningModule(LightningModule):
--- a/GPT_SoVITS/AR/models/t2s_model.py
+++ b/GPT_SoVITS/AR/models/t2s_model.py
@ -9,7 +9,7 @@ from torch.nn import functional as F
 from torchmetrics.classification import MulticlassAccuracy
 from tqdm import tqdm

-from AR.models.utils import (
+from GPT_SoVITS.AR.models.utils import (
    dpo_loss,
    get_batch_logps,
    make_pad_mask,
@ -18,8 +18,8 @@ from AR.models.utils import (
    sample,
    topk_sampling,
 )
-from AR.modules.embedding import SinePositionalEmbedding, TokenEmbedding
-from AR.modules.transformer import LayerNorm, TransformerEncoder, TransformerEncoderLayer
+from GPT_SoVITS.AR.modules.embedding import SinePositionalEmbedding, TokenEmbedding
+from GPT_SoVITS.AR.modules.transformer import LayerNorm, TransformerEncoder, TransformerEncoderLayer

 default_config = {
    "embedding_dim": 512,
--- a/GPT_SoVITS/AR/modules/activation.py
+++ b/GPT_SoVITS/AR/modules/activation.py
@ -9,7 +9,7 @@ from torch.nn.init import constant_, xavier_normal_, xavier_uniform_
 from torch.nn.modules.linear import NonDynamicallyQuantizableLinear
 from torch.nn.parameter import Parameter

-from AR.modules.patched_mha_with_cache import multi_head_attention_forward_patched
+from GPT_SoVITS.AR.modules.patched_mha_with_cache import multi_head_attention_forward_patched

 F.multi_head_attention_forward = multi_head_attention_forward_patched

--- a/GPT_SoVITS/AR/modules/transformer.py
+++ b/GPT_SoVITS/AR/modules/transformer.py
@ -10,8 +10,8 @@ from typing import Tuple
 from typing import Union

 import torch
-from AR.modules.activation import MultiheadAttention
-from AR.modules.scaling import BalancedDoubleSwish
+from GPT_SoVITS.AR.modules.activation import MultiheadAttention
+from GPT_SoVITS.AR.modules.scaling import BalancedDoubleSwish
 from torch import nn
 from torch import Tensor
 from torch.nn import functional as F
--- a/GPT_SoVITS/TTS_infer_pack/TTS.py
+++ b/GPT_SoVITS/TTS_infer_pack/TTS.py
@ -21,20 +21,20 @@ import numpy as np
 import torch
 import torch.nn.functional as F
 import yaml
-from AR.models.t2s_lightning_module import Text2SemanticLightningModule
-from BigVGAN.bigvgan import BigVGAN
-from feature_extractor.cnhubert import CNHubert
-from module.mel_processing import mel_spectrogram_torch, spectrogram_torch
-from module.models import SynthesizerTrn, SynthesizerTrnV3
+from GPT_SoVITS.AR.models.t2s_lightning_module import Text2SemanticLightningModule
+from GPT_SoVITS.BigVGAN.bigvgan import BigVGAN
+from GPT_SoVITS.feature_extractor.cnhubert import CNHubert
+from GPT_SoVITS.module.mel_processing import mel_spectrogram_torch, spectrogram_torch
+from GPT_SoVITS.module.models import SynthesizerTrn, SynthesizerTrnV3
 from peft import LoraConfig, get_peft_model
-from process_ckpt import get_sovits_version_from_path_fast, load_sovits_new
+from GPT_SoVITS.process_ckpt import get_sovits_version_from_path_fast, load_sovits_new
 from transformers import AutoModelForMaskedLM, AutoTokenizer

 from tools.audio_sr import AP_BWE
 from tools.i18n.i18n import I18nAuto, scan_language_list
 from tools.my_utils import load_audio
-from TTS_infer_pack.text_segmentation_method import splits
-from TTS_infer_pack.TextPreprocessor import TextPreprocessor
+from GPT_SoVITS.TTS_infer_pack.text_segmentation_method import splits
+from GPT_SoVITS.TTS_infer_pack.TextPreprocessor import TextPreprocessor

 language = os.environ.get("language", "Auto")
 language = sys.argv[-1] if sys.argv[-1] in scan_language_list() else language
--- a/GPT_SoVITS/TTS_infer_pack/TextPreprocessor.py
+++ b/GPT_SoVITS/TTS_infer_pack/TextPreprocessor.py
@ -9,13 +9,13 @@ sys.path.append(now_dir)

 import re
 import torch
-from text.LangSegmenter import LangSegmenter
-from text import chinese
+from GPT_SoVITS.text.LangSegmenter import LangSegmenter
+from GPT_SoVITS.text import chinese
 from typing import Dict, List, Tuple
-from text.cleaner import clean_text
-from text import cleaned_text_to_sequence
+from GPT_SoVITS.text.cleaner import clean_text
+from GPT_SoVITS.text import cleaned_text_to_sequence
 from transformers import AutoModelForMaskedLM, AutoTokenizer
-from TTS_infer_pack.text_segmentation_method import split_big_text, splits, get_method as get_seg_method
+from GPT_SoVITS.TTS_infer_pack.text_segmentation_method import split_big_text, splits, get_method as get_seg_method

 from tools.i18n.i18n import I18nAuto, scan_language_list

--- a/GPT_SoVITS/TTS_infer_pack/zero_crossing.py
+++ b/GPT_SoVITS/TTS_infer_pack/zero_crossing.py
@ -0,0 +1,84 @@
+import numpy as np
+
+"""
+Essentially returns the index of the middle of the zero zone + the starting index.
+So if the starting index was 0 and we found the zero zone to be from 12789:12800,
+then we would be returning 0 + 12795 or 12795 (since the window was of size 11 and midpoint is 6)
+This method works by using a sliding window mechanic on each chunk, where we
+slide the window from the end going to the start. If all the values in the window
+meet the threshold, then we assign this as the zero zone.
+TLDR: Returns the zero zone where a region in the audio has enough silence.
+"""
+def find_zero_zone(chunk, start_index, search_length, search_window_size=11):
+    zone = chunk[start_index:start_index + search_length]
+    # print(f"Zero-crossing search zone: Start={start_index}, Length={len(zone)}")
+
+    zero_threshold = 1.0e-4
+    # Check for y consecutive zeros
+    for idx in range(len(zone), -1 + search_window_size, -1):
+        index_to_start = idx-search_window_size
+        abs_zone = np.abs(zone[index_to_start:idx])
+        if np.all(abs_zone < zero_threshold):
+            # print(f"Found Abs Zone: {abs_zone}")
+            # print(f"Extended Abs Zone: {chunk[idx-21:idx+10]}")
+            index_midpoint = index_to_start + int(search_window_size // 2)
+            # print(f"Returning {start_index} + {index_midpoint}")
+            return (start_index + index_midpoint), None
+    
+    # print("Falling back to zero crossing due to no zero zone found.  You may hear more prominent pops and clicks in the audio.  Try increasing search length or cumulative tokens.")
+    return find_zero_crossing(chunk, start_index, search_length)
+
+def find_zero_crossing(chunk, start_index, search_length):
+    # If the model is falling back on the this function, it might be a bad indicator that the search length is too low
+    
+    zone = chunk[start_index:start_index + search_length]
+    sign_changes = np.where(np.diff(np.sign(zone)) != 0)[0]
+    
+    if len(sign_changes) == 0:
+        raise ("No zero-crossings found in this zone. This should not be happening, debugging time.")
+    else:
+        zc_index = start_index + sign_changes[0] + 1
+        # print(f"Zero-crossing found at index {zc_index}")
+        # Determine the crossing direction in chunk1
+        prev_value = chunk[zc_index - 1]
+        curr_value = chunk[zc_index]
+        crossing_direction = np.sign(curr_value) - np.sign(prev_value)
+        # print(f"Crossing direction in chunk1: {np.sign(prev_value)} to {np.sign(curr_value)}")
+        return zc_index, crossing_direction
+
+def find_matching_index(chunk, center_index, max_offset, crossing_direction):
+    """
+    Finds a zero-crossing in data that matches the specified crossing direction,
+    starting from center_index and searching outward.
+    """
+    if crossing_direction == None:
+        return center_index # if zero zone
+    
+    # fall back for zero_crossing
+    data_length = len(chunk)
+    # print(f"Center index in chunk2: {center_index}")
+    for offset in range(max_offset + 1):
+        # Check index bounds
+        idx_forward = center_index + offset
+        idx_backward = center_index - offset
+
+        # Check forward direction
+        if idx_forward < data_length - 1:
+            prev_sign = np.sign(chunk[idx_forward])
+            curr_sign = np.sign(chunk[idx_forward + 1])
+            direction = curr_sign - prev_sign
+            if direction == crossing_direction:
+                # print(f"Matching zero-crossing found at index {idx_forward + 1} (forward)")
+                return idx_forward + 1
+
+        # Check backward direction
+        if idx_backward > 0:
+            prev_sign = np.sign(chunk[idx_backward - 1])
+            curr_sign = np.sign(chunk[idx_backward])
+            direction = curr_sign - prev_sign
+            if direction == crossing_direction:
+                # print(f"Matching zero-crossing found at index {idx_backward} (backward)")
+                return idx_backward
+
+    # print("No matching zero-crossings found in this zone.")
+    return None
--- a/GPT_SoVITS/f5_tts/model/backbones/dit.py
+++ b/GPT_SoVITS/f5_tts/model/backbones/dit.py
@ -25,7 +25,7 @@ from GPT_SoVITS.f5_tts.model.modules import (
    get_pos_embed_indices,
 )

-from module.commons import sequence_mask
+from GPT_SoVITS.module.commons import sequence_mask


 class TextEmbedding(nn.Module):
--- a/GPT_SoVITS/feature_extractor/cnhubert.py
+++ b/GPT_SoVITS/feature_extractor/cnhubert.py
@ -13,7 +13,7 @@ from transformers import (
    HubertModel,
 )

-import utils
+import GPT_SoVITS.utils
 import torch.nn as nn

 cnhubert_base_path = None
--- a/GPT_SoVITS/module/attentions.py
+++ b/GPT_SoVITS/module/attentions.py
@ -3,8 +3,8 @@ import torch
 from torch import nn
 from torch.nn import functional as F

-from module import commons
-from module.modules import LayerNorm
+from GPT_SoVITS.module import commons
+from GPT_SoVITS.module.modules import LayerNorm


 class Encoder(nn.Module):
--- a/GPT_SoVITS/module/models.py
+++ b/GPT_SoVITS/module/models.py
@ -7,19 +7,19 @@ import torch
 from torch import nn
 from torch.nn import functional as F

-from module import commons
-from module import modules
-from module import attentions
-from f5_tts.model import DiT
+from GPT_SoVITS.module import commons
+from GPT_SoVITS.module import modules
+from GPT_SoVITS.module import attentions
+from GPT_SoVITS.f5_tts.model import DiT
 from torch.nn import Conv1d, ConvTranspose1d, Conv2d
 from torch.nn.utils import weight_norm, remove_weight_norm, spectral_norm
-from module.commons import init_weights, get_padding
-from module.mrte_model import MRTE
-from module.quantize import ResidualVectorQuantizer
+from GPT_SoVITS.module.commons import init_weights, get_padding
+from GPT_SoVITS.module.mrte_model import MRTE
+from GPT_SoVITS.module.quantize import ResidualVectorQuantizer

 # from text import symbols
-from text import symbols as symbols_v1
-from text import symbols2 as symbols_v2
+from GPT_SoVITS.text import symbols as symbols_v1
+from GPT_SoVITS.text import symbols2 as symbols_v2
 from torch.cuda.amp import autocast
 import contextlib
 import random
--- a/GPT_SoVITS/module/modules.py
+++ b/GPT_SoVITS/module/modules.py
@ -7,9 +7,9 @@ from torch.nn import functional as F
 from torch.nn import Conv1d
 from torch.nn.utils import weight_norm, remove_weight_norm

-from module import commons
-from module.commons import init_weights, get_padding
-from module.transforms import piecewise_rational_quadratic_transform
+from GPT_SoVITS.module import commons
+from GPT_SoVITS.module.commons import init_weights, get_padding
+from GPT_SoVITS.module.transforms import piecewise_rational_quadratic_transform
 import torch.distributions as D


--- a/GPT_SoVITS/module/mrte_model.py
+++ b/GPT_SoVITS/module/mrte_model.py
@ -3,7 +3,7 @@
 import torch
 from torch import nn
 from torch.nn.utils import remove_weight_norm, weight_norm
-from module.attentions import MultiHeadAttention
+from GPT_SoVITS.module.attentions import MultiHeadAttention


 class MRTE(nn.Module):
--- a/GPT_SoVITS/module/quantize.py
+++ b/GPT_SoVITS/module/quantize.py
@ -12,7 +12,7 @@ import typing as tp
 import torch
 from torch import nn

-from module.core_vq import ResidualVectorQuantization
+from GPT_SoVITS.module.core_vq import ResidualVectorQuantization


@dataclass
--- a/GPT_SoVITS/text/init.py
+++ b/GPT_SoVITS/text/init.py
@ -4,8 +4,8 @@ import os
 # else:
 #   from text.symbols2 import symbols

-from text import symbols as symbols_v1
-from text import symbols2 as symbols_v2
+from GPT_SoVITS.text import symbols as symbols_v1
+from GPT_SoVITS.text import symbols2 as symbols_v2

 _symbol_to_id_v1 = {s: i for i, s in enumerate(symbols_v1.symbols)}
 _symbol_to_id_v2 = {s: i for i, s in enumerate(symbols_v2.symbols)}
--- a/GPT_SoVITS/text/chinese.py
+++ b/GPT_SoVITS/text/chinese.py
@ -4,9 +4,9 @@ import re
 import cn2an
 from pypinyin import lazy_pinyin, Style

-from text.symbols import punctuation
-from text.tone_sandhi import ToneSandhi
-from text.zh_normalization.text_normlization import TextNormalizer
+from GPT_SoVITS.text.symbols import punctuation
+from GPT_SoVITS.text.tone_sandhi import ToneSandhi
+from GPT_SoVITS.text.zh_normalization.text_normlization import TextNormalizer

 normalizer = lambda x: cn2an.transform(x, "an2cn")

--- a/GPT_SoVITS/text/cleaner.py
+++ b/GPT_SoVITS/text/cleaner.py
@ -1,4 +1,4 @@
-from text import cleaned_text_to_sequence
+from GPT_SoVITS.text import cleaned_text_to_sequence
 import os
 # if os.environ.get("version","v1")=="v1":
 #     from text import chinese
@ -7,8 +7,8 @@ import os
 #     from text import chinese2 as chinese
 #     from text.symbols2 import symbols

-from text import symbols as symbols_v1
-from text import symbols2 as symbols_v2
+from GPT_SoVITS.text import symbols as symbols_v1
+from GPT_SoVITS.text import symbols2 as symbols_v2

 special = [
    # ("%", "zh", "SP"),
@ -34,7 +34,7 @@ def clean_text(text, language, version=None):
    for special_s, special_l, target_symbol in special:
        if special_s in text and language == special_l:
            return clean_special(text, language, special_s, target_symbol, version)
-    language_module = __import__("text." + language_module_map[language], fromlist=[language_module_map[language]])
+    language_module = __import__("GPT_SoVITS.text." + language_module_map[language], fromlist=[language_module_map[language]])
    if hasattr(language_module, "text_normalize"):
        norm_text = language_module.text_normalize(text)
    else:
--- a/GPT_SoVITS/text/english.py
+++ b/GPT_SoVITS/text/english.py
@ -4,12 +4,12 @@ import re
 import wordsegment
 from g2p_en import G2p

-from text.symbols import punctuation
+from GPT_SoVITS.text.symbols import punctuation

-from text.symbols2 import symbols
+from GPT_SoVITS.text.symbols2 import symbols

 from builtins import str as unicode
-from text.en_normalization.expend import normalize
+from GPT_SoVITS.text.en_normalization.expend import normalize
 from nltk.tokenize import TweetTokenizer

 word_tokenize = TweetTokenizer().tokenize
--- a/GPT_SoVITS/text/zh_normalization/init.py
+++ b/GPT_SoVITS/text/zh_normalization/init.py
@ -11,4 +11,4 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-from text.zh_normalization.text_normlization import *
+from GPT_SoVITS.text.zh_normalization.text_normlization import *
--- a/audio/ayaka/aux_ref_audio/11_audio.wav
+++ b/audio/ayaka/aux_ref_audio/11_audio.wav
--- a/audio/ayaka/aux_ref_audio/12_audio.wav
+++ b/audio/ayaka/aux_ref_audio/12_audio.wav
--- a/audio/ayaka/aux_ref_audio/13_audio.wav
+++ b/audio/ayaka/aux_ref_audio/13_audio.wav
--- a/audio/ayaka/aux_ref_audio/14_audio.wav
+++ b/audio/ayaka/aux_ref_audio/14_audio.wav
--- a/audio/ayaka/aux_ref_audio/15_audio.wav
+++ b/audio/ayaka/aux_ref_audio/15_audio.wav
--- a/audio/ayaka/aux_ref_audio/16_audio.wav
+++ b/audio/ayaka/aux_ref_audio/16_audio.wav
--- a/audio/ayaka/aux_ref_audio/17_audio.wav
+++ b/audio/ayaka/aux_ref_audio/17_audio.wav
--- a/audio/ayaka/aux_ref_audio/18_audio.wav
+++ b/audio/ayaka/aux_ref_audio/18_audio.wav
--- a/audio/ayaka/aux_ref_audio/19_audio.wav
+++ b/audio/ayaka/aux_ref_audio/19_audio.wav
--- a/audio/ayaka/aux_ref_audio/20_audio.wav
+++ b/audio/ayaka/aux_ref_audio/20_audio.wav
--- a/audio/ayaka/aux_ref_audio/21_audio.wav
+++ b/audio/ayaka/aux_ref_audio/21_audio.wav
--- a/audio/ayaka/aux_ref_audio/22_audio.wav
+++ b/audio/ayaka/aux_ref_audio/22_audio.wav
--- a/audio/ayaka/aux_ref_audio/23_audio.wav
+++ b/audio/ayaka/aux_ref_audio/23_audio.wav
--- a/audio/ayaka/aux_ref_audio/24_audio.wav
+++ b/audio/ayaka/aux_ref_audio/24_audio.wav
--- a/audio/ayaka/aux_ref_audio/25_audio.wav
+++ b/audio/ayaka/aux_ref_audio/25_audio.wav
--- a/audio/ayaka/aux_ref_audio/26_audio.wav
+++ b/audio/ayaka/aux_ref_audio/26_audio.wav
--- a/audio/ayaka/aux_ref_audio/27_audio.wav
+++ b/audio/ayaka/aux_ref_audio/27_audio.wav
--- a/audio/ayaka/aux_ref_audio/28_audio.wav
+++ b/audio/ayaka/aux_ref_audio/28_audio.wav
--- a/audio/ayaka/aux_ref_audio/29_audio.wav
+++ b/audio/ayaka/aux_ref_audio/29_audio.wav
--- a/audio/ayaka/aux_ref_audio/30_audio.wav
+++ b/audio/ayaka/aux_ref_audio/30_audio.wav
--- a/audio/ayaka/aux_ref_audio/31_audio.wav
+++ b/audio/ayaka/aux_ref_audio/31_audio.wav
--- a/audio/ayaka/aux_ref_audio/32_audio.wav
+++ b/audio/ayaka/aux_ref_audio/32_audio.wav
--- a/audio/ayaka/aux_ref_audio/33_audio.wav
+++ b/audio/ayaka/aux_ref_audio/33_audio.wav
--- a/audio/ayaka/aux_ref_audio/34_audio.wav
+++ b/audio/ayaka/aux_ref_audio/34_audio.wav
--- a/audio/ayaka/aux_ref_audio/35_audio.wav
+++ b/audio/ayaka/aux_ref_audio/35_audio.wav
--- a/audio/ayaka/aux_ref_audio/36_audio.wav
+++ b/audio/ayaka/aux_ref_audio/36_audio.wav
--- a/audio/ayaka/aux_ref_audio/37_audio.wav
+++ b/audio/ayaka/aux_ref_audio/37_audio.wav
--- a/audio/ayaka/aux_ref_audio/38_audio.wav
+++ b/audio/ayaka/aux_ref_audio/38_audio.wav
--- a/audio/ayaka/aux_ref_audio/39_audio.wav
+++ b/audio/ayaka/aux_ref_audio/39_audio.wav
--- a/audio/ayaka/aux_ref_audio/40_audio.wav
+++ b/audio/ayaka/aux_ref_audio/40_audio.wav
--- a/audio/ayaka/aux_ref_audio/41_audio.wav
+++ b/audio/ayaka/aux_ref_audio/41_audio.wav
--- a/audio/ayaka/aux_ref_audio/42_audio.wav
+++ b/audio/ayaka/aux_ref_audio/42_audio.wav
--- a/audio/ayaka/aux_ref_audio/43_audio.wav
+++ b/audio/ayaka/aux_ref_audio/43_audio.wav
--- a/audio/ayaka/aux_ref_audio/44_audio.wav
+++ b/audio/ayaka/aux_ref_audio/44_audio.wav
--- a/audio/ayaka/aux_ref_audio/45_audio.wav
+++ b/audio/ayaka/aux_ref_audio/45_audio.wav
--- a/audio/ayaka/aux_ref_audio/46_audio.wav
+++ b/audio/ayaka/aux_ref_audio/46_audio.wav
--- a/audio/ayaka/aux_ref_audio/47_audio.wav
+++ b/audio/ayaka/aux_ref_audio/47_audio.wav
--- a/audio/ayaka/aux_ref_audio/48_audio.wav
+++ b/audio/ayaka/aux_ref_audio/48_audio.wav
--- a/audio/ayaka/aux_ref_audio/49_audio.wav
+++ b/audio/ayaka/aux_ref_audio/49_audio.wav
--- a/audio/ayaka/aux_ref_audio/50_audio.wav
+++ b/audio/ayaka/aux_ref_audio/50_audio.wav
--- a/audio/ayaka/ref_audio/10_audio.wav
+++ b/audio/ayaka/ref_audio/10_audio.wav
--- a/inference.py
+++ b/inference.py
@ -0,0 +1,102 @@
+import torch
+import sounddevice as sd
+import time
+from queue import Queue
+from threading import Thread
+import os
+
+class TTS:
+    def __init__(self):
+        # Replace with your checkpoints and reference audio here
+        # Note: Using a venv may require updating the default paths provided here
+        self.bert_checkpoint = "GPT_SoVITS/pretrained_models/chinese-roberta-wwm-ext-large"
+        self.cnhuhbert_checkpoint = "GPT_SoVITS/pretrained_models/chinese-hubert-base"
+        # self.t2s_checkpoint = "GPT_SoVITS/pretrained_models/ayaka/Ayaka-e15.ckpt"
+        # self.vits_checkpoint = "GPT_SoVITS/pretrained_models/ayaka/Ayaka_e3_s1848_l32.pth"
+        self.t2s_checkpoint = "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s1bert25hz-5kh-longer-epoch=12-step=369668.ckpt"
+        self.vits_checkpoint = "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth"
+        self.ref_audio = "audio/ayaka/ref_audio/10_audio.wav"
+
+        from GPT_SoVITS.TTS_infer_pack.TTS import TTS, TTS_Config
+        
+        self.config = {
+            "custom": {
+                "bert_base_path": self.bert_checkpoint,
+                "cnhuhbert_base_path": self.cnhuhbert_checkpoint,
+                "device": "cuda" if torch.cuda.is_available() else "cpu",
+                "is_half": True,
+                "t2s_weights_path": self.t2s_checkpoint,
+                "vits_weights_path": self.vits_checkpoint,
+                "version": "v3"
+            }
+        }
+        
+        self.tts = TTS(TTS_Config(self.config))
+        
+        self.audio_queue = Queue()
+        self.generating_audio = False
+    
+    def audio_stream(self, start_time):
+        with sd.OutputStream(samplerate=32000, channels=1, dtype="int16") as stream:
+            while True:
+                sr, audio_data = self.audio_queue.get()
+                if audio_data is None:
+                    print(f"Stream Thread Done ({time.time() - start_time:.2f}s)")
+                    break
+                print((sr, audio_data))
+                stream.write(audio_data)
+            self.generating_audio = False
+    
+    def synthesize(self, text, start_time, generating_text=False):
+        if not self.generating_audio:
+            Thread(target=self.audio_stream, args=(start_time,)).start()
+            self.generating_audio = True
+
+        path = "audio/ayaka/aux_ref_audio"
+        aux_ref_audios = [f"{path}/{file_name}" for file_name in os.listdir(path)]
+
+        args = {
+            "text": text,
+            "text_lang": "en",
+            "ref_audio_path": self.ref_audio,
+            "aux_ref_audio_paths": aux_ref_audios,
+            "prompt_text": "Don't worry. Now that I've experienced the event once already, I won't be easily frightened. I'll see you later. Have a lovely chat with your friend.",
+            "prompt_lang": "en",
+            "temperature": 0.8,
+            "top_k": 50,
+            "top_p": 0.9,
+            "parallel_infer": True,
+            "sample_steps": 32,
+            "super_sampling": True,
+            "speed_factor": 1,
+            "fragment_interval": 0.2
+            # "stream_output": True,
+            # "max_chunk_size": 20,
+        }
+        
+        if text:
+            print(f"Synthesis Start: {time.time() - start_time}")
+            generator = self.tts.run(args)
+            while True:
+                try:
+                    audio_chunk = next(generator)
+                    self.audio_queue.put(audio_chunk)
+                except StopIteration:
+                    break
+
+        if not generating_text:
+            self.audio_queue.put((None, None))
+        
+        print(f"Synthesis End ({time.time() - start_time:.2f}s)")
+
+# Usage
+tts = TTS()
+"""
+Time is only for debugging purposes. If not needed, feel free to remove.
+Since this TTS model was built to be paired with LLM text streaming, we use a generating_text bool
+this bool signifies if we are receiving the last chunk of streamed text (hence if we are generating anymore).
+"""
+tts.synthesize("One day, a fierce storm rolled in, bringing heavy rain and strong winds that threatened to destroy the wheat crops.", time.time(), False)
+while tts.generating_audio:
+    time.sleep(0.1)
+tts.synthesize("One day, a fierce storm rolled in, bringing heavy rain and strong winds that threatened to destroy the wheat crops.", time.time(), False)