Update TTS.py

2025-12-21 04:27:03 +08:00 · 2024-06-10 13:27:54 +08:00 · 2024-06-10 13:27:54 +08:00 · a61f007060
commit a61f007060
parent 347dcd7d76
1 changed files with 46 additions and 1 deletions
--- a/GPT_SoVITS/TTS_infer_pack/TTS.py
+++ b/GPT_SoVITS/TTS_infer_pack/TTS.py
@ -901,10 +901,53 @@ class TTS:
            # audio = [item for batch in audio for item in batch]
            audio = sum(audio, [])
        def ms_to_srt_time(ms):
            N = int(ms)
            hours, remainder = divmod(N, 3600000)
            minutes, remainder = divmod(remainder, 60000)
            seconds, milliseconds = divmod(remainder, 1000)
            timesrt = f"{hours:02d}:{minutes:02d}:{seconds:02d},{milliseconds:03d}"
            # print(timesrt)
            return timesrt
        import soundfile as sf
        print("打印")
        text = ""
        with open(r'./srt/tts-out.txt', 'r',encoding='utf-8') as f:
            text = f.read()
        text_list = eval(text)
        audio_samples = 0
        srtlines = []
        audio_opt = []
        try:
            num = 0
            for x in audio:
                ad = (np.concatenate([x], 0) * 32768).astype(np.int16)
                srtline_begin=ms_to_srt_time(audio_samples*1000.0 / int(sr))
                audio_samples += ad.size
                srtline_end=ms_to_srt_time(audio_samples*1000.0 / int(sr))
                audio_opt.append(ad)
                srtlines.append(f"{len(audio_opt):02d}\n")
                srtlines.append(srtline_begin+' --> '+srtline_end+"\n")
                srtlines.append(text_list[num]+"\n\n")
                num += 1
        except Exception as e:
            print(e)
        audio = np.concatenate(audio, 0)
        audio = (audio * 32768).astype(np.int16) 
        with open('./srt/tts-out.srt', 'w', encoding='utf-8') as f:
            f.writelines(srtlines)
        try:
            if speed_factor != 1.0:
                audio = speed_change(audio, speed=speed_factor, sr=int(sr))
@ -916,6 +959,8 @@ class TTS:
 def speed_change(input_audio:np.ndarray, speed:float, sr:int):
    # 将 NumPy 数组转换为原始 PCM 流
    raw_audio = input_audio.astype(np.int16).tobytes()