fix: 修复参考音频泄露问题 (#1176)

* Update TextPreprocessor.py

* fix: 修复参考音频泄露的问题。

1. 之前变量命名有错误
2. 还存在参考音频泄露问题。

* 调整一下判断纯符号所处的函数,更符号逻辑
This commit is contained in:
CyberWon 2024-06-11 20:45:35 +08:00 committed by GitHub
parent 277b258360
commit aee85fd98f
No known key found for this signature in database
GPG Key ID: B5690EEEBB952194

View File

@ -56,7 +56,7 @@ class TextPreprocessor:
def preprocess(self, text:str, lang:str, text_split_method:str)->List[Dict]:
print(i18n("############ 切分文本 ############"))
texts = self.replace_consecutive_punctuation(texts)
text = self.replace_consecutive_punctuation(text) # 变量命名应该是写错了
texts = self.pre_seg_text(text, lang, text_split_method)
result = []
print(i18n("############ 提取文本Bert特征 ############"))
@ -94,6 +94,9 @@ class TextPreprocessor:
for text in _texts:
# 解决输入目标文本的空行导致报错的问题
if (len(text.strip()) == 0):
continue
if not re.sub("\W+", "", text):
# 检测一下,如果是纯符号,就跳过。
continue
if (text[-1] not in splits): text += "" if lang != "en" else "."