fix

2026-06-04 21:45:30 +08:00 · 2025-04-16 09:36:27 +03:00 · 2025-04-16 09:36:27 +03:00 · 7bf0088b05
commit 7bf0088b05
parent 4354225311 defa0c025c
9 changed files with 51 additions and 48 deletions
--- a/4
+++ b/4
@ -17,7 +17,7 @@ RUN apt-get update && \
 # Copy only requirements.txt initially to leverage Docker cache
 WORKDIR /workspace
 COPY requirements.txt /workspace/
-RUN pip install --no-cache-dir -r requirements.txt
+RUN CMAKE_POLICY_VERSION_MINIMUM=3.5 pip install --no-cache-dir -r requirements.txt
 # Define a build-time argument for image type
 ARG IMAGE_TYPE=full
@ -39,4 +39,4 @@ COPY . /workspace
 EXPOSE 9871 9872 9873 9874 9880
-CMD ["python", "api.py"]
+CMD ["python", "api.py"]
--- a/api.py
+++ b/api.py
@ -173,6 +173,9 @@ import config as global_config
 import logging
 import subprocess
 import nltk
 nltk.download('averaged_perceptron_tagger_eng')
 class DefaultRefer:
    def __init__(self, path, text, language):
@ -1086,9 +1089,10 @@ async def tts_endpoint(request: Request):
@app.get("/")
 async def tts_endpoint(
-        refer_wav_path: str = None,
+        refer_wav_path: str = "saotome/saotome-6s.wav",
-        prompt_text: str = None,
+        prompt_text: str = "今日は友達と一緒に映画を見に行く予定ですが、天気が悪くて少し心配です。",
-        prompt_language: str = None,
+        prompt_language: str = "all_ja",
        character: str = "saotome",
        text: str = None,
        text_language: str = None,
        cut_punc: str = None,
@ -1096,10 +1100,11 @@ async def tts_endpoint(
        top_p: float = 1.0,
        temperature: float = 1.0,
        speed: float = 1.0,
-        inp_refs: list = Query(default=[]),
+        inp_refs: list = Query(default=["saotome/saotome-10s.wav", "saotome/refs/ref1.wav", "saotome/refs/ref2.wav", "saotome/refs/ref3.wav", "saotome/refs/ref4.wav"]),
        sample_steps: int = 32,
        if_sr: bool = False
 ):
    print(f"the base path is {refer_wav_path}")
    return handle(refer_wav_path, prompt_text, prompt_language, text, text_language, cut_punc, top_k, top_p, temperature, speed, inp_refs, sample_steps, if_sr)
--- a/requirements.txt
+++ b/requirements.txt
@ -1,42 +1,40 @@
-numpy==1.23.4
+numpy==1.23.4  
-scipy
+scipy==1.13.1  
-tensorboard
+tensorboard==2.19.0  
-librosa==0.9.2
+librosa==0.9.2  
-numba==0.56.4
+numba==0.56.4  
-pytorch-lightning
+pytorch-lightning==2.5.1  
-gradio>=4.0,<=4.24.0
+gradio==4.24.0  
-ffmpeg-python
+ffmpeg-python==0.2.0  
-onnxruntime; sys_platform == 'darwin'
+onnxruntime==1.19.2 #(for macOS)  
-onnxruntime-gpu; sys_platform != 'darwin'
+onnxruntime-gpu==1.19.2 #(for non-macOS)  
-tqdm
+tqdm==4.67.1  
-funasr==1.0.27
+funasr==1.0.27  
-torch<2.4
+cn2an==0.5.23  
-cn2an
+pypinyin==0.53.0  
-pypinyin
+pyopenjtalk==0.4.0  
-pyopenjtalk>=0.3.4
+g2p-en==2.1.0  
-g2p_en
+torchaudio==2.6.0  
-torchaudio
+modelscope==1.10.0  
-modelscope==1.10.0
+sentencepiece==0.2.0  
-sentencepiece
+transformers==4.50.0  
-transformers>=4.43
+peft==0.15.0  
-peft
+chardet==5.2.0  
-chardet
+PyYAML==6.0.2  
-PyYAML
+psutil==7.0.0  
-psutil
+jieba_fast==0.53  
-jieba_fast
+jieba==0.42.1  
-jieba
+split-lang==2.1.0  
-split-lang
+fast-langdetect==0.3.1  
-fast_langdetect>=0.3.0
+faster-whisper==1.1.1  
-Faster_Whisper
+wordsegment==1.3.1  
-wordsegment
+rotary-embedding-torch==0.8.6  
-rotary_embedding_torch
+ToJyutping==3.2.0  
-ToJyutping 
+g2pk2==0.0.3  
-g2pk2
+ko-pron==1.3  
-ko_pron
+opencc==1.1.1 #(for Linux)  
-opencc; sys_platform != 'linux'
+python-mecab-ko==1.3.7 #(not for Windows)  
-opencc==1.1.1; sys_platform == 'linux'
+fastapi==0.112.1 # (since <0.112.2)  
-python_mecab_ko; sys_platform != 'win32'
+x-transformers==2.1.37  
-fastapi<0.112.2
+torchmetrics==1.5.0  
-x_transformers
+attrdict==2.0.1
 torchmetrics<=1.5
 attrdict
--- a/saotome/refs/ref1.wav
+++ b/saotome/refs/ref1.wav
--- a/saotome/refs/ref2.wav
+++ b/saotome/refs/ref2.wav
--- a/saotome/refs/ref3.wav
+++ b/saotome/refs/ref3.wav
--- a/saotome/refs/ref4.wav
+++ b/saotome/refs/ref4.wav
--- a/saotome/saotome-10s.wav
+++ b/saotome/saotome-10s.wav
--- a/saotome/saotome-6s.wav
+++ b/saotome/saotome-6s.wav