Merge 19f51ae6f9b3a3dfa12758afb5e8f7e10cd0275d into 08d627c3338173c3229286d8787060d6559fe0f8

2026-06-04 05:01:27 +08:00 · 2026-06-01 19:55:42 +08:00 · 2026-06-01 19:55:42 +08:00 · bcdfbbd33f
commit bcdfbbd33f
parent 08d627c333 19f51ae6f9
1 changed files with 259 additions and 0 deletions
--- a/asr_api.py
+++ b/asr_api.py
@ -0,0 +1,259 @@
+"""
+# asr_api.py usage
+
+` python asr_api.py -a 127.0.0.1 -p 9881 `
+
+## 调用:
+
+### 语音转文本
+
+endpoint: `/asr`
+
+GET:
+`http://127.0.0.1:9881/asr?audio_path=data/voice_ref/ref.wav&language=zh`
+
+POST:
+```json
+{
+  "audio_path": "data/voice_ref/ref.wav",
+  "language": "zh",
+  "engine": "auto",
+  "model_size": "large-v3",
+  "precision": "float16"
+}
+```
+
+RESP:
+成功: {"text": "..."}
+失败: {"message": "..."} (http code 400)
+"""
+
+import argparse
+import os
+import signal
+import sys
+from typing import Optional
+
+import torch
+from fastapi import FastAPI
+from fastapi.responses import JSONResponse
+from pydantic import BaseModel
+
+now_dir = os.getcwd()
+sys.path.append(now_dir)
+sys.path.append(f"{now_dir}/GPT_SoVITS")
+
+from faster_whisper import WhisperModel
+
+from tools.asr.config import get_models
+from tools.asr.fasterwhisper_asr import download_model, language_code_list
+from tools.asr.funasr_asr import only_asr
+from tools.my_utils import load_cudnn
+
+
+load_cudnn()
+
+parser = argparse.ArgumentParser(description="GPT-SoVITS ASR api")
+parser.add_argument("-a", "--bind_addr", type=str, default="127.0.0.1", help="default: 127.0.0.1")
+parser.add_argument("-p", "--port", type=int, default=9881, help="default: 9881")
+parser.add_argument(
+    "-s",
+    "--model_size",
+    type=str,
+    default="large-v3",
+    choices=get_models(),
+    help="default: large-v3",
+)
+parser.add_argument(
+    "-l",
+    "--language",
+    type=str,
+    default="auto",
+    choices=language_code_list,
+    help="default language",
+)
+parser.add_argument(
+    "-pr",
+    "--precision",
+    type=str,
+    default="float16",
+    choices=["float16", "float32", "int8"],
+    help="compute precision for faster-whisper",
+)
+args = parser.parse_args()
+
+host = args.bind_addr
+port = args.port
+argv = sys.argv
+
+APP = FastAPI()
+
+
+class ASRRequest(BaseModel):
+    audio_path: Optional[str] = None
+    language: Optional[str] = None
+    engine: str = "auto"  # auto | fasterwhisper | funasr
+    model_size: Optional[str] = None
+    precision: Optional[str] = None
+
+
+whisper_models = {}
+whisper_model_paths = {}
+
+
+def handle_control(command: str):
+    if command == "restart":
+        os.execl(sys.executable, sys.executable, *argv)
+    elif command == "exit":
+        os.kill(os.getpid(), signal.SIGTERM)
+        exit(0)
+
+
+def check_params(req: dict):
+    audio_path = req.get("audio_path")
+    language = req.get("language", "auto")
+    engine = req.get("engine", "auto")
+    model_size = req.get("model_size", args.model_size)
+    precision = req.get("precision", args.precision)
+
+    if not audio_path:
+        return JSONResponse(status_code=400, content={"message": "audio_path is required"})
+    audio_path = os.path.abspath(audio_path)
+    if not os.path.isfile(audio_path):
+        return JSONResponse(status_code=400, content={"message": f"audio_path not found: {audio_path}"})
+    req["audio_path"] = audio_path
+    if language not in language_code_list:
+        return JSONResponse(status_code=400, content={"message": f"language not supported: {language}"})
+    if engine not in ["auto", "fasterwhisper", "funasr"]:
+        return JSONResponse(status_code=400, content={"message": f"engine not supported: {engine}"})
+    if model_size not in get_models():
+        return JSONResponse(status_code=400, content={"message": f"model_size not supported: {model_size}"})
+    if precision not in ["float16", "float32", "int8"]:
+        return JSONResponse(status_code=400, content={"message": f"precision not supported: {precision}"})
+    return None
+
+
+def get_whisper_model(model_size: str, precision: str):
+    key = f"{model_size}:{precision}"
+    if key in whisper_models:
+        return whisper_models[key]
+
+    if model_size not in whisper_model_paths:
+        whisper_model_paths[model_size] = download_model(model_size)
+    model_path = whisper_model_paths[model_size]
+
+    device = "cuda" if torch.cuda.is_available() else "cpu"
+    model = WhisperModel(model_path, device=device, compute_type=precision)
+    whisper_models[key] = model
+    return model
+
+
+def asr_with_fasterwhisper(audio_path: str, language: str, model_size: str, precision: str):
+    model = get_whisper_model(model_size=model_size, precision=precision)
+    fw_language = None if language == "auto" else language
+    segments, info = model.transcribe(
+        audio=audio_path,
+        beam_size=5,
+        vad_filter=True,
+        vad_parameters=dict(min_silence_duration_ms=700),
+        language=fw_language,
+    )
+
+    # 中文/粤语默认转到 FunASR，文本稳定性通常更好
+    if info.language in ["zh", "yue"]:
+        text = only_asr(audio_path, language=info.language.lower())
+        if text:
+            return text
+
+    text = "".join(segment.text for segment in segments).strip()
+    return text
+
+
+def asr_with_funasr(audio_path: str, language: str):
+    lang = language if language in ["zh", "yue"] else "zh"
+    return (only_asr(audio_path, language=lang) or "").strip()
+
+
+async def asr_handle(req: dict):
+    check_res = check_params(req)
+    if check_res is not None:
+        return check_res
+
+    audio_path = req["audio_path"]
+    language = req.get("language", args.language)
+    engine = req.get("engine", "auto")
+    model_size = req.get("model_size", args.model_size)
+    precision = req.get("precision", args.precision)
+
+    try:
+        if engine == "funasr":
+            text = asr_with_funasr(audio_path=audio_path, language=language)
+        elif engine == "fasterwhisper":
+            text = asr_with_fasterwhisper(
+                audio_path=audio_path,
+                language=language,
+                model_size=model_size,
+                precision=precision,
+            )
+        else:
+            # auto: 中文/粤语优先 FunASR，其它语种走 Faster-Whisper
+            if language in ["zh", "yue"]:
+                text = asr_with_funasr(audio_path=audio_path, language=language)
+                if not text:
+                    text = asr_with_fasterwhisper(
+                        audio_path=audio_path,
+                        language=language,
+                        model_size=model_size,
+                        precision=precision,
+                    )
+            else:
+                text = asr_with_fasterwhisper(
+                    audio_path=audio_path,
+                    language=language,
+                    model_size=model_size,
+                    precision=precision,
+                )
+
+        return JSONResponse(status_code=200, content={"text": text})
+    except Exception as e:
+        return JSONResponse(status_code=400, content={"message": "asr failed", "Exception": str(e)})
+
+
+@APP.get("/control")
+async def control(command: str = None):
+    if command is None:
+        return JSONResponse(status_code=400, content={"message": "command is required"})
+    handle_control(command)
+
+
+@APP.get("/asr")
+async def asr_get_endpoint(
+    audio_path: str = None,
+    language: str = args.language,
+    engine: str = "auto",
+    model_size: str = args.model_size,
+    precision: str = args.precision,
+):
+    req = {
+        "audio_path": audio_path,
+        "language": language.lower() if language else "auto",
+        "engine": engine,
+        "model_size": model_size,
+        "precision": precision,
+    }
+    return await asr_handle(req)
+
+
+@APP.post("/asr")
+async def asr_post_endpoint(request: ASRRequest):
+    req = request.dict()
+    req["language"] = (req.get("language") or args.language).lower()
+    req["model_size"] = req.get("model_size") or args.model_size
+    req["precision"] = req.get("precision") or args.precision
+    return await asr_handle(req)
+
+
+if __name__ == "__main__":
+    import uvicorn
+
+    uvicorn.run(APP, host=host, port=port, workers=1)