KamioRinn 6df61f58e4
语言分割及格式化优化 (#2488)
* better LangSegmenter

* add version num2str

* better version num2str

* sync fast infer

* sync api

* remove duplicate spaces

* remove unnecessary code

---------

Co-authored-by: RVC-Boss <129054828+RVC-Boss@users.noreply.github.com>
2025-06-27 11:58:41 +08:00
..
2025-06-27 11:58:41 +08:00

Supported NSW (Non-Standard-Word) Normalization

NSW type raw normalized
serial number 电影中梁朝伟扮演的陈永仁的编号27149 电影中梁朝伟扮演的陈永仁的编号二七一四九
cardinal 这块黄金重达324.75克
我们班的最高总分为583分
这块黄金重达三百二十四点七五克
我们班的最高总分为五百八十三分
numeric range 12~23
-1.5~2
十二到二十三
负一点五到二
date 她出生于86年8月18日她弟弟出生于1995年3月1日 她出生于八六年八月十八日, 她弟弟出生于一九九五年三月一日
time 等会请在12:05请通知我 等会请在十二点零五分请通知我
temperature 今天的最低气温达到-10°C 今天的最低气温达到零下十度
fraction 现场有7/12的观众投出了赞成票 现场有十二分之七的观众投出了赞成票
percentage 明天有62的概率降雨 明天有百分之六十二的概率降雨
money 随便来几个价格12块534.5元20.1万 随便来几个价格十二块五,三十四点五元,二十点一万
telephone 这是固话0421-33441122
这是手机+86 18544139121
这是固话零四二一三三四四一一二二
这是手机八六一八五四四一三九一二一

References

Pull requests #658 of DeepSpeech