修改Dockerfile,使其直接利用最新的requirements.txt安装Python包;并在构建过程中预先下载moda ASR和nltk相关的模型到镜像中以便加快初次运行的速度

This commit is contained in:
Kenn Zhang 2024-01-27 15:15:08 +08:00
parent f9387e0af8
commit d86ffa2386
6 changed files with 22 additions and 21 deletions

7
Docker/download.py Normal file
View File

@ -0,0 +1,7 @@
# Download moda ASR related models
from modelscope import snapshot_download
model_dir = snapshot_download('damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch')
model_dir = snapshot_download('damo/speech_fsmn_vad_zh-cn-16k-common-pytorch')
model_dir = snapshot_download('damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch')

View File

@ -2,7 +2,7 @@
FROM cnstark/pytorch:2.0.1-py3.9.17-cuda11.8.0-ubuntu20.04
LABEL maintainer="breakstring@hotmail.com"
LABEL version="dev-20240123.03"
LABEL version="dev-20240127.f9387e0"
LABEL description="Docker image for GPT-SoVITS"
@ -18,27 +18,19 @@ RUN apt-get update && \
WORKDIR /workspace
COPY . /workspace
# install python packages
RUN pip install -r requirements.txt
# Download models
RUN chmod +x /workspace/Docker/download.sh && /workspace/Docker/download.sh
# 本应该从 requirements.txt 里面安装package但是由于funasr和modelscope的问题暂时先在后面手工安装依赖包吧
RUN pip install --no-cache-dir torch numpy scipy tensorboard librosa==0.9.2 numba==0.56.4 pytorch-lightning gradio==3.14.0 ffmpeg-python onnxruntime tqdm cn2an pypinyin pyopenjtalk g2p_en chardet transformers jieba psutil PyYAML
# 这里强制指定了modelscope和funasr的版本后面damo_asr的模型让它们自己下载
RUN pip install --no-cache-dir modelscope~=1.10.0 torchaudio sentencepiece funasr~=0.8.7
# Download moda ASR related
RUN python /workspace/Docker/download.py
# 先屏蔽掉,让容器里自己下载
# Clone damo_asr
#WORKDIR /workspace/tools/damo_asr/models
#RUN git clone --depth 1 https://www.modelscope.cn/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch.git speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch && \
# (cd speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch && git lfs pull)
#RUN git clone --depth 1 https://www.modelscope.cn/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch.git speech_fsmn_vad_zh-cn-16k-common-pytorch && \
# (cd speech_fsmn_vad_zh-cn-16k-common-pytorch && git lfs pull)
#RUN git clone --depth 1 https://www.modelscope.cn/iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch.git punc_ct-transformer_zh-cn-common-vocab272727-pytorch && \
# (cd punc_ct-transformer_zh-cn-common-vocab272727-pytorch && git lfs pull)
# Download nltk realted
RUN python -m nltk.downloader averaged_perceptron_tagger
RUN python -m nltk.downloader cmudict
#RUN parallel --will-cite -a /workspace/Docker/damo.sha256 "echo -n {} | sha256sum -c"
#WORKDIR /workspace
EXPOSE 9870
EXPOSE 9871

View File

@ -114,8 +114,9 @@ For UVR5 (Vocals/Accompaniment Separation & Reverberation Removal, additionally)
### Using Docker
#### docker-compose.yaml configuration
#### docker-compose.yaml configuration
0. Regarding image tags: Due to rapid updates in the codebase, the packaging of images with the 'latest' tag on [Docker Hub](https://hub.docker.com/r/breakstring/gpt-sovits) has been temporarily suspended, shifting instead to using the hash value of the most current commit from the targeted git repo. For instance, you might see image names and tags such as: breakstring/gpt-sovits:dev-20240127.f9387e0. This signifies the image was packaged for the commit f9387e0 on January 27, 2024. Additionally, when using these images, please remember to modify the parameters in your docker-compose.yaml or docker command line accordingly. Alternatively, you can build locally using a Dockerfile according to your own needs.
1. Environment Variables
- is_half: Controls half-precision/double-precision. This is typically the cause if the content under the directories 4-cnhubert/5-wav32k is not generated correctly during the "SSL extracting" step. Adjust to True or False based on your actual situation.

View File

@ -2,7 +2,7 @@ version: '3.8'
services:
gpt-sovits:
image: breakstring/gpt-sovits:dev-20240123.03
image: breakstring/gpt-sovits:dev-20240127.f9387e0
container_name: gpt-sovits-container
environment:
- is_half=False

View File

@ -103,7 +103,7 @@ brew install ffmpeg
### 在 Docker 中使用
#### docker-compose.yaml 设置
0. image的标签由于代码库更新很快所以在 [Docker Hub](https://hub.docker.com/r/breakstring/gpt-sovits) 上暂时不再打包 latest 标签的镜像转而通过当前针对的git repo中当前最新的commit的hash值。例如您会看到形如 breakstring/gpt-sovits:dev-20240127.f9387e0 这样的镜像名称和标签。即代表 2024年1月27日打包针对 f9387e0 这个commit 的镜像。同时,您在使用时请注意修改 docker-compose.yaml 或者 docker 命令行中的参数。或者在本地根据您自己的需求通过Dockerfile进行构建。
1. 环境变量:
- is_half: 半精度/双精度控制。在进行 "SSL extracting" 步骤时如果无法正确生成 4-cnhubert/5-wav32k 目录下的内容时一般都是它引起的可以根据实际情况来调整为True或者False。

View File

@ -99,8 +99,9 @@ brew install ffmpeg
### Dockerの使用
#### docker-compose.yamlの設定
#### docker-compose.yamlの設定
0. イメージのタグについて:コードベースの更新が速いため、[Docker Hub](https://hub.docker.com/r/breakstring/gpt-sovits) での最新latestタグのイメージのパッケージングを一時停止し、代わりに現在対象としているgitリポジトリの最新のコミットのハッシュ値を用います。例えば、breakstring/gpt-sovits:dev-20240127.f9387e0 のようなイメージ名とタグを見ることができます。これは、2024年1月27日にf9387e0のコミットに対してパッケージされたイメージを意味します。また、使用時はdocker-compose.yamlやdockerのコマンドラインのパラメータを変更することに注意してください。または、ご自身のニーズに合わせてDockerfileを使ってローカルでビルドすることができます。
1. 環境変数:
- `is_half`:半精度/倍精度の制御。"SSL抽出"ステップ中に`4-cnhubert/5-wav32k`ディレクトリ内の内容が正しく生成されない場合、通常これが原因です。実際の状況に応じてTrueまたはFalseに調整してください。