1. 查看插入的显卡信息
在没有安装显卡驱动之前,可以使用下面的命令查看显卡信息,获取显卡型号,从而安装对应的显卡驱动
lspci | grep -E "3D|Display"
2. 下载并安装显卡驱动
2.1 下载
可以访问下面的官方地址选择需要下载的驱动
https://www.nvidia.cn/drivers
这里给一个当时版本的驱动下载链接,对应的是Linux_x64,Tesla T4显卡驱动
https://cn.download.nvidia.com/tesla/595.58.03/NVIDIA-Linux-x86_64-595.58.03.run
2.2 安装
安装之前先进行下面的操作
apt --purge autoremove '*nvidia*'
apt autoremove
apt install build-essential gcc-multilib dkms -y
禁用nouveau
vim /etc/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
options nouveau modeset=0
更新内核镜像并重启
update-initramfs -u
reboot
查看是否禁用成功,执行下面的命令,如果没有内容输出说明禁用成功
lsmod | grep nouveau
最后执行下面的命令安装显卡驱动
./NVIDIA-Linux-x86_64-595.58.03.run
安装完成之后执行下面的命令,如果有显卡驱动版本信息输出,说明安装成功
nvidia-smi
3. 下载并安装CUDA
3.1 下载
首先安装多线程下载器
apt-get install aria2 -y
然后使用aria2c下载CUDA
aria2c -x 16 -s 16 -c https://developer.download.nvidia.com/compute/cuda/13.2.1/local_installers/cuda_13.2.1_595.58.03_linux.run
这里下载的是适配Ubuntu 22.04的,如果你需要适配其它系统或者下载其它版本的CUDA,可以访问官方网站选择你需要的下载
https://developer.nvidia.com/cuda-toolkit-archive
3.2 安装
./cuda_13.2.1_595.58.03_linux.run
3.3 配置系统环境变量
vim ~/.bashrc
在文件的末尾写入下面的内容
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
最后一定要记得执行下面的命令
source ~/.bashrc
然后执行下面命令,如果有CUDA版本信息输出,说明安装并配置好了系统环境变量
nvcc -V
4. 下载并安装CUDNN
wget https://developer.download.nvidia.com/compute/cudnn/9.21.0/local_installers/cudnn-local-repo-ubuntu2204-9.21.0_1.0-1_amd64.deb
sudo dpkg -i cudnn-local-repo-ubuntu2204-9.21.0_1.0-1_amd64.deb
sudo cp /var/cudnn-local-repo-ubuntu2204-9.21.0/cudnn-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudnn
5. 安装依赖
pip install -U qwen-asr[vllm]
pip install -U flash-attn --no-build-isolation
如果运行内存小于96GB,可以替换下面的命令安装flash-attn依赖
MAX_JOBS=4 pip install -U flash-attn --no-build-isolation
注意:只有当模型以torch.float16或torch.bfloat16格式加载时,才能使用FlashAttention 2
6. 启动服务
启动服务之前,先下载模型,如果是国外的服务器,直接执行命令即可,默认会从huggingface中下载模型。国内的服务器,可以使用modelscope命令下载模型,然后启动的时候指定模型绝对路径。
国外服务器启动命令
qwen-asr-serve Qwen/Qwen3-ASR-1.7B --gpu-memory-utilization 0.8 --host 0.0.0.0 --port 8000
国内服务器启动命令
先下面模型
modelscope download --model Qwen/Qwen3-ASR-1.7B --local_dir ./
然后执行下面的命令启动服务
qwen-asr-serve Qwen/Qwen3-ASR-1.7B --gpu-memory-utilization 0.8 --host 0.0.0.0 --port 8000
上面两种方式都是使用vLLM作为后端推理引擎,如果需要其它的推理引擎,可以看官方的文档。
https://modelscope.cn/models/Qwen/Qwen3-ASR-1.7B
参考文档
https://docs.vllm.ai/projects/recipes/en/latest/Qwen/Qwen3-ASR.html
7. 启动Web UI
生成ssl证书
openssl req -x509 -newkey rsa:2048 \
-keyout key.pem -out cert.pem \
-days 365 -nodes \
-subj "/CN=localhost"
可以使用下面的命令启动Web UI
qwen-asr-demo \
--asr-checkpoint /usr/local/src/asr/qwen3-asr/models/Qwen3-ASR-1.7B \
--aligner-checkpoint /usr/local/src/asr/qwen3-asr/models/Qwen3-ForcedAligner-0.6B \
--backend transformers \
--cuda-visible-devices 0 \
--backend-kwargs '{"device_map":"cuda:0","dtype":"bfloat16","max_inference_batch_size":8,"max_new_tokens":256}' \
--aligner-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}' \
--ip 0.0.0.0 --port 8000 \
--ssl-certfile /usr/local/src/asr/qwen3-asr/ssl/cert.pem \
--ssl-keyfile /usr/local/src/asr/qwen3-asr/ssl/key.pem \
--no-ssl-verify
然后就可以在浏览器中输入http://your_ip:8000就可以访问到前端页面了
8. 其它
如果不会部署,也可以联系lukeewin01进行有偿远程部署。具体更多的ASR项目部署的视频可以看我发布到B站的视频,B站搜索“编程分享录“就可以找到我了。还没关注也可以关注一下,关注不迷路。
Q.E.D.


