1. 查看插入的显卡信息

在没有安装显卡驱动之前，可以使用下面的命令查看显卡信息，获取显卡型号，从而安装对应的显卡驱动

lspci | grep -E "3D|Display"

2. 下载并安装显卡驱动

2.1 下载

可以访问下面的官方地址选择需要下载的驱动

https://www.nvidia.cn/drivers

这里给一个当时版本的驱动下载链接，对应的是Linux_x64，Tesla T4显卡驱动

https://cn.download.nvidia.com/tesla/595.58.03/NVIDIA-Linux-x86_64-595.58.03.run

2.2 安装

安装之前先进行下面的操作

apt --purge autoremove '*nvidia*'
apt autoremove
apt install build-essential gcc-multilib dkms -y

禁用nouveau

vim /etc/modprobe.d/blacklist-nouveau.conf

blacklist nouveau
options nouveau modeset=0

更新内核镜像并重启

update-initramfs -u
reboot

查看是否禁用成功，执行下面的命令，如果没有内容输出说明禁用成功

lsmod | grep nouveau

最后执行下面的命令安装显卡驱动

./NVIDIA-Linux-x86_64-595.58.03.run

安装完成之后执行下面的命令，如果有显卡驱动版本信息输出，说明安装成功

nvidia-smi

3. 下载并安装CUDA

3.1 下载

首先安装多线程下载器

apt-get install aria2 -y

然后使用aria2c下载CUDA

aria2c -x 16 -s 16 -c https://developer.download.nvidia.com/compute/cuda/13.2.1/local_installers/cuda_13.2.1_595.58.03_linux.run

这里下载的是适配Ubuntu 22.04的，如果你需要适配其它系统或者下载其它版本的CUDA，可以访问官方网站选择你需要的下载

https://developer.nvidia.com/cuda-toolkit-archive

3.2 安装

./cuda_13.2.1_595.58.03_linux.run

3.3 配置系统环境变量

vim ~/.bashrc

在文件的末尾写入下面的内容

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

最后一定要记得执行下面的命令

source ~/.bashrc

然后执行下面命令，如果有CUDA版本信息输出，说明安装并配置好了系统环境变量

nvcc -V

4. 下载并安装CUDNN

wget https://developer.download.nvidia.com/compute/cudnn/9.21.0/local_installers/cudnn-local-repo-ubuntu2204-9.21.0_1.0-1_amd64.deb
sudo dpkg -i cudnn-local-repo-ubuntu2204-9.21.0_1.0-1_amd64.deb
sudo cp /var/cudnn-local-repo-ubuntu2204-9.21.0/cudnn-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudnn

5. 安装依赖

pip install -U qwen-asr[vllm]
pip install -U flash-attn --no-build-isolation

如果运行内存小于96GB，可以替换下面的命令安装flash-attn依赖

MAX_JOBS=4 pip install -U flash-attn --no-build-isolation

注意：只有当模型以torch.float16或torch.bfloat16格式加载时，才能使用FlashAttention 2

6. 启动服务

启动服务之前，先下载模型，如果是国外的服务器，直接执行命令即可，默认会从huggingface中下载模型。国内的服务器，可以使用modelscope命令下载模型，然后启动的时候指定模型绝对路径。

国外服务器启动命令

qwen-asr-serve Qwen/Qwen3-ASR-1.7B --gpu-memory-utilization 0.8 --host 0.0.0.0 --port 8000

国内服务器启动命令

先下面模型

modelscope download --model Qwen/Qwen3-ASR-1.7B --local_dir ./

然后执行下面的命令启动服务

qwen-asr-serve Qwen/Qwen3-ASR-1.7B --gpu-memory-utilization 0.8 --host 0.0.0.0 --port 8000

上面两种方式都是使用vLLM作为后端推理引擎，如果需要其它的推理引擎，可以看官方的文档。

https://modelscope.cn/models/Qwen/Qwen3-ASR-1.7B

参考文档

https://docs.vllm.ai/projects/recipes/en/latest/Qwen/Qwen3-ASR.html

7. 启动Web UI

生成ssl证书

openssl req -x509 -newkey rsa:2048 \
  -keyout key.pem -out cert.pem \
  -days 365 -nodes \
  -subj "/CN=localhost"

可以使用下面的命令启动Web UI

qwen-asr-demo \
  --asr-checkpoint /usr/local/src/asr/qwen3-asr/models/Qwen3-ASR-1.7B \
  --aligner-checkpoint /usr/local/src/asr/qwen3-asr/models/Qwen3-ForcedAligner-0.6B \
  --backend transformers \
  --cuda-visible-devices 0 \
  --backend-kwargs '{"device_map":"cuda:0","dtype":"bfloat16","max_inference_batch_size":8,"max_new_tokens":256}' \
  --aligner-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}' \
  --ip 0.0.0.0 --port 8000 \
  --ssl-certfile /usr/local/src/asr/qwen3-asr/ssl/cert.pem \
  --ssl-keyfile /usr/local/src/asr/qwen3-asr/ssl/key.pem \
  --no-ssl-verify

然后就可以在浏览器中输入http://your_ip:8000就可以访问到前端页面了

8. 其它

如果不会部署，也可以联系lukeewin01进行有偿远程部署。具体更多的ASR项目部署的视频可以看我发布到B站的视频，B站搜索“编程分享录“就可以找到我了。还没关注也可以关注一下，关注不迷路。

Q.E.D.

Hi,Friend

部署Qwen3-ASR