1. 默认模式运行

简单运行中全部使用默认参数,默认模型为small模型,默认模型加载路径在当前用户的cached目录中,运行之后会默认识别音频中的语言。

whisper input.wav
  1. 指定模型

若要修改默认的模型,可以添加–model 模型名参数的方式指定使用哪一种模型进行转录。

下面是可以切换的模型:

tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large-v1,large-v2,large

下面是官方给出的各个模型的情况:

下面是如何指定模型例子:

whisper --model large input.wav
  1. 指定转录后保存文件的格式

可选的文件格式有:

txt,vtt,srt,tsv,json

其中默认是输出所有格式。

如果想要明确指定某一种格式,可以使用–output_format 格式的方式,请看下面的例子:

whisper --model large --output_format srt input.wav
  1. 指定使用CPU还是CUDA来转录

通过参数–device来指定,例子:(如果cuda可用,默认优先使用cuda,cuda指的是使用显卡来转录)

whisper --model large --output_format srt --device cuda input.wav
  1. 翻译成英语

任何支持的语言可以直接翻译成英语输出,使用–task translate,默认它的值为transcribe,表示转录,例子:

whisper --model large --output_format srt --device cuda --task translate input.wav
  1. 指定语言

使用–language来指定音频中的语言,例子:

whisper --model large --output_format srt --device cuda --task transcribe --language Chinese input.wav
  1. 指定输出位置

使用–output_dir,默认为当前运行命令的目前,例子:

whisper --model large --output_format srt --output_dir ../output --language Chinese input.wav
  1. 指定是否在控制台打印输出

使用–verbose,值为布尔类型,默认为True,例子:

whisper --model large --verbose False --language Chinese input.wav
  1. 指定是否返回字时间戳

使用–word_timestamps,值为布尔类型,默认为False,如果想要返回字级时间戳,可以把值改为True,例子:

whisper --model large --word_timestamps True input.wav
  1. 使用initial_prompt让其尽量输出简体中文

如果没有使用该参数,那么有可能会转录成繁体中文,例子:

whisper --model large --initial_prompt "转换为简体中文" input.wav

上面的方式是让其尽量转录成简体中文,不一定是简体中文。


  1. faster-whisper使用文档

1.1 模型

模型:默认medium。

"tiny", "base", "small", "medium", "large", "large-v2"

例子:

python faster-whisper.py --model large --inputs test.wav --output ./

1.2 指定输入音频

必须指定输入音频文件,例子:

python faster-whisper.py --inputs test.wav --output ./test.srt

1.3 指定保存文件路径

必须指定保存转录结果路径(包括文件名),例子:

python faster-whisper.py --inputs test.wav --output ./test.srt

1.4 指定精度

默认精度为int8,需要主要使用CPU必须指定为int8,否则会报错。可选的精度有int8,float16。

例子:

python faster-whisper.py --inputs test.wav --output ./test.srt --compute_type float16

1.5 指定使用CPU还是CUDA

通过参数–device来指定使用CPU还是CUDA来转录,默认使用CPU。

例子:

python faster-whisper.py --inputs test.wav --output ./test.srt --compute_type float16 --device cuda 

1.6 指定initial_prompt

通过–initial_prompt参数可以指定转录成简体中文还是繁体中文,例子:

python faster-whisper.py --inputs test.wav --output ./test.srt --compute_type float16 --device cuda --initial_prompt "转录为简体中文"

1.7 指定语言

通过–language来指定音频中的主要语言,默认不设置会自动识别,例子:

python faster-whisper.py --inputs test.wav --output ./test.srt --language zh

Q.E.D.


热爱生活,热爱程序