1. 研究背景

在众多的开源ASR模型中,很多都称对国内很多方言可以识别,但经过实际测试,字错率太高无法商用。为了能进一步提升模型对特定方言的识别准确率,这里采集了一定数量的温州方言数据集,用于训练可以比较准确识别温州方言的ASR模型。

2. 运行环境

CPUGPU内存OSCUDA
i7 14700KF 28核心3090Ti 24GB64GBubuntu 24.0412.8

3. 数据集说明

这里使用了24小时30分钟的温州方言数据集分为三部分,训练集、验证集和测试集,每个集合不存在交叉。

训练集验证集测试集
7532条400条100条

4. 训练模型

这里基于阿里开源的SenseVoiceSmall和Paraformer_Streaming两个模型进行了训练,下图是截图自训练实时语音识别模型Paraformer_Streaming的loss曲线变化图,以及对应的训练日志。

image-20260329094030935 image-20260329094105812

5. 字错率评估

这里只评估了非流式SenseVoiceSmall模型的字错率,其它非流式模型训练了两次,第一次训练后模型的字错率为23%,第二次字错率为20%。

下面是训练前后对照表格,cer越小越好

原生模型第一次训练第二次训练
0.940.230.20

评估真实截图如下所示:

image-20260330015858059

下面是第一次训练后的评估真实截图:

image-20260330020024019

下图是第二次训练后的评估真实截图:

image-20260330020121967

第一次和第二次训练主要是lr设置的不同,以及在第二次训练时,剔除了一条异常数据。

Q.E.D.


热爱生活,热爱程序