1. 研究背景

在众多的开源ASR模型中，很多都称对国内很多方言可以识别，但经过实际测试，字错率太高无法商用。为了能进一步提升模型对特定方言的识别准确率，这里采集了一定数量的温州方言数据集，用于训练可以比较准确识别温州方言的ASR模型。

2. 运行环境

CPU	GPU	内存	OS	CUDA
i7 14700KF 28核心	3090Ti 24GB	64GB	ubuntu 24.04	12.8

这里使用了24小时30分钟的温州方言数据集分为三部分，训练集、验证集和测试集，每个集合不存在交叉。

训练集	验证集	测试集
7532条	400条	100条

这里基于阿里开源的SenseVoiceSmall和Paraformer_Streaming两个模型进行了训练，下图是截图自训练实时语音识别模型Paraformer_Streaming的loss曲线变化图，以及对应的训练日志。

这里只评估了非流式SenseVoiceSmall模型的字错率，其它非流式模型训练了两次，第一次训练后模型的字错率为23%，第二次字错率为20%。

下面是训练前后对照表格，cer越小越好

原生模型	第一次训练	第二次训练
0.94	0.23	0.20

评估真实截图如下所示：

下面是第一次训练后的评估真实截图：

下图是第二次训练后的评估真实截图：

第一次和第二次训练主要是lr设置的不同，以及在第二次训练时，剔除了一条异常数据。

Q.E.D.