训练温州方言ASR模型
这篇文章主要记录了我是如何基于这个阿里开源的FunASR来训练方言模型,训练温州方言ASR,基于SenseVoiceSmall训练国内方言模型。
热爱生活,热爱程序
这篇文章主要详细记录了我是如何在Linux系统中通过源码编译GPU版本的FunASR的过程,包括model.torchscript模型的转换。虽然可以直接拉取官方的docker镜像,但是镜像拉取速度很慢,并且有些公司不让使用docker在生产环境中。这里就记录了自己的实操过程,希望对你们有帮助。
Fun-ASR-Nano-2512 是由阿里巴巴旗下的通义实验室开源的语音识别模型,通义实验室之前还开源了 SenseVoiceSmall 和 Paraformer 模型,这篇文章使用三种模型对多种方言,以及真实电话录音进行对比测试,在开源的数据集中评估的结果官方已经给出,这里使用自己的数据测试。
这是基于FunASR开发的一套语音识别接口,可私有化部署语音识别接口,可以准确识别通话录音,会议录音,可区分说话人,部署简单,支持在Linux服务器中部署。
这篇博文详细记录了我给一家公司训练外呼用的ASR模型,开源的ASR模型通常在外呼中识别的准确率偏低,这里使用了16万多条真实通话录音进行训练,真实的通话噪音,基于优秀的SenseVoiceSmall模型训练,训练后的准确率高于原始模型。
这篇文章主要记录了我开发的一款可支持分布式多服务器多显卡部署的区分说话人并语音识别的接口,适合给公司内部机房部署使用减少开支和确保数据安全。该接口基于FunASR来开发使用fastapi编写接口,使用celery来做分布式异步框架,使用redis做消息队列和缓存结果,可以支持高并发请求,使用公司部署。
这篇文章主要讲解如何在Linux服务器中部署triton_gpu方式推理的SenseVoiceSmall接口,支持高并发,转写速度快,适合在公司生产环境中使用,支持大规模并发转写,在A100显卡上,转写10小时音频,只需26秒完成,速度极快。