记录基于FunASR训练的通话录音转写ASR模型
这篇博文详细记录了我给一家公司训练外呼用的ASR模型,开源的ASR模型通常在外呼中识别的准确率偏低,这里使用了16万多条真实通话录音进行训练,真实的通话噪音,基于优秀的SenseVoiceSmall模型训练,训练后的准确率高于原始模型。
热爱生活,热爱程序
这篇博文详细记录了我给一家公司训练外呼用的ASR模型,开源的ASR模型通常在外呼中识别的准确率偏低,这里使用了16万多条真实通话录音进行训练,真实的通话噪音,基于优秀的SenseVoiceSmall模型训练,训练后的准确率高于原始模型。
这篇文章主要记录了我开发的一款可支持分布式多服务器多显卡部署的区分说话人并语音识别的接口,适合给公司内部机房部署使用减少开支和确保数据安全。该接口基于FunASR来开发使用fastapi编写接口,使用celery来做分布式异步框架,使用redis做消息队列和缓存结果,可以支持高并发请求,使用公司部署。
这篇文章主要讲解如何在Linux服务器中部署triton_gpu方式推理的SenseVoiceSmall接口,支持高并发,转写速度快,适合在公司生产环境中使用,支持大规模并发转写,在A100显卡上,转写10小时音频,只需26秒完成,速度极快。
本文介绍了基于阿里SenseVoiceSmall模型训练的客家话语音识别系统。研究针对虚拟数字人无法识别方言的问题,收集了2231条梅州、惠州和粤西客家话数据(含网络采集和自行录制),通过微调训练提升了模型在客家话识别上的表现。实验对比显示,训练后模型识别准确率显著优于原模型(如"你好大家好"识别正确率提升明显)。作者指出当前模型对非训练区域的客家话识别效果有限,建议至少使用200小时数据达到工业级水平,并欢迎其他方言训练需求合作。
如何在CentOS7.9服务器中部署一套实时语音识别接口给其它项目调用呢?看本篇文章你就懂了,其实很简单,我们使用的是国内大厂开源的语音识别项目部署,并且这个接口由阿里官方编译好了,直接部署到生产服务器上就行了。
无论是开源的ASR还是收费的ASR,在识别一些领域的专业名词时还是会有问题,识别不准确,那么我们可以自己制作数据集来微调,使得识别一些特定领域的名词更准确。本篇是基于阿里开源的ASR模型SenseVocieSmall做微调,使用人工智能和云计算领域的词汇造句微调。
funasr训练模型报错TypeError: device.__init__() missing 1 required positional argument: 'device'解决方法
解决python中安装pynini和WeTextProcessing报错问题,报错ERROR: ERROR: Failed to build installable wheels for some pyproject.toml based projects (pynini)的解决方法