基于FunASR中的SenseVoiceSmall实现的客家话语音识别

本文介绍了基于阿里SenseVoiceSmall模型训练的客家话语音识别系统。研究针对虚拟数字人无法识别方言的问题,收集了2231条梅州、惠州和粤西客家话数据(含网络采集和自行录制),通过微调训练提升了模型在客家话识别上的表现。实验对比显示,训练后模型识别准确率显著优于原模型(如"你好大家好"识别正确率提升明显)。作者指出当前模型对非训练区域的客家话识别效果有限,建议至少使用200小时数据达到工业级水平,并欢迎其他方言训练需求合作。


CentOS部署FunASR实时语音识别接口

如何在CentOS7.9服务器中部署一套实时语音识别接口给其它项目调用呢?看本篇文章你就懂了,其实很简单,我们使用的是国内大厂开源的语音识别项目部署,并且这个接口由阿里官方编译好了,直接部署到生产服务器上就行了。


SenseVoice模型微调

无论是开源的ASR还是收费的ASR,在识别一些领域的专业名词时还是会有问题,识别不准确,那么我们可以自己制作数据集来微调,使得识别一些特定领域的名词更准确。本篇是基于阿里开源的ASR模型SenseVocieSmall做微调,使用人工智能和云计算领域的词汇造句微调。


基于3D-Speaker进行区分说话人项目搭建过程报错记录

外呼系统中,我们的后台管理系统通常要对电话录音的内容进行提取和分析。那么说到分析,我们就要对录音中的两个人的对话进行分离,然后分别分析,比如分析客户是否有合作的意愿,分析客服讲的话术是否合理,分析客户情绪等等。那么这里就需要首先做说话人的分离。