你需要“多说话人语音分离”模型
这是个常见功能
阿里的FunASR和 讯飞星火V4.0都可以搞定
FunASR是个开源项目可以免费,自己部署
需要自己有个带NVIDIA显卡的电脑,电脑新一点,内存大一点
差一点的电脑也能用CPU或AMD显卡、核显跑,最好32G内存以上,慢不少
建议搜FunASR的教程
--------------
想找完全免费的资源很难,因为音频转文字需要大量算力
大厂里最慷慨的就是google,也不能很好满足你这个十几小时的免费识别需求。
花点钱吧,不管是充值会员还是买电脑
--
修改:LYMing1986 FROM 124.126.186.*
FROM 124.126.186.*