- 主题:如果我只是对一些简单的语音识别
深度模型也需要处理成一样的长度
可以设定一个固定长度,不足的补0,超过的截断
【 在 youself 的大作中提到: 】
: 但是sklearn好像要把数据处理成一样的长短,但是音频有长有短,我不知道怎么处理,难道做傅里叶变换,提取频率特征?
: --来自微微水木3.5.14
--
FROM 183.195.37.*
自己做呗,权当练手。舍得花钱的话,随便调用个云api也都能实现吧,也很便宜
【 在 youself 的大作中提到: 】
: 我自己工作需要一些数字重复性输入,我想以后完全用语音,所以训练的内容很少,不超过十个阿拉伯数字和几个词组。
--
FROM 36.63.209.*
我试过,我的需求,免费时长就够我用了,但是这些通用模型我觉得太不准了,我就是想针对性训练,你想就十几个标签,主要我不太懂,我看sklearn更简单,所以来问一下。
【 在 Xjt 的大作中提到: 】
: 自己做呗,权当练手。舍得花钱的话,随便调用个云api也都能实现吧,也很便宜
: 【 在 youself 的大作中提到: 】
: : 我自己工作需要一些数字重复性输入,我想以后完全用语音,所以训练的内容很少,不超过十个阿拉伯数字和几个词组。
: ...................
--来自微微水木3.5.14
--
FROM 117.39.199.*
性能差矩太大,不值。以为简单,可能要经过无数次迭代才能满足基本性能要求。真做起来还是用预训练模型精调最简单。
【 在 youself 的大作中提到: 】
: 例如数字和一些简单的命令,实时进行识别
: 是不是用scikit-learn也能完成,而不需要用什么深度学习之类的
:
: ...................
--
FROM 110.184.113.*
hugging face 上找个开源的预训练模型,然后finetune下
finetune的语料可以用个好点的TTS合成,合成个2小时的标注音频,训练出来的效果应该也很好了
--
FROM 114.221.202.*
二十年前在杂志上就经常看到单片机可用的可编程的支持十几个语音指令的非特定人语音识别芯片,不知道他们是怎么做的
--
FROM 223.104.3.*
sk可以的,nv给弄起来了!
更新下知识。
【 在 Xjt (Voldemort) 的大作中提到: 】
: 如果发音者都是你一个人,那么是的。不过sklearn没法用显卡,效果不会很好吧。
:
: 为啥不用pytorch随便跑个nn呢?按理说比sklearn更好用啊
: 【 在 youself 的大作中提到: 】
--
FROM 115.171.23.*
DTW不了解?HMM也不知道?
【 在 trilims 的大作中提到: 】
: 二十年前在杂志上就经常看到单片机可用的可编程的支持十几个语音指令的非特定人语音识别芯片,不知道他们是怎么做的
--
FROM 123.168.112.*