如果我只是对一些简单的语音识别

水木社区手机版

主题:如果我只是对一些简单的语音识别
楼主|youself|2023-05-03 11:14:23|展开
例如数字和一些简单的命令，实时进行识别

是不是用scikit-learn也能完成，而不需要用什么深度学习之类的
--
FROM 113.200.136.*
2楼|youself|2023-05-03 21:20:05|展开
我没独立显卡。。。
【在 Xjt 的大作中提到: 】
: 如果发音者都是你一个人，那么是的。不过sklearn没法用显卡，效果不会很好吧。
:
: 为啥不用pytorch随便跑个nn呢？按理说比sklearn更好用啊
: ...................
--来自微微水木3.5.14
--
FROM 117.39.199.*
4楼|youself|2023-05-03 21:29:34|展开
明天了解一下
【在 Xjt 的大作中提到: 】
: cpu也能跑pytorch啊
: 【在 youself 的大作中提到: 】
: : 我没独立显卡。。。
: ...................
--来自微微水木3.5.14
--
FROM 117.39.199.*
5楼|youself|2023-05-03 21:31:13|展开
我用了一些语音输入，发现效果也没想象的好。
【在 Xjt 的大作中提到: 】
: cpu也能跑pytorch啊
: 【在 youself 的大作中提到: 】
: : 我没独立显卡。。。
: ...................
--来自微微水木3.5.14
--
FROM 117.39.199.*
8楼|youself|2023-05-03 21:37:10|展开
我自己工作需要一些数字重复性输入，我想以后完全用语音，所以训练的内容很少，不超过十个阿拉伯数字和几个词组。
【在 Xjt 的大作中提到: 】
: 你做这个图啥呢？自己练手，还是工业需求？
: 【在 youself 的大作中提到: 】
: : 我用了一些语音输入，发现效果也没想象的好。
: ...................
--来自微微水木3.5.14
--
FROM 117.39.199.*
9楼|youself|2023-05-03 21:38:55|展开
但是sklearn好像要把数据处理成一样的长短，但是音频有长有短，我不知道怎么处理，难道做傅里叶变换，提取频率特征?
【在 johnbird 的大作中提到: 】
: 可以的，轻量任务sklearn也能用，并不一定要很复杂的模型
: 【在 youself 的大作中提到: 】
: : 例如数字和一些简单的命令，实时进行识别
: ...................
--来自微微水木3.5.14
--
FROM 117.39.199.*
12楼|youself|2023-05-03 21:51:59|展开
我试过，我的需求，免费时长就够我用了，但是这些通用模型我觉得太不准了，我就是想针对性训练，你想就十几个标签，主要我不太懂，我看sklearn更简单，所以来问一下。
【在 Xjt 的大作中提到: 】
: 自己做呗，权当练手。舍得花钱的话，随便调用个云api也都能实现吧，也很便宜
: 【在 youself 的大作中提到: 】
: : 我自己工作需要一些数字重复性输入，我想以后完全用语音，所以训练的内容很少，不超过十个阿拉伯数字和几个词组。
: ...................
--来自微微水木3.5.14
--
FROM 117.39.199.*