- 主题:连续看了三天的机器学习了
数据是一个问题,另一个问题是数据的标注(即算法的学习目标)。
要解决问题,得先让算法模型学会怎样从输入数据得出期望的答案,当正确率能达到你要求后,这个算法模型才能用来解决问题。
【 在 shenqing 的大作中提到: 】
: 可以下一些,自己的专业数据库有的。目前还没找到一个很好的办法
--
FROM 120.230.113.*
先讲判断正确错误这部分,你得从数据集中抽取适当数量的数据先构造一个训练集,这些数据一般来讲包括:正(确)样本、负(错误、质量差)样本,并且通过人工将正样本和负样本标记出来,正负样本比例最好与整个数据集正负样本实际比例相当。通常学习结果好坏与训练集数据量呈正相关。
通常在训练时,用训练集中80%的数据作模型训练,剩下20%数据作为测试训练效果,当训练效果(正确率)能达到某个你可以接受的阈值时,可以认为该模型训练成功并可以用来作判断。
至于模型用啥都可以,什么神经网络、深度学习、支持向量机、遗传算法等等等等机器学习方法都可以。
如果你目前手头没有带人工标记(好坏)的数据用来训练,那数据标注这一块工作量对你来讲可能是成本最高的。
同理,自动给出“正确答案”也是这样,先得给训练集中数据标注好与之对应的“正确答案”,然后后面的过程与上文类似。
【 在 shenqing 的大作中提到: 】
: 我现在的问题是:
: 我有一堆数据,几十万吧,里面有一些来源质量比较好,基本可以认为是正确的,另外一部分来源质量比较差。我需要把这些质量不好的数据,把里面的错误自动的找出来。
: 这些数据都有自己特殊的定义规则,比如第一个只能是数字,第二个只能是字母。
: ...................
--
FROM 120.230.113.*
估计要是能有办法实现对质量好的数据自动提取特征,判断正确与否的问题就已经直接解决了。
【 在 zszqzzzf 的大作中提到: 】
: 首先,你对质量好的数据,自动提取特征。然后,你用这个自动编码器,去识别质量差的数据。对识别出来的结果,分类小批量人工比对答案是否正确。
: 把正确的错误的分类,再找一次特征,看看错误有什么特征。
:
--
FROM 120.230.113.*
关键是他自己已经有一套准则的,不是随便autoencoder/decoder跑一通分几个类学出来就行吧?
【 在 zszqzzzf 的大作中提到: 】
: autoencoder,是深度学习中的基本方法的一个大类,里面有很多子类,针对不同类型的数据。
:
--
FROM 120.230.113.*