- 主题:连续看了三天的机器学习了
数据是一个问题,另一个问题是数据的标注(即算法的学习目标)。
要解决问题,得先让算法模型学会怎样从输入数据得出期望的答案,当正确率能达到你要求后,这个算法模型才能用来解决问题。
【 在 shenqing 的大作中提到: 】
: 可以下一些,自己的专业数据库有的。目前还没找到一个很好的办法
--
FROM 120.230.113.*
我现在的问题是:
我有一堆数据,几十万吧,里面有一些来源质量比较好,基本可以认为是正确的,另外一部分来源质量比较差。我需要把这些质量不好的数据,把里面的错误自动的找出来。
这些数据都有自己特殊的定义规则,比如第一个只能是数字,第二个只能是字母。
有什么好的办法么?一个是希望能把不正确的数据标记出来,另外一个是能自动给出正确的答案。
不要期望用预先的规则来弄,我们尝试了一年也没特别好的办法。
【 在 heyuanlie 的大作中提到: 】
: 数据是一个问题,另一个问题是数据的标注(即算法的学习目标)。
: 要解决问题,得先让算法模型学会怎样从输入数据得出期望的答案,当正确率能达到你要求后,这个算法模型才能用来解决问题。
:
--
FROM 114.216.249.*
先讲判断正确错误这部分,你得从数据集中抽取适当数量的数据先构造一个训练集,这些数据一般来讲包括:正(确)样本、负(错误、质量差)样本,并且通过人工将正样本和负样本标记出来,正负样本比例最好与整个数据集正负样本实际比例相当。通常学习结果好坏与训练集数据量呈正相关。
通常在训练时,用训练集中80%的数据作模型训练,剩下20%数据作为测试训练效果,当训练效果(正确率)能达到某个你可以接受的阈值时,可以认为该模型训练成功并可以用来作判断。
至于模型用啥都可以,什么神经网络、深度学习、支持向量机、遗传算法等等等等机器学习方法都可以。
如果你目前手头没有带人工标记(好坏)的数据用来训练,那数据标注这一块工作量对你来讲可能是成本最高的。
同理,自动给出“正确答案”也是这样,先得给训练集中数据标注好与之对应的“正确答案”,然后后面的过程与上文类似。
【 在 shenqing 的大作中提到: 】
: 我现在的问题是:
: 我有一堆数据,几十万吧,里面有一些来源质量比较好,基本可以认为是正确的,另外一部分来源质量比较差。我需要把这些质量不好的数据,把里面的错误自动的找出来。
: 这些数据都有自己特殊的定义规则,比如第一个只能是数字,第二个只能是字母。
: ...................
--
FROM 120.230.113.*
首先,你对质量好的数据,自动提取特征。然后,你用这个自动编码器,去识别质量差的数据。对识别出来的结果,分类小批量人工比对答案是否正确。
把正确的错误的分类,再找一次特征,看看错误有什么特征。
【 在 shenqing (核动) 的大作中提到: 】
: 我现在的问题是:
: 我有一堆数据,几十万吧,里面有一些来源质量比较好,基本可以认为是正确的,另外一部分来源质量比较差。我需要把这些质量不好的数据,把里面的错误自动的找出来。
: 这些数据都有自己特殊的定义规则,比如第一个只能是数字,第二个只能是字母。
: ...................
--
FROM 27.151.154.*
估计要是能有办法实现对质量好的数据自动提取特征,判断正确与否的问题就已经直接解决了。
【 在 zszqzzzf 的大作中提到: 】
: 首先,你对质量好的数据,自动提取特征。然后,你用这个自动编码器,去识别质量差的数据。对识别出来的结果,分类小批量人工比对答案是否正确。
: 把正确的错误的分类,再找一次特征,看看错误有什么特征。
:
--
FROM 120.230.113.*
autoencoder,是深度学习中的基本方法的一个大类,里面有很多子类,针对不同类型的数据。
【 在 heyuanlie (heyuanlie) 的大作中提到: 】
: 估计要是能有办法实现对质量好的数据自动提取特征,判断正确与否的问题就已经直接解决了。
--
FROM 27.151.154.*
关键是他自己已经有一套准则的,不是随便autoencoder/decoder跑一通分几个类学出来就行吧?
【 在 zszqzzzf 的大作中提到: 】
: autoencoder,是深度学习中的基本方法的一个大类,里面有很多子类,针对不同类型的数据。
:
--
FROM 120.230.113.*
这个正则表达式吧
【 在 shenqing 的大作中提到: 】
: 我现在的问题是:
: 我有一堆数据,几十万吧,里面有一些来源质量比较好,基本可以认为是正确的,另外一部分来源质量比较差。我需要把这些质量不好的数据,把里面的错误自动的找出来。
: 这些数据都有自己特殊的定义规则,比如第一个只能是数字,第二个只能是字母。
: ...................
--
FROM 1.80.137.*
正则表达式我们搞了一年了
【 在 zinfandel 的大作中提到: 】
: 这个正则表达式吧
--
FROM 223.104.4.*
这个几十万条?找个实习生 比如一百万 一天5000条也能改完吧
【 在 shenqing 的大作中提到: 】
: 正则表达式我们搞了一年了
--
FROM 1.80.137.*