连续看了三天的机器学习了

水木社区手机版

主题:连续看了三天的机器学习了
10楼|heyuanlie|2020-01-30 13:59:07|只看此ID
数据是一个问题，另一个问题是数据的标注（即算法的学习目标）。

要解决问题，得先让算法模型学会怎样从输入数据得出期望的答案，当正确率能达到你要求后，这个算法模型才能用来解决问题。

【在 shenqing 的大作中提到: 】
: 可以下一些，自己的专业数据库有的。目前还没找到一个很好的办法
--
FROM 120.230.113.*
11楼|shenqing|2020-01-30 15:01:51|只看此ID
我现在的问题是：
我有一堆数据，几十万吧，里面有一些来源质量比较好，基本可以认为是正确的，另外一部分来源质量比较差。我需要把这些质量不好的数据，把里面的错误自动的找出来。

这些数据都有自己特殊的定义规则，比如第一个只能是数字，第二个只能是字母。

有什么好的办法么？一个是希望能把不正确的数据标记出来，另外一个是能自动给出正确的答案。

不要期望用预先的规则来弄，我们尝试了一年也没特别好的办法。

【在 heyuanlie 的大作中提到: 】
: 数据是一个问题，另一个问题是数据的标注（即算法的学习目标）。
: 要解决问题，得先让算法模型学会怎样从输入数据得出期望的答案，当正确率能达到你要求后，这个算法模型才能用来解决问题。
:
--
FROM 114.216.249.*
12楼|heyuanlie|2020-01-30 15:25:28|只看此ID
先讲判断正确错误这部分，你得从数据集中抽取适当数量的数据先构造一个训练集，这些数据一般来讲包括：正（确）样本、负（错误、质量差）样本，并且通过人工将正样本和负样本标记出来，正负样本比例最好与整个数据集正负样本实际比例相当。通常学习结果好坏与训练集数据量呈正相关。

通常在训练时，用训练集中80%的数据作模型训练，剩下20%数据作为测试训练效果，当训练效果（正确率）能达到某个你可以接受的阈值时，可以认为该模型训练成功并可以用来作判断。

至于模型用啥都可以，什么神经网络、深度学习、支持向量机、遗传算法等等等等机器学习方法都可以。

如果你目前手头没有带人工标记（好坏）的数据用来训练，那数据标注这一块工作量对你来讲可能是成本最高的。

同理，自动给出“正确答案”也是这样，先得给训练集中数据标注好与之对应的“正确答案”，然后后面的过程与上文类似。

【在 shenqing 的大作中提到: 】
: 我现在的问题是：
: 我有一堆数据，几十万吧，里面有一些来源质量比较好，基本可以认为是正确的，另外一部分来源质量比较差。我需要把这些质量不好的数据，把里面的错误自动的找出来。
: 这些数据都有自己特殊的定义规则，比如第一个只能是数字，第二个只能是字母。
: ...................
--
FROM 120.230.113.*
13楼|zszqzzzf|2020-01-30 15:29:53|只看此ID
首先，你对质量好的数据，自动提取特征。然后，你用这个自动编码器，去识别质量差的数据。对识别出来的结果，分类小批量人工比对答案是否正确。
把正确的错误的分类，再找一次特征，看看错误有什么特征。

【在 shenqing (核动) 的大作中提到: 】
: 我现在的问题是：
: 我有一堆数据，几十万吧，里面有一些来源质量比较好，基本可以认为是正确的，另外一部分来源质量比较差。我需要把这些质量不好的数据，把里面的错误自动的找出来。
: 这些数据都有自己特殊的定义规则，比如第一个只能是数字，第二个只能是字母。
: ...................
--
FROM 27.151.154.*
14楼|heyuanlie|2020-01-30 16:49:20|只看此ID
估计要是能有办法实现对质量好的数据自动提取特征，判断正确与否的问题就已经直接解决了。

【在 zszqzzzf 的大作中提到: 】
: 首先，你对质量好的数据，自动提取特征。然后，你用这个自动编码器，去识别质量差的数据。对识别出来的结果，分类小批量人工比对答案是否正确。
: 把正确的错误的分类，再找一次特征，看看错误有什么特征。
:
--
FROM 120.230.113.*
15楼|zszqzzzf|2020-01-30 16:50:49|只看此ID
autoencoder，是深度学习中的基本方法的一个大类，里面有很多子类，针对不同类型的数据。

【在 heyuanlie (heyuanlie) 的大作中提到: 】
: 估计要是能有办法实现对质量好的数据自动提取特征，判断正确与否的问题就已经直接解决了。
--
FROM 27.151.154.*
16楼|heyuanlie|2020-01-30 16:57:22|只看此ID
关键是他自己已经有一套准则的，不是随便autoencoder/decoder跑一通分几个类学出来就行吧？

【在 zszqzzzf 的大作中提到: 】
: autoencoder，是深度学习中的基本方法的一个大类，里面有很多子类，针对不同类型的数据。
:
--
FROM 120.230.113.*
17楼|zinfandel|2020-01-30 17:02:13|只看此ID
这个正则表达式吧
【在 shenqing 的大作中提到: 】
: 我现在的问题是：
: 我有一堆数据，几十万吧，里面有一些来源质量比较好，基本可以认为是正确的，另外一部分来源质量比较差。我需要把这些质量不好的数据，把里面的错误自动的找出来。
: 这些数据都有自己特殊的定义规则，比如第一个只能是数字，第二个只能是字母。
: ...................
--
FROM 1.80.137.*
18楼|shenqing|2020-01-30 17:11:30|只看此ID
正则表达式我们搞了一年了
【在 zinfandel 的大作中提到: 】
: 这个正则表达式吧
--
FROM 223.104.4.*
19楼|zinfandel|2020-01-30 17:20:54|只看此ID
这个几十万条？找个实习生比如一百万一天5000条也能改完吧
【在 shenqing 的大作中提到: 】
: 正则表达式我们搞了一年了
--
FROM 1.80.137.*