- 主题:自己训练,自己预测,预测结果就一定好吗?
自己训练,自己预测,预测结果就一定好吗?
假设这里好定义为sn>90% and sp >90%.
举个简单的例子。股票数据,自己训练,自己预测, 网上的结果显示,最高也就是70%。
这还是自己训练,自己预测。
所以说自己训练,自己预测,并不一定预测结果就一定好。
--
FROM 47.185.45.*
但是我们把预测分为两步走的方针也是错的吗?
第一步:拟合或者预测训练集
第二步:运用到预测集
我前几天问了一个问题,为什么第一步的精度很高,但是第二步却很低。这个需要怎么来解决。
结果很多人,答非所问。居然说第一步精度高是绝对的。
所以我就开了这个贴,告诉大家,第一步精度不一定总是高。
第一步也是很重要的一个步骤。如果第一步你都实现不了高精度,那么就有很多问题要思考了。
第一步精度高,这是不一定的事情。不是来了一个牛人,给他一个训练集,他就能训练出高精度的。
我开这个贴,就是想和大家讨论一下。这个问题是很简单的普通常见的。为何大家还会在这个问题上出错?
【 在 chenjinyuan 的大作中提到: 】
: 还另开贴,哈哈哈
: 再说一遍,现在所有成熟的模型目标都不是拟合训练集而是拟合未知的预测集
--
FROM 129.120.103.*
你说“搞个训练集100%的模型很简单,我只要遍历一遍即可。”
不知道你这样讲是不是真正思考过。搞个训练集100%真的很简单吗?
我就问一个简单问题:给你一个训练集,你真的能保证100%否?
我再问一个问题:要求设计出一个训练集,使其不能被别人实现100%预测。
我想第二个问题,大多数的人都会回答,可以设计出这样的训练集出来。
如果第二个问题可以实现,那么第一个问题就是不能保证100%。
【 在 chenjinyuan 的大作中提到: 】
: 还另开贴,哈哈哈
: 再说一遍,现在所有成熟的模型目标都不是拟合训练集而是拟合未知的预测集
--
FROM 129.120.103.*
前面已经有人讲了,用这种hash之类。我也承认这样搞100%,对于大部分的案例可行。
但是宇宙中,总存在一些你用这种遍历的方法实现不了的。也就是说不是总是100%能实现。
比如说:双胞胎的人脸识别
同音字的语音识别。
我假设你用投机取巧的哈希表特性方法,你也不能100%识别。
“只要数据不满足这一特性,无论如何都不可能100%。”
我们搞人工智能的,天天就是和这样的高难度的东西打交道。没有同音的语音字识别,谁都能实现高精度。
难的不就是同音字吗?
没有双胞胎的人脸识别,现在满大街都是。难的,不就是对双胞胎的人脸识别吗?
【 在 zszqzzzf 的大作中提到: 】
: 搞100%真的简单呀,做一个可以容纳原数据的表,只要所有数据满足哈希表特性,就能100%。只要数据不满足这一特性,无论如何都不可能100%。你用不用神经网络深度学习,是无关的。
:
--
FROM 129.120.103.*