- 主题:你们做策略的时候,是选哪种方式?
股票行情的每一个数据都是钱堆出来的,而且相对于股市的复杂性来说,数据量是不充足的。除非还没想到处理方法,应该尽可能充分运用数据,数据分布复杂,过滤掉大量数据一般会对数据分布产生比较大的影响,产生的负作用也未必能有充分的认识。
--
FROM 110.184.113.*
【 在 tmchzy2 的大作中提到: 】
: 我并不这样认为,回测时,你说的这些事情是都已经发生了的,并不是还没发生。
: 如果你认为历史数据都是未来数据的话,那就没法讨论了。
:
未来函数这么难理解吗?
比如,投资行业, 穿越回2009年,现在的你告诉当时的你, 砸锅卖铁也要买房,不要买股,一样
你知道发生的点, 和发生的点是两件事情。
就好比, 12有31日, 一年业绩已经确定了, 你却要等到年报发出来才知道,
机构由于庞大的研究能力,和消息获取,分析能力, 也许一二月份就知道了。
这些信息, 你在12月31日明确用, 就是未来函数。
--
FROM 124.126.2.*
按照上面那位版友的说法,我从历史数据中,使用股价<10元的数据,这也是未来函数?
【 在 poggy 的大作中提到: 】
: 未来函数这么难理解吗?
: 比如,投资行业, 穿越回2009年,现在的你告诉当时的你, 砸锅卖铁也要买房,不要买股,一样
: 你知道发生的点, 和发生的点是两件事情。
: ...................
--
FROM 182.149.163.*
那我可能明白了,您的意思是因为近两年某行业走势不错,把这个行业作为筛选条件用于回测,其实就是一种未来函数,属于对这段期间的过拟合,是这个意思吗?
【 在 netvideo 的大作中提到: 】
:
: 这要看筛选规则,如果规则或调整规则参数用到过后面的数据,就会引入未来函数。
: 原则就是不能将当日之后的任何信息泄漏。
:
: 【 在 clivec 的大作中提到: 】
※ 修改:·clivec 于 May 26 12:51:50 2023 修改本文·[FROM: 120.82.190.*]
※ 来源:·水木社区
http://www.mysmth.net·[FROM: 120.82.190.*]
修改:clivec FROM 120.82.190.*
FROM 120.82.190.*
以决策的时间点为边界,只要直接或间接用到了后面的数据就引入了未来函数。未来函数和过拟合还不一样,过拟合是拟合了训练数据的局部分布特性或噪声数据,表现在训练误差很小,验证集误差大。未来函数有可能不影响训练集误差,直接减小测试集误差。
【 在 clivec 的大作中提到: 】
: 那我可能明白了,您的意思是因为近两年某行业走势不错,把这个行业作为筛选条件用于回测,其实就是一种未来函数,属于对这段期间的过拟合,是这个意思吗?
: 【 在 clivec 的大作中提到: 】
--
FROM 110.184.113.*
【 在 tmchzy2 的大作中提到: 】
: 按照上面那位版友的说法,我从历史数据中,使用股价<10元的数据,这也是未来函数?
:
那要看你这个小于10元是什么视角, 如果是历史当下所有小于10元的, 则没有引入未来数据,
就好比选男人, 如果, 你选择身高170, 年龄30的男人, 假如有90万人备选,
如果, 你能穿越到10年后, 选择在40岁时身价有1个亿的, 可能只有10个人,
你把选择focus到这10个未来十亿身家人, 相当于开启了未来视角, 90万选十是你当下做不到的。
比如, 你的选股池是2023年5月,生成的, 你把ST股去掉了,
然后, 在2020年, 在这个股票池筛选价格小于10块的, 这其实就用到了未来函数。
因为, 2023年ST的股, 很可能2020年也是符合小于10块这个条件, 却被隐含使用2023年会ST这个条件给过滤掉了, 这个过滤实际就是个未来函数, 因为引入了未来信息
--
FROM 124.126.2.*
嗯,是的,只要数据跟后一刻没关系,就应该没用到未来函数。
所以我一直觉得那位版友说的:
“过滤产生未来函数的例子:
1.过滤掉<10元的股票
2.过滤掉已退市的股票 ” ,这很有问题。
肯定不能用现在的条件去限制历史数据,每一刻的历史数据,都应该用历史当时的状态来判断。
按照你举的例子,踢出st股,可以现在踢出现在的ST股,但在历史数据中,当时是不是st股,肯定是要判断的,肯定不能用现在是否是st的状态去判断历史数据。
【 在 poggy 的大作中提到: 】
:
: 那要看你这个小于10元是什么视角, 如果是历史当下所有小于10元的, 则没有引入未来数据,
: 就好比选男人, 如果, 你选择身高170, 年龄30的男人, 假如有90万人备选,
: ...................
--
FROM 182.149.163.*
其实没有这么简单,你在进一步想一想这些过滤条件是怎么得来的,为会么这样过滤,怎么调的过滤参数。
【 在 poggy 的大作中提到: 】
:
: 那要看你这个小于10元是什么视角, 如果是历史当下所有小于10元的, 则没有引入未来数据,
: 就好比选男人, 如果, 你选择身高170, 年龄30的男人, 假如有90万人备选,
: ...................
--
FROM 110.184.113.*
【 在 tmchzy2 的大作中提到: 】
: 嗯,是的,只要数据跟后一刻没关系,就应该没用到未来函数。
: 所以我一直觉得那位版友说的:
: “过滤产生未来函数的例子:
: ...................
其实, 大部分未来函数引入都可能是无意识的,
因为, 有些概念看似没有变化, 可以用, 但可能确实有细微变化。
还有一些更隐蔽的未来函数, 那就是存在大众意识的认知。
比如, 房价永远涨, 下跌买入就是对的, 房子就是金资产。
就像当年的流氓罪, 反革命罪,割资本主义尾巴, 你在现在,潜意识里就把当年行为定性为“错误”,
从而,形成一种潜意识的过滤。
换一个例子, 比如炒ST, 比如打涨停板, 这在以前, 都是很有效而且很高效的交易策略,
现在, 可能会潜在过滤掉了, 怎么会有人蠢到追涨停?一个天地板,不少要亏掉内裤吗?
再比如, 做空, 在以前, 这是股票中不存在的概念,这种意识里的超前理念,形成的过滤,
本质也是未来函数。
--
FROM 124.126.2.*
已经发生的,已经存在的历史数据,就不存在是否是未来数据的问题,它们都是真实存在,有效的数据,而是否用到了未来函数,那是策略的问题,跟数据无关。
所以我认为不能就直接认为某个历史数据是未来数据。
【 在 netvideo 的大作中提到: 】
: 其实没有这么简单,你在进一步想一想这些过滤条件是怎么得来的,为会么这样过滤,怎么调的过滤参数。
:
--
FROM 182.149.163.*