- 主题:科学、可证伪性与精神分析 (转载)
,比如说,在机器学习里,有一个结论,无偏的学习机器是没有用的,也
就是你要学习,必须要有bias(偏置
---
AI:
说“无偏的学习机器是没有用的”是有些误导性的,甚至可以说是错误的。让我们来分解一下:
无偏的学习机器:在机器学习中,如果模型是“无偏”的,意味着它的预测在统计上不偏离真实值。这是理想的情况,意味着模型在平均上能够很好地捕捉数据中的真实模式。
模型的有用性:一个“无偏”的模型并不是“没有用的”,相反,它通常是非常有用的。无偏模型的目标是准确地反映数据中的规律,而不是在某些特定方向上系统性地出错。
但是,值得注意的是,完全无偏的模型在现实中几乎不可能达到,因为所有的模型都基于某些假设,这些假设可能导致一定程度的偏差。此外,无偏的模型如果伴随着高方差,可能会对数据的波动过于敏感,从而在测试数据上表现不佳。
在实际应用中,模型通常会在偏差和方差之间进行权衡,目标是找到一个“可接受的”偏差水平,同时保持较低的方差。这种权衡使得模型既不过于简单(高偏差),也不过于复杂(高方差),从而能够在新数据上表现良好。
结论:无偏的模型并不是“没有用的”,而是非常理想的目标。然而,实际应用中,少量的偏差可能是为了降低方差所做出的妥协,以获得更好的总体性能。
【 在 snowfields 的大作中提到: 】
: 【 以下文字转载自 Bull 讨论区 】
: 发信人: hut (浮尘落尽), 信区: Bull
: 标 题: 科学、可证伪性与精神分析
: ...................
--
FROM 24.203.11.*
我再举一个例子,比如三个人去考试,问算命先生,我们这个考试结果会怎样,算命先生竖起一
根手指,最后一个考生及格了,算命先生是对的,一个没及格,算命先生也是对的,一起及格了,算命先生也是对的
----
算命先生竖起一根手指,这可能是在说相声,也可能是在骂人,和科不科学没关系
【 在 snowfields 的大作中提到: 】
: 【 以下文字转载自 Bull 讨论区 】
: 发信人: hut (浮尘落尽), 信区: Bull
: 标 题: 科学、可证伪性与精神分析
: ...................
--
FROM 24.203.11.*
我哪里是自作聪明呢,我就是自认不够聪明,才问的chatgpt
【 在 hut 的大作中提到: 】
: 总是有一些自作聪明的人
: 看截图吧 作者都是一流牛人
: 前三张是vapnik的统计学习理论
: ...................
--
FROM 128.107.241.*
友情提醒,以下内容来自ChatGPT,仅供学习参考:
在统计学习理论中,Vladimir Vapnik 提出的“不可证伪性”概念与科学哲学中的不可证伪性有一定的联系,但它是在统计学习和机器学习的背景下提出的,有其独特的含义。
Vapnik的统计学习理论中的不可证伪性:
背景介绍:
Vapnik是统计学习理论的主要创立者之一,该理论为机器学习提供了一个数学框架,特别是对如何从数据中学习进行分析。
统计学习理论探讨的是从有限样本中推断出一般规律的能力,研究如何通过学习算法将数据映射到某种模型,从而进行有效预测。
不可证伪性理论:
Vapnik在其理论中引入了“不可证伪性”的概念,用于描述模型或假设类的某些特征。这里的不可证伪性与科学哲学中的不可证伪性概念类似,但其应用更加技术性。
模型的不可证伪性:如果一个假设类(即模型空间)过于庞大、复杂,它可能在训练数据上表现很好,但实际上它的表现是因为它过度拟合了数据,而不是因为它很好地反映了数据背后的真实分布。这意味着这样的模型无法通过简单的测试或验证过程被证伪(即表现为糟糕),因为它总能找到一种方式去解释数据。
过度拟合与不可证伪性:不可证伪性的模型往往容易过度拟合,过度拟合的模型看似解释了训练数据,但它对新数据的预测性能很差。因此,在统计学习中,不可证伪性与模型的泛化能力密切相关。
Vapnik的观点:
Vapnik强调,在统计学习中,好的模型应该是能够被验证的。即,一个模型的假设空间不应该过于复杂,否则它的不可证伪性会导致过度拟合,并因此失去对未知数据的预测能力。
结构风险最小化(SRM)原则:Vapnik提出的SRM原则通过引入模型复杂度的约束来控制不可证伪性。这一原则建议在选择模型时,不仅要考虑训练误差,还要考虑模型复杂度,以避免不可证伪性所带来的过度拟合风险。
总结:
在Vapnik的统计学习理论中,“不可证伪性”指的是某些模型或假设类由于其过度复杂性,无法通过标准验证过程被“证伪”,即它们可能始终能够解释训练数据,但却无法有效地推广到新的数据。通过控制模型复杂度(如SRM原则),可以减少不可证伪性,避免过度拟合,从而提高模型的泛化能力。这与波普尔的证伪主义在科学哲学中的作用有一定相似之处,但在统计学习中,这一概念更直接与模型选择和泛化能力联系在一起。
【 在 hut 的大作中提到: 】
: 总是有一些自作聪明的人
: 看截图吧 作者都是一流牛人
: 前三张是vapnik的统计学习理论
: ...................
--
FROM 128.107.241.*
友情提醒,以下内容来自ChatGPT,仅供学习参考:
Tom M. Mitchell 在其经典著作《机器学习》中讨论了“无偏学习”的概念,指出了无偏学习在实践中的局限性。无偏学习(Unbiased Learning)是指一个学习算法在训练过程中没有任何偏见,即它不倾向于选择某些特定的假设或模型。Mitchell 主要提出了这种学习方式的一些理论问题,尤其是在实际应用中的不足。
1. 无偏学习的定义和背景:
无偏学习:无偏学习的理念是希望学习算法在选择模型时尽可能不带有先验的偏见,即它不预设任何关于数据的特殊假设或先入为主的观点。换句话说,无偏学习试图通过从数据中学习所有可能的模式,而不受到先验假设的影响。
2. Mitchell 的观点:
Mitchell 提出了无偏学习的几个主要局限性,主要集中在以下几个方面:
模型复杂性问题:
模型复杂度:在无偏学习中,算法可能会选择非常复杂的模型来拟合训练数据,尤其是当假设空间(即模型的集合)非常大时。这种复杂性往往会导致过拟合,使得模型在训练数据上表现良好,但在新数据上泛化能力较差。
选择合适的模型:无偏学习的算法可能会选择许多复杂的假设,缺乏对模型复杂度的控制。这种复杂性增加了算法的训练和计算成本,也使得模型难以解释和验证。
泛化能力问题:
泛化误差:无偏学习的算法可能在训练数据上表现很好,但由于它没有考虑泛化能力,它的实际性能可能在未知数据上不尽如人意。即使算法没有偏见,它仍然需要考虑如何在新数据上进行有效的预测。
经验风险与结构风险:Mitchell 认为,无偏学习并不一定考虑到模型的泛化误差(即结构风险),它可能仅仅关注训练误差(经验风险),这可能导致泛化能力较差。
偏见与方差权衡:
偏见-方差权衡:Mitchell 讨论了机器学习中的偏见与方差权衡问题。在实际应用中,学习算法必须在偏见(即模型的假设错误)和方差(即模型对数据噪声的敏感性)之间找到平衡。无偏学习往往忽视了这个权衡,因此可能在某些方面表现不佳。
实践中的有效性:
实际应用:在实际应用中,完全的无偏学习往往是不切实际的。实际数据通常存在噪声、缺失值和复杂的结构,这要求学习算法在模型选择和训练过程中进行适当的偏见调整,以实现更好的泛化能力。
领域知识:在许多应用场景中,利用领域知识来引导模型选择和训练可以显著提高模型的性能和解释能力。因此,完全无偏的学习策略在实际中往往不如具有合理先验知识的学习策略有效。
3. 总结:
Mitchell 的观点表明,尽管无偏学习在理论上是一个理想的目标,但在实践中它可能带来模型复杂性和泛化能力等问题。为了提高机器学习算法的实际效果,往往需要在学习过程中适当引入先验知识、控制模型复杂度,并关注偏见与方差的权衡。这些措施可以帮助提高模型的泛化能力,使其在面对真实世界的数据时表现更好。
【 在 hut 的大作中提到: 】
: 总是有一些自作聪明的人
: 看截图吧 作者都是一流牛人
: 前三张是vapnik的统计学习理论
: ...................
--
FROM 128.107.241.*
就是,ChatGPT 有一说一,不扯大旗,版上灌水大爷大妈们都能看懂
【 在 redapron 的大作中提到: 】
: 赞ChatGPT
: 这个解释忠于统计原理,非常清晰有力
--
FROM 128.107.241.*