强化学习算法学到的东西 和我们理解的世界是不同的
他们有时候会完全无法按照我们所理解方式和预期去工作
我们可能永远无法确定的避免这类缺陷
这可能意味着所有强化学习算法 都是不可靠的 会在某种不能忽视的概率下崩溃
围棋的这个bug是算法自生的 用代码debug并没有普遍意义
用更大的数据集训练也没有什么用 对一个模型 你无法预测什么时候能消除或者已消除
潜在的威胁
未来的强化学习算法ai本质上只能和bug共存
这在围棋程序从表面上解决这个问题之后依旧不会改变
强化学习算法 对眼的定义和理解
完整无缺陷环绕连接围住的空间被当作一个眼
这里一个眼指 眼位空间 一个眼位空间至少有一个眼
在一个眼位空间中 如果隔断出令一个空间 则这个单独空间有两个眼
这是个递归
如果还有另一个单独确定的眼 那么就被认为有两个眼
一个内含活棋的眼位空间 和一个内不含活棋的眼位空间 就是ai理解的两个眼
其中内含活棋被定义忽略了
我们甚至可以设想 如果两个空间都内含活棋
ai会把一块无眼的棋当作活棋
这也是发现者构造和验证这个bug的最初思路
所以 这个bug的内涵是 对眼的理解
ai的理解带有某种大数据概率属性
人的理解则是抽象后的定性属性
这真的很可能是一个无法自洽的算法问题
也就是包括alpha系列 他们都是这么理解的 都有这个bug
而不是代码缺陷
实际上 纯概率算法可能更容易规避这个缺陷所产生的负作用 导致虽然ai理解错了
但不一定会下错 比如alpha系列和早期的leela 早期的绝艺
而更追求子效的ai算法 就会更确定的犯错
因为问题的本质是一样的 谁也跑不了
这个发现/设计太牛了 非常包含围棋的本质
他探讨了强化学习ai对事物基本属性的认知构成和样貌 并构建了一个准确的画像
这个bug就是ai的认知缺陷
这可能是算法在围棋应用上有限的若干bug中最重要的一个 甚至可能是最后的算法bug
最重要的是 就算ai通过更大的数据学会了 他的思维方式仍然和我们不一样
这让他的行为对我们来说 仍然会有打破我们预期的表现 这事无解了
至少在现在的算法层次上无解了
而人类对这个世界的理解方式 更接近事物的本质 ai用现在这种方式 没法学会
--
修改:computec FROM 222.129.7.*
FROM 222.129.7.*