强化学习算法学到的东西 和我们理解的世界是不同的
他们有时候会完全无法按照我们所理解方式和预期去工作
我们可能永远无法确定的避免这类缺陷
这可能意味着所有强化学习算法 都是不可靠的 会在某种不能忽视的概率下崩溃
强化学习算法 对眼的定义和理解
完整无缺陷环绕连接围住的空间被当作一个眼
(这里一个眼指 眼位空间 一个眼位空间至少有一个眼
在一个眼位空间中 如果隔断出令一个空间 则这个单独空间有两个眼
这是个递归)
如果还有令一个确定的眼 那么就被认为有两个眼
一个内含活棋的眼位空间 和一个内不含活棋的眼位空间 就是ai理解的两个眼
其中内含活棋被定义忽略了
我们甚至可以设想 如果两个空间都内含活棋
ai会把一块无眼的棋当作活棋
这也是发现者最初构造和验证这个bug的最初思路
所以 这个bug的内涵是 对眼的理解
ai的理解带有某种大数据概率属性
人的理解则是抽象后的定性属性
这真的很可能是一个无法自洽的算法问题
也就是包括alpha系列 他们都是这么理解的 都有这个bug
而不是代码缺陷
实际上 纯概率算法可能更容易规避这个缺陷所产生的负作用 导致虽然ai理解错了
但不一定会下错 比如alpha系列和早期的leela 早期的绝艺
而更追求子效的ai算法 就会更确定的犯错
因为问题的本质是一样的 谁也跑不了
这个发现/设计太牛了 非常包含围棋的本质
他探讨了强化学习ai对事物基本属性的认知构成和样貌 并构建了一个准确的画像
这个bug就是ai的认知缺陷
这可能是算法在围棋应用上有限的若干bug中最重要的一个 甚至可能是最后的算法bug
最重要的是 就算ai通过更大的数据学会了 他的思维方式仍然和我们不一样
这让他的行为对我们来说 仍然会有打破我们预期的表现 这事无解了
至少在现在的算法层次上无解了
而人类对这个世界的理解方式 更接近事物的本质 ai用现在这种方式 没法学会
--
修改:computec FROM 222.129.7.*
FROM 222.129.7.*