从常昊世界大赛的AI分析情况，看吻合度能否衡量棋手水平

水木社区手机版

展开|楼主|同主题展开|返回

主题:从常昊世界大赛的AI分析情况，看吻合度能否衡量棋手水平
computec|2021-08-29 22:15:20|
http://www.flygo.net/bbs/forum.php?mod=viewthread&tid=114864

本帖最后由 flyingsee 于 2021-8-24 11:32 编辑

根据崔灿五段的论文标注，我下载了其分析的全部棋谱。主要是要看一看，比赛胜负和AI吻合度的关系。
我讨论问题有一个

大前提：生活在同一时代棋手，围棋水平的高低以胜负论，胜者水平高，负者水平低。

大家赞不赞成？不赞成您可以不继续往下看。如果有人认为，有了AI吻合度这个“尺子”，就可以不用“胜负”这个最根本的衡量标准去衡量，那我也不用跟您继续讨论。

新发现的基本事实：AI吻合度与一局棋的胜负，不仅不存在必然的对应关系，而且在很大程度上，AI吻合度也不反映胜负关系。

我从崔灿五段整理分析过的棋谱里，筛选出常昊九段180手以上（因为崔老师就是按这个标准选的）的棋局共18局。

摘录数据如下（我没有做任何分析，仅仅是用katago打开了棋谱，棋谱是由崔老师分析完成的，我只需要读取数据就可以了）：

　
常昊

对手

棋局
前180

全局平均

差

前180

全局平均

差

世界赛1
58.9

65

-6.1

31.1

50

-18.9
        常昊败，全盘吻合度高于对手李昌镐
世界赛2
47.8

47.5

0.3

56.7

57.4

-0.7
        常昊败
世界赛3
54.4

59.3

-4.9

54.4

58.9

-4.5
        常昊败，全盘吻合度高于对手李昌镐
世界赛4
53.3

64.4

-11.1

54.4

56

-1.6
        常昊败，全盘吻合度高于对手李昌镐
世界赛5
50

60.9

-10.9

40

53.3

-13.3
        常昊败，全盘吻合度高于对手李昌镐
世界赛6
45.6

43.2

2.4

48.9

49.5

-0.6
        常昊胜，全盘吻合度低于对手曹薰铉
世界赛7
50

50.8

-0.8

56.7

55.7

1
        常昊败
世界赛8
53.3

56.5

-3.2

61.1

61.5

-0.4
        常昊败
世界赛9
48.3

49.5

-1.2

58.4

58.8

-0.4
        常昊败
世界赛10
57.8

58.4

-0.6

60


56.5

3.5
        常昊败，全盘吻合度高于对手李世石
世界赛11
52.3

50.5

1.8

59.1

59.8

-0.7
        常昊败
世界赛12
51.1

55.8

-4.7

53.3

52.2

1.1
        常昊败，全盘吻合度高于对手崔哲瀚
世界赛13
55.6

60.6

-5

61.1

60.9

0.2
        常昊胜，全盘吻合度低于对手崔哲瀚
世界赛14
51.1

55.5

-4.4

48.9

53.4

-4.5
        常昊胜
世界赛15
60

65

-5

57.8

58.7

-0.9
        常昊胜
世界赛16
63.3

65.3

-2

42.2

46.2

-4
        常昊败，全盘吻合度高于对手古力
世界赛17
61.1

67.5

-6.4

57.8

63.3

-5.5
        常昊胜
世界赛18
67.8

62.7

5.1

58.9

58.8

0.1
        常昊败，全盘吻合度高于对手李世石
　平均
54.539

57.689

-3.150

53.378

56.161

-2.783


18局比赛中，常昊负13局，胜5局。明显负多胜少。但常昊前180手平均AI吻合度54.539%，高于对手的53.378%；常昊全局的AI吻合度平均57.689%；高于对手平均56.161%。
特别是，比赛胜负结果与全盘所有手数的AI吻合度对比结果相反的，整整10局。
足以证明

一、AI吻合度与一局棋的胜负，不仅不存在必然的对应关系，而且，一定数据基础上的平均AI吻合度也不能反映胜负关系。

二、对于同一个时代的棋手来说，平均AI吻合度，不能直接证明胜负关系，也就是说，AI吻合度不能直接证明棋力水平的高低。

三、对于不同时代的棋手来说，AI吻合度更加无法间接证明棋力水平的高低。

四、崔灿老师的论文如果不解决上述问题，则整篇论文存在重大理论缺陷，所有的其他讨论根本毫无意义。

【关于“四”，多解释几句】

崔灿老师以平均AI吻合度这个指标为核心，辅以一定的数据基础和边界条件，构建了一个衡量不同棋手（含不同时代的棋手）水平高低的理论工具。

这个理论工具要想发挥作用，就必须证明，它在这样的数据、条件下，面对绝大多数的棋手，是“普遍适用”的。

崔灿老师在论文中，首先是承认了他的这个理论工具对李昌镐的适用上就有问题。

李昌镐在相当长时间内是当之无愧毫无争议的世界第一人。但是AI吻合度指标就是看着不高（大意如此）。

那么除了李昌镐的问题没有解决意外，我用崔灿老师的数据，分析常昊的例子，又从另一个角度提了反例，证明即使平均AI吻合度高于对手，常昊的成绩仍然是负多、胜少——说明在一定时间内，常昊的围棋水平还是不如对手。这就是这个理论工具的另一个反例。

这些都说明，这个理论工具，即使是在限定的数据基础上、边界条件下，也不具有“普遍适用性”。

连活着的棋手身上的数据都解释不通的理论工具，怎么可能用来解释不同历史时期的棋手的数据？

换句话说，这个理论工具如果不能解决活着的棋手的数据问题，就根本不能去随意推广到古人头上。
--
FROM 223.104.38.*