- 主题:对trt的启动的加速需求
看了下,版本没差。
config只改了线程数,缺省6,现在的55是测试软件跑出来的。如果用缺省值,只有几百搜索/秒
改了这个之后空盘b60权重1xxx 搜索/秒,用b40权重是 2xxx 搜索/秒
threads调降到32,差别不大。
联想的刃9000k性能比兼容机差这么多吗
TRT_60B_202205> name
TRT_60B_202205> version
TRT_60B_202205> list_commands
TRT_60B_202205> komi 7.5
TRT_60B_202205> boardsize 19
2022-05-25 18:59:09+0800: GTP Engine starting...
2022-05-25 18:59:09+0800: KataGo v1.11.0
2022-05-25 18:59:09+0800: Using Chinese rules initially, unless GTP/GUI overrides this
2022-05-25 18:59:09+0800: Using 55 CPU thread(s) for search
2022-05-25 18:59:09+0800: nnRandSeed0 = 5038078417846332057
2022-05-25 18:59:09+0800: After dedups: nnModelFile0 = weights\kata1-b60c320-s5967310848-d2859394052.bin.gz useFP16 auto useNHWC auto
2022-05-25 18:59:09+0800: Initializing neural net buffer to be size 19 * 19 exactly
2022-05-25 18:59:12+0800: TensorRT backend thread 0: Found GPU NVIDIA GeForce RTX 3080 Ti memory 12884377600 compute capability major 8 minor 6
2022-05-25 18:59:12+0800: TensorRT backend thread 0: Initializing (may take a long time)
2022-05-25 18:59:13+0800: Creating new cache file: KataGoData/trtcache/kata1-b60c320-s5967310848-d2859394052_gpu_86_19x19-exact_batch56_fp16
2022-05-25 19:03:14+0800: TensorRT backend thread 0: Model version 10 useFP16 = true
2022-05-25 19:03:14+0800: TensorRT backend thread 0: Model name: kata1-b60c320-s5967310848-d2859394052
2022-05-25 19:03:14+0800: Loaded neural net with nnXLen 19 nnYLen 19
2022-05-25 19:03:14+0800: Initializing board with boardXSize 19 boardYSize 19
2022-05-25 19:03:14+0800: Loaded config katago_configs\default_gtp.cfg
2022-05-25 19:03:14+0800: Loaded model weights\kata1-b60c320-s5967310848-d2859394052.bin.gz
2022-05-25 19:03:14+0800: Model name: kata1-b60c320-s5967310848-d2859394052
2022-05-25 19:03:14+0800: GTP ready, beginning main protocol loop
= KataGoCustom
TRT_60B_202205> kata-get-param playoutDoublingAdvantage
TRT_60B_202205> kata-get-param analysisWideRootNoise
TRT_60B_202205> kata-get-rules
= 1.11.0
= protocol_version
【 在 zszqzzzf 的大作中提到: 】
: katago111
:
--
修改:AlexandriaI FROM 114.240.247.*
FROM 114.240.247.*
启动速度慢的问题貌似已经解决了。
引擎首次加载初始化过程仍然要一两分钟,
从第二次开始就只要几秒钟了。
【 在 zszqzzzf 的大作中提到: 】
: 目前trt是好,但是启动太慢。
: 如果可以对最近启动的数据进行缓存,从缓存里读取,而不是重新解码等等,应该可以去除这开始的一分多钟。
--
FROM 114.240.247.*
需要更新哪个?
【 在 AlexandriaI 的大作中提到: 】
: 启动速度慢的问题貌似已经解决了。
: 引擎首次加载初始化过程仍然要一两分钟,
: 从第二次开始就只要几秒钟了。
: ...................
--
FROM 112.47.159.*
具体哪个母鸡,软件用了快一年了,周末整套大换血:nvidia的cudnn lizzie整合包 权重文件 都是重装的。
建议你不妨试下新的整合包,常用的权重加进去,配置文件线程数改一下就行了,很省事。然后看是否已经把加速需求解决了。
【 在 zszqzzzf 的大作中提到: 】
: 需要更新哪个?
--
修改:AlexandriaI FROM 114.240.247.*
FROM 114.240.247.*
嗯,下了一个lizzieyzy的大包,看来有新效果。
【 在 AlexandriaI 的大作中提到: 】
: 具体哪个母鸡,软件用了快一年了,周末整套大换血:nvidia的cudnn lizzie整合包 权重文件 都是重装的。
: 建议你不妨试下新的整合包,常用的权重加进去,配置文件线程数改一下就行了,很省事。然后看是否已经把加速需求解决了。
--
FROM 112.47.159.*
换成新版之后,空盘的速度降到了2k/s。
【 在 AlexandriaI 的大作中提到: 】
: 具体哪个母鸡,软件用了快一年了,周末整套大换血:nvidia的cudnn lizzie整合包 权重文件 都是重装的。
: 建议你不妨试下新的整合包,常用的权重加进去,配置文件线程数改一下就行了,很省事。然后看是否已经把加速需求解决了。
--
FROM 112.47.159.*
多谢分享:)
【 在 zszqzzzf (炼狱天使——反者道之动) 的大作中提到: 】
: 发信人: zszqzzzf (炼狱天使——反者道之动), 信区: Weiqi
: 标 题: Re: 对trt的启动的加速需求
: 发信站: 水木社区 (Thu May 26 18:06:12 2022), 转信
:
--
FROM 114.241.226.*
你那边,b40 vs b60 两个trt引擎 哪个表现强一些?
我机器上用2个引擎的最新版本对练,分别设置10s 20s 30s一步 搞了六七局。b60 负多胜少。
又用2021年8月的稳定版b40权重和两个今年的新权重pk (都是TensorRT),旧权重赢得很多。
大概两种可能:
1 这一年来katago技术进步缓慢;
2 3080Ti已经发挥不了新权重的性能,就是说,现有硬件带不动新权重,该升级了。
大家觉得那种可能性更高些?
【 在 zszqzzzf 的大作中提到: 】
: 换成新版之后,空盘的速度降到了2k/s。
:
--
修改:AlexandriaI FROM 114.240.247.*
FROM 114.240.247.*
卡弱,在短时高频b40反而表现得好一些。
当把思考时间延长到30s,或引擎提升使得b60的搜索数足够抵消b40更多的搜索数之后,
b60才能表现出那多出来的100多分效能。
【 在 AlexandriaI 的大作中提到: 】
: 你那边,b40 vs b60 两个trt引擎 哪个表现强一些?
: 我机器上用2个引擎的最新版本对练,分别设置10s 20s 30s一步 搞了六七局。b60 负多胜少。
: 又用2021年8月的稳定版b40权重和两个今年的新权重pk (都是TensorRT),旧权重赢得很多。
: ...................
--
FROM 112.47.159.*
你是说稳定版 40b-530 比新的 40b权重+trt引擎还强?
【 在 AlexandriaI 的大作中提到: 】
: 你那边,b40 vs b60 两个trt引擎 哪个表现强一些?
: 我机器上用2个引擎的最新版本对练,分别设置10s 20s 30s一步 搞了六七局。b60 负多胜少。
: 又用2021年8月的稳定版b40权重和两个今年的新权重pk (都是TensorRT),旧权重赢得很多。
: ...................
--
FROM 114.249.122.*