对trt的启动的加速需求

水木社区手机版

主题:对trt的启动的加速需求
10楼|AlexandriaI|2022-05-25 19:10:34|只看此ID
看了下，版本没差。
config只改了线程数，缺省6，现在的55是测试软件跑出来的。如果用缺省值，只有几百搜索/秒
改了这个之后空盘b60权重1xxx 搜索/秒，用b40权重是 2xxx 搜索/秒
threads调降到32，差别不大。
联想的刃9000k性能比兼容机差这么多吗

TRT_60B_202205> name
TRT_60B_202205> version
TRT_60B_202205> list_commands
TRT_60B_202205> komi 7.5
TRT_60B_202205> boardsize 19
2022-05-25 18:59:09+0800: GTP Engine starting...
2022-05-25 18:59:09+0800: KataGo v1.11.0
2022-05-25 18:59:09+0800: Using Chinese rules initially, unless GTP/GUI overrides this
2022-05-25 18:59:09+0800: Using 55 CPU thread(s) for search
2022-05-25 18:59:09+0800: nnRandSeed0 = 5038078417846332057
2022-05-25 18:59:09+0800: After dedups: nnModelFile0 = weights\kata1-b60c320-s5967310848-d2859394052.bin.gz useFP16 auto useNHWC auto
2022-05-25 18:59:09+0800: Initializing neural net buffer to be size 19 * 19 exactly
2022-05-25 18:59:12+0800: TensorRT backend thread 0: Found GPU NVIDIA GeForce RTX 3080 Ti memory 12884377600 compute capability major 8 minor 6
2022-05-25 18:59:12+0800: TensorRT backend thread 0: Initializing (may take a long time)
2022-05-25 18:59:13+0800: Creating new cache file: KataGoData/trtcache/kata1-b60c320-s5967310848-d2859394052_gpu_86_19x19-exact_batch56_fp16
2022-05-25 19:03:14+0800: TensorRT backend thread 0: Model version 10 useFP16 = true
2022-05-25 19:03:14+0800: TensorRT backend thread 0: Model name: kata1-b60c320-s5967310848-d2859394052
2022-05-25 19:03:14+0800: Loaded neural net with nnXLen 19 nnYLen 19
2022-05-25 19:03:14+0800: Initializing board with boardXSize 19 boardYSize 19
2022-05-25 19:03:14+0800: Loaded config katago_configs\default_gtp.cfg
2022-05-25 19:03:14+0800: Loaded model weights\kata1-b60c320-s5967310848-d2859394052.bin.gz
2022-05-25 19:03:14+0800: Model name: kata1-b60c320-s5967310848-d2859394052
2022-05-25 19:03:14+0800: GTP ready, beginning main protocol loop
= KataGoCustom
TRT_60B_202205> kata-get-param playoutDoublingAdvantage
TRT_60B_202205> kata-get-param analysisWideRootNoise
TRT_60B_202205> kata-get-rules
= 1.11.0
= protocol_version

【在 zszqzzzf 的大作中提到: 】
: katago111
:
--
修改:AlexandriaI FROM 114.240.247.*
FROM 114.240.247.*
11楼|AlexandriaI|2022-05-25 20:10:48|只看此ID
启动速度慢的问题貌似已经解决了。
引擎首次加载初始化过程仍然要一两分钟，
从第二次开始就只要几秒钟了。

【在 zszqzzzf 的大作中提到: 】
: 目前trt是好，但是启动太慢。
: 如果可以对最近启动的数据进行缓存，从缓存里读取，而不是重新解码等等，应该可以去除这开始的一分多钟。
--
FROM 114.240.247.*
12楼|zszqzzzf|2022-05-25 20:19:53|只看此ID
需要更新哪个？
【在 AlexandriaI 的大作中提到: 】
: 启动速度慢的问题貌似已经解决了。
: 引擎首次加载初始化过程仍然要一两分钟，
: 从第二次开始就只要几秒钟了。
: ...................
--
FROM 112.47.159.*
13楼|AlexandriaI|2022-05-25 21:45:41|只看此ID
具体哪个母鸡，软件用了快一年了，周末整套大换血：nvidia的cudnn lizzie整合包权重文件都是重装的。
建议你不妨试下新的整合包，常用的权重加进去，配置文件线程数改一下就行了，很省事。然后看是否已经把加速需求解决了。

【在 zszqzzzf 的大作中提到: 】
: 需要更新哪个？
--
修改:AlexandriaI FROM 114.240.247.*
FROM 114.240.247.*
14楼|zszqzzzf|2022-05-26 17:31:37|只看此ID
嗯，下了一个lizzieyzy的大包，看来有新效果。

【在 AlexandriaI 的大作中提到: 】
: 具体哪个母鸡，软件用了快一年了，周末整套大换血：nvidia的cudnn lizzie整合包权重文件都是重装的。
: 建议你不妨试下新的整合包，常用的权重加进去，配置文件线程数改一下就行了，很省事。然后看是否已经把加速需求解决了。
--
FROM 112.47.159.*
15楼|zszqzzzf|2022-05-26 18:05:32|只看此ID
换成新版之后，空盘的速度降到了2k/s。

【在 AlexandriaI 的大作中提到: 】
: 具体哪个母鸡，软件用了快一年了，周末整套大换血：nvidia的cudnn lizzie整合包权重文件都是重装的。
: 建议你不妨试下新的整合包，常用的权重加进去，配置文件线程数改一下就行了，很省事。然后看是否已经把加速需求解决了。
--
FROM 112.47.159.*
16楼|AlexandriaI|2022-05-26 19:27:17|只看此ID
多谢分享：）

【在 zszqzzzf (炼狱天使——反者道之动) 的大作中提到: 】
: 发信人: zszqzzzf (炼狱天使——反者道之动), 信区: Weiqi
:  标  题: Re: 对trt的启动的加速需求
:  发信站: 水木社区 (Thu May 26 18:06:12 2022), 转信
:
--
FROM 114.241.226.*
17楼|AlexandriaI|2022-05-27 23:39:00|只看此ID
你那边，b40 vs b60 两个trt引擎哪个表现强一些？
我机器上用2个引擎的最新版本对练，分别设置10s 20s 30s一步搞了六七局。b60 负多胜少。
又用2021年8月的稳定版b40权重和两个今年的新权重pk （都是TensorRT），旧权重赢得很多。
大概两种可能：
1 这一年来katago技术进步缓慢；
2 3080Ti已经发挥不了新权重的性能，就是说，现有硬件带不动新权重，该升级了。
大家觉得那种可能性更高些？

【在 zszqzzzf 的大作中提到: 】
: 换成新版之后，空盘的速度降到了2k/s。
:
--
修改:AlexandriaI FROM 114.240.247.*
FROM 114.240.247.*
18楼|zszqzzzf|2022-05-28 08:41:14|只看此ID
卡弱，在短时高频b40反而表现得好一些。
当把思考时间延长到30s，或引擎提升使得b60的搜索数足够抵消b40更多的搜索数之后，
b60才能表现出那多出来的100多分效能。

【在 AlexandriaI 的大作中提到: 】
: 你那边，b40 vs b60 两个trt引擎哪个表现强一些？
: 我机器上用2个引擎的最新版本对练，分别设置10s 20s 30s一步搞了六七局。b60 负多胜少。
: 又用2021年8月的稳定版b40权重和两个今年的新权重pk （都是TensorRT），旧权重赢得很多。
: ...................
--
FROM 112.47.159.*
19楼|haili|2022-05-28 10:58:20|只看此ID
你是说稳定版 40b-530 比新的 40b权重+trt引擎还强？

【在 AlexandriaI 的大作中提到: 】
: 你那边，b40 vs b60 两个trt引擎哪个表现强一些？
: 我机器上用2个引擎的最新版本对练，分别设置10s 20s 30s一步搞了六七局。b60 负多胜少。
: 又用2021年8月的稳定版b40权重和两个今年的新权重pk （都是TensorRT），旧权重赢得很多。
: ...................
--
FROM 114.249.122.*