这个说法是最合理的 影响内存访问的因素太多 必须具体问题具体分析
比方说矩阵乘法和SHA3混合使用的情况,里面是load/store到多个 sram bank。有不止一个 bus master 在工作,除了 cpu 之外还有 hash coprocessor ,dma,modulo arithmetic coprocessor。bus 可能有不止一个,还得考虑 instruction 和 data 抢 bus,以及 cache 大小等等等等。找到最少 contention 的唯一的办法是细粒度的测试加上 heuristic 调整,根据不同的硬件做不同的调试,而且即使这样也只能宣称 near optimal 。
所以想毕其功于一役的找到唯一一个最佳 memcpy 是缘木求鱼。
【 在 MaLing 的大作中提到: 】
:
https://sourceware.org/legacy-ml/libc-alpha/2015-01/msg00651.html: 这是OndAej 对于dpdk memcpy的评价
:
--
FROM 176.93.89.*