【 在 philbloo 的大作中提到: 】
: 这个说法是最合理的 影响内存访问的因素太多 必须具体问题具体分析
: 比方说矩阵乘法和SHA3混合使用的情况,里面是load/store到多个 sram bank。有不止一个 bus master 在工作,除了 cpu 之外还有 hash coprocessor ,dma,modulo arithmetic coprocessor。bus 可能有不止一个,还得考虑 instruction 和 data 抢 bus,以及 cache 大小等等等等。找到最少 contention 的唯一的办法是细粒度的测试加上 heuristic 调整,根据不同的硬件做不同的调试,而且即使这样也只能宣称 near optimal 。
: 所以想毕其功于一役的找到唯一一个最佳 memcpy 是缘木求鱼。
: ...................
对硬件新的优化策略和实现关注的不多,
目前, 如果数据在内存和GPU内存直接的move的话, 这个是个什么流程?
也是需要借助CPU寄存器通过特定指令完成吗?
这个PCIE总线属于外设模式了, 是不是通过IO指令完成?
--
FROM 124.126.0.*