这个也要看pipeline 的load/store到L1 cache的data path 的width,还需要结合cpu到bus的接口width。最好访问的数据不要低于这个位宽的data length。这些细节感觉目前不重要了。
现在不是有memcpy的指令吗。arm 上也有了。
【 在 hgoldfish (老鱼) 的大作中提到: 】
: 也就是说 memcpy() 已经考虑了不对齐的情况,所以程序员不需要特别的优化。但是操作内存的时候,为了让 load/store 更加高效,应该尽量按计算机的字对齐是吧?64 位计算机就对齐到 8 个字节是最好的?
:
: 【 在 ArchLinux 的大作中提到: 】
: : 一般来说是优化load吧,就是把source对齐,因为程序的延迟来源于load,
--
FROM 114.85.234.*