看了原论文和您的文章
原论文的算法应该还可以更快一些...
例如把 最后那个 32x32的小矩阵 手动展开
还可以快几倍...
原论文 里面的算法, 那个 divide and conquer 比较有意思...
【 在 SeaCloudHill 的大作中提到: 】
: 以前灌水比较多,现在发文少了,但还会经常逛逛体系结构版。
: 昨晚刚好看到知乎上这么一个问题,就随手把2020年底的一个报告PPT的一部分给贴到了知乎上。也转过来,供小同行批评指正。
:
https://www.zhihu.com/question/20809971/answer/1678502542--
FROM 142.59.143.*