- 主题:64 位计算机,内存地址对齐四字节还是八字节比较有效率?
现代cpu基本不需要考虑总线对齐
非对齐的需要两次总线读写,这个是几十年前的体系架构书的内容了。
随便一搜就有的测试结果,对不对齐没有可见变化
https://jacquesheunis.com/post/memory-alignment-in-2021/
【 在 hgoldfish 的大作中提到: 】
: 也就是说 memcpy() 已经考虑了不对齐的情况,所以程序员不需要特别的优化。但是操作内存的时候,为了让 load/store 更加高效,应该尽量按计算机的字对齐是吧?64 位计算机就对齐到 8 个字节是最好的?
:
--
FROM 114.248.175.*
磕磕巴巴的说什么呢 你是文科生吗?现在倒来装理客中了,踩其他人的时候你不也是装大尾巴狼吗
我就是看不惯你踩maling 所以也踩你一脚 因为我知道我踩你绰绰有余
信不信由你 还别说我写的论文和slides 连我写的代码-不管是c还是py还是c++还是verilog-你都看不懂
你是不是想说还有你看不懂的c代码?当然memcpy你是能看懂了,但给你一个50行的数论计算函数,你压根不知道里面在算什么。给你看一个10行的pseudo code,你连一个符号都看不懂。
好吧 谈数论是在欺负你 那体系结构你又懂多少?设计过流水线吗?设计过simd吗?玩过fpga吗?流过片吗?实现过fft吗?软件还是硬件?写过的最复杂的算法能拿得出手吗?
告诉你 不管是软件硬件算法还是代数分析 我通通把你踩死死的
【 在 leadu 的大作中提到: 】
: 少装这b毛,你要真像你说的这样根本就不会参加这个帖子。
: 进来一句技术不聊,光顾着装b,不就是十几岁少年想装b吸引女生注意的小把戏么。
: 直说吧,你是想吸引我的注意,还是老鱼、豆大,俞飞鸿还是全版的
: ...................
--
FROM 176.93.89.*
这就破防啦?装b不要打啥帮助别人旗号,是帮马凌还是为了自己装b大家都看到出来。
而且你装b的话要是一点干货都不掏,大家其实也很难搞。但你要是掏干货那得是硬货。
而你这掏的都是啥b毛玩意,数论、verilog、pipeline、simd、fpga、fft这些都是本科生研究生相关专业的课后作业啊?
现在居然有人用课后作业装b?世风日下呐
芬兰小留是吧,马凌那边没有硬件职位,你舔他也白舔。
我大概是6年前搞过一段时间的智能网卡,fpga线路的。你看我帖子看的少,没有见过我喷dpu的时候,否则你不会试图装这个b。
剩下的还需要我多说什么么?
【 在 philbloo 的大作中提到: 】
: 磕磕巴巴的说什么呢 你是文科生吗?现在倒来装理客中了,踩其他人的时候你不也是装大尾巴狼吗
: 我就是看不惯你踩maling 所以也踩你一脚 因为我知道我踩你绰绰有余
: 信不信由你 还别说我写的论文和slides 连我写的代码-不管是c还是py还是c++还是verilog-你都看不懂
: ...................
--
FROM 114.248.175.*
其实老鱼这个问题我不太感兴趣,随便一搜就有答案的事情。
但是可以趁机锤炼一下我对开源的观点,这个我倒是感兴趣,毕竟前几年去Linux版踢了几次版没有什么收获
但是却没有想到会debug一个脆弱小留,真是充满意外呐
--
FROM 114.248.175.*
行 露一手给你看看 dilithium sign 算法 我做的改进 比NIST的spec少了上千次load/store不说 还更安全
IP的一小部分是我写的 sim和driver所有代码是我写的 某头牌芯片厂测试了说速度比他们想象的快得多
接下来要做的是 arithmetic to boolean masking (a2b) 和 b2a,考虑怎么加vector co-processor,考虑怎么做dpa-resistency test
实现的部分 你压根边都摸不着 就仅仅是这十几行算法 每一个字你都看不懂 就让你说说里面的 dot product 怎么实现 你都一句话说不出来 还牛b个啥?来我这实习的起步是博士生,研究生门槛都摸不着。
我这是在欺负你。给你一年时间去搜索,你但凡能找到一个我这是抄袭的证据,或者是给出一个你的意见,都算你能干。
\begin{frame}{Dilithium Sign Revised}
\begin{align}
&\hat{s_1} \coloneqq \ntt{s_1},
\hat{s_2} \coloneqq \ntt{s_2}/\alpha,
\hat{t_0} \coloneqq \ntt{t_0}\\
&y \gets \text{ExpandMask}\\
&w \coloneqq \ntti{\hat{A}\cdot \ntt{y}}\\
&w_0 \coloneqq w + \gamma_2\\
&w_1 \coloneqq w_0 / \alpha\\
&c \gets \ntt{\text{SampleInBall}}\\
&z \coloneqq y + \ntti{c\cdot \hat{s_1}},
\text{checkrange}(z, \gamma_1 - \beta, q - (\gamma_1 - \beta))\\
&r_0 \coloneqq (\ntti{c \cdot \hat{s2}} + w_1) \cdot \alpha + \gamma_2 - w_0\\
&\text{checkrange}(r, \gamma_2 - \beta, q - (\gamma_2 - \beta))\\
&c_t \coloneqq \ntti{c\cdot \hat{t_0}},
\text{checkrange}(c_t, \gamma_2, q-\gamma_2)\\
&h \coloneqq \text{make\_hint}(c_t, h - r_0, w_1)
\end{align}
\end{frame}
【 在 leadu 的大作中提到: 】
: 这就破防啦?装b不要打啥帮助别人旗号,是帮马凌还是为了自己装b大家都看到出来。
: 而且你装b的话要是一点干货都不掏,大家其实也很难搞。但你要是掏干货那得是硬货。
: 而你这掏的都是啥b毛玩意,数论、verilog、pipeline、simd、fpga、fft这些都是本科生研究生相关专业的课后作业啊?
: ...................
--
FROM 176.93.89.*
那为啥 c 语言编译器默认都是对齐的呢?不默认 __attribute__((__packed__)) 算了。
【 在 leadu 的大作中提到: 】
: 现代cpu基本不需要考虑总线对齐
: 非对齐的需要两次总线读写,这个是几十年前的体系架构书的内容了。
: 随便一搜就有的测试结果,对不对齐没有可见变化
: ...................
--
FROM 59.60.25.*
不给你截图,给你latex原文,算给你面子了。你要是试图去找个latex 引擎渲染的话,这里用的 \ntt 和 \ntti 是指 NTT 和 NTT-inverse。你这天天吹牛b的,搜索引擎肯定用得遛,这latex里面其它的关键字也够多了,慢慢搜,等能弄懂哪怕是一行了,再来接着吹。
【 在 leadu 的大作中提到: 】
: 其实老鱼这个问题我不太感兴趣,随便一搜就有答案的事情。
: 但是可以趁机锤炼一下我对开源的观点,这个我倒是感兴趣,毕竟前几年去Linux版踢了几次版没有什么收获
: 但是却没有想到会debug一个脆弱小留,真是充满意外呐
--
FROM 176.93.89.*
总线对齐这个问题是实际存在的,你问的是x64,这个是现代cpu,它处理了不代表别的cpu都处理了
而且有别的比如atomicity等问题,需要具体问题具体分析。
但就你主贴问的memcpy非总线对齐有没有性能影响,是基本没有影响的,毕竟intel的工程师上班总得干点活吧
【 在 hgoldfish 的大作中提到: 】
: 那为啥 c 语言编译器默认都是对齐的呢?不默认 __attribute__((__packed__)) 算了。
:
--
FROM 114.248.175.*
论坛上装b是靠可以给版友带来多少价值,而不是“我做个动作你会吗”,真幼稚。老鱼提出的问题,你能不能给解答了,并且提出改进方案什么的。
就算看看你的问题,密码学用的dot product一般都不难。你脑子被门夹过还是怎么地,一直用cs和math本科课程的问题装b
“比NIST的spec少了上千次load/store不说 还更安全” 你密码学咋过的,这种傻b问题也能犯而且还好意思说出来,赶紧重新流片吧
你这破防之后智商也下降了啊,脆弱小留->脆弱傻留
【 在 philbloo 的大作中提到: 】
: 行 露一手给你看看 dilithium sign 算法 我做的改进 比NIST的spec少了上千次load/store不说 还更安全
: IP的一小部分是我写的 sim和driver所有代码是我写的 某头牌芯片厂测试了说速度比他们想象的快得多
: 接下来要做的是 arithmetic to boolean masking (a2b) 和 b2a,考虑怎么加vector co-processor,考虑怎么做dpa-resistency test
: ...................
--
FROM 114.248.175.*
哈哈 给你挖个坑你果然跳 这里面压根没有 dot product 连这里面的符号都看不懂 还敢说你懂密码学?要点脸吧
“密码学用的dot product一般都不难” 哪怕是scalar的乘法让你写你都写不出来 就最基本的 Montgomery reduction 和 Barrett reduction 你都学不会 还别说怎么写一个安全的乘法
好歹你还听过 dot product,要是再稍微带上点 lattice,polynomial over finite field,ideal,supersingular elliptic curve ,那你连听都没听过了。还是那句话,要真跟你说技术的事,那是欺负你。
cryptography 的问题我估计你的智商充其量能搞明白啥是 merkle tree
你这智商也就能写点代码 其它任何稍微要花点脑筋的事 你这辈子也别指望了
【 在 leadu 的大作中提到: 】
: 论坛上装b是靠可以给版友带来多少价值,而不是“我做个动作你会吗”,真幼稚。老鱼提出的问题,你能不能给解答了,并且提出改进方案什么的。
: 就算看看你的问题,密码学用的dot product一般都不难。你脑子被门夹过还是怎么地,一直用cs和math本科课程的问题装b
: “比NIST的spec少了上千次load/store不说 还更安全” 你密码学咋过的,这种傻b问题也能犯而且还好意思说出来,赶紧重新流片吧
: ...................
--
FROM 176.93.89.*