- 主题:请教个rust基本问题,Rc<RefCell<T>>有啥坏处?
虽然已经过了好多天,不过我也想参与讨论这个问题。
依我浅见,虽然楼主关注的重点是Rc<RefCell<T>>,但我却想
关注所有权树这个东西。我的看法是,所有权树、&、immutability,
这些是好东西,也是螃蟹书想要表达的。它们好就好在,节省心智
开销,把复杂性收束在代码的局部。
如果使用Rc<Refcell<T>>,即便不考虑weak指针循环引用之类的问题,
那也是把一定量的数据开放给了大半个项目,乃至开放给了全局,
项目的各个部分都有可能访问到各个部分。这样表面上看起来方便,
但其实复杂性变大以后就很麻烦了。
immutability是好东西,进而&也要好于&mut。那么如果好几个主体
要访问修改同一个东西该怎么办呢?那么它往往就已经不是同一个东西了,
可以拷贝成多个“不可变的数据副本”,让多个主体去访问。
这样虽然会增大内存开销,但是只要此类数据本体尺寸不大就还是好用的。
那么如果数据尺寸很大,以及大家都一定要修改同一个核心版本该怎么办
呢?这时候实际上就应该用数据库(包括SQL的和non-SQL的)或者消息队
列去管理了。
那么如果这种数据又非常地特殊,只有这个项目的领域知识里存在,该怎
么办呢?那么我想,首先其实不能被SQL表达的领域数据是……比较少见
的,往往即便有多年经验的老码农,也不见得能真正理解到SQL表达能力
的极限。其次,这时候要做的是把项目拆分成好几个进程,其中管理一
个“大家都要访问、读写、讲究高频访问效率”的庞大复杂单一核心数
据结构,这本身就是一个项目的独立模块,是要能接受连接请求的,连接
池之类的技术都要用进去。这才对得起它的复杂程度,而不是仅仅用Rc
来“让大家都能访问它”。
总之,我的看法是,
1. 正常情况下,使用&。连&mut都要尽量节制。
2. 需要共享的数据,应该把不可变的数据作为参数来相互传递
3. 对于需要多方访问、修改的复杂数据,使用数据库
4. 连数据库都难以表达的核心复杂高性能数据,安排开发一个单独的
子项目,作为独立模块进程来管理
实际上在很多情况下,我就连写java都是这么干的。例如“不可变的
数据作为参数来传递”,背后就是data-object的设计模式罢了。
【 在 beep (菜M.喵星耗子) 的大作中提到: 】
: 团队正在迁往rust,有两种关于数据结构风格的意见:
: 1. 按照螃蟹书的风格建议,既然使用了rust,就需要先费心根据需求设计好所有权树,尽量少用Rc<RefCell<T>>,多用&和&mut解决问题
: 2. 因为业务需求变化不可预测,现在设计的所有权树不一定适应将来的需求,比如一个所有权树的根,将来要变成Rc多个主体拥有,哪个主体先死都不一定,那么现在就尽量多使用Rc<RefCell<T>>,其实就是把rust当作python来用,大部分重要的数据结构变量都进堆,都用Rc保证可
: ...................
--
修改:wolfgang FROM 101.93.22.*
FROM 101.93.22.*
是啥类型的项目?可以稍微透露一下吗? :)
我有这样一些不成熟的想法哈……
首先,既然为了压榨性能,不惜承受心智模型负担,那么,
&的性能比Rc高,所以应该弃绝Rc。为了性能嘛。(当然我
个人不是压榨性能的爱好者,只不过Rc确实不适合用来压
榨性能。)
其次,80%的CPU时间是用在20%的代码行数上的,这些代码是
hot-part。这些hot部分应该特殊对待,不宜用Rc来让它们和
其它代码访问同样的数据。
再次,拆模块是性能之友,因为scalability是性能之友嘛。
把模块拆好,这样才好确定哪些模块可以复制部署到多台机
器上、使用更多的CPU核心数。
【 在 beep (菜M.喵星耗子) 的大作中提到: 】
: 结构清晰心智模型简单,和压榨性能,有时候就是矛盾的。你说的这个方式,把共享的可变资源搞成独立模块甚至搞到数据库里面去,就会慢啊。在性能敏感的场景下,跑一个东西,也许就是10秒和十分钟的区别呢
--
修改:wolfgang FROM 101.93.22.*
FROM 101.93.22.*
啊这……
请容我多嘴一句:slotmap与关系数据库其实已经只有一步之遥了
啊。
关系数据库里的“关系”,基本形式就是:我的字段里存着你的id
(像极了array index),我就记住了你与我的关系。
而一旦用上关系数据库,至少就可以立刻用上数据库提供的id索引。
从线性寻址变成B树寻址,这对性能是有很大益处的。
而对于数据一致性问题,transaction可以帮上一些忙,虽然可能
不能全都轻易解决。
读写硬盘确实比较慢,但可以使用内存数据库嘛。
总之,当我们的业务需要对几百万条关系复杂的数据进行管理的话,
那么我们干的其实就是数据库的活。即便硬挺着不用数据库,迟早
也要把数据库面对的种种挑战都自己解决一遍。
当然,这只是我的一家之言……
另外,关于“所有权树”,我其实有一点不同的想法。我觉得,
rust和modern c++所讨论的所有权,它不是形成一个所有权的树,
而是所有权的流,是个flow。
其中一个很典型的现象就是,一个函数,接受输入参数,返回结果
值,这个结果值的所有权,也一起返回了,交给了调用者。
这些数值、数据结构,进而投入新的运算,把所有权交出去,然后
得到返回值,也拿到了新值的所有权。所有权就这样流动,用完了
以后就被RAII回收。这样的做法,全程都是const的,旧值不变化,
新值被产出,这是符合很多数学计算思想的思维方式。
我猜想,当我们在设计布线的时候,或许:旧的布线是一种输入,
新的元件需求是另一种输入,进而,新的布线是计算得到的输出。
所有权是在旧的值到新的值之间流动,每一个值(布线方案)都是
一个对象,旧的对象被RAII回收,新的对象投入更多的计算与优化。
但是每一个此类对象,一旦生成,就不会变化,不必再有&mut发生,
也不会有用到Rc的需求。
这样或许可以节省许多心智开销,而且性能方面吃亏很少。
【 在 beep (菜M.喵星耗子) 的大作中提到: 】
: EDA方面的项目,典型场景是要构建一个层次化的几何体的树,在里面用各种算法去布局布线,也就是调整几何体的位置、增加用于连线的新几何体、检测矩形碰撞、连通性等等。典型规模大概在几百万个矩形这个量级上,或者更大。
: 是的,这个主题开头几个帖子我也表达了对Rc性能的担心。而且用Rc<RefCell<T>>写了两周,已经出现了较难控制的循环引用内存泄漏问题。
: 现在倾向于使用slotmap这类的arena方案,就是用array index来代替指针/引用/Rc。性能损失也是会有的,因为毕竟中间多了一次根据下标做线性寻址的操作,slotmap这类方案为了避免ABA问题,还要额外储存version信息并且比对。直觉上这个和Rc+RefCell相比,性能损失应该差不
: ...................
--
修改:wolfgang FROM 101.88.39.*
FROM 101.88.39.*
赞,你说的很有道理~
【 在 beep (菜M.喵星耗子) 的大作中提到: 】
: 是的,arena key/index 就是数据库里面的row id。但是还是不一样的,数据库是为硬盘慢速读写而设计的,所以b树啊、索引啊,核心都是为了减少硬盘读写次数。而rust开发里更一般的场景的数据量没到内存放不下的程度,所以都是内存存取,所以还是要比数据库简单很多的。
: 这个不对吧?所谓线性寻址就是连续空间用乘法计算指针偏移量,其实就是数组按下标寻址,还是要比b树啊哈希啊快多了
: 用redis的背后也是从key 哈希到地址啊,可以简化理解为一个大大的hashmap,还是比不上同一进程内的数组下标寻址的。
: ...................
--
FROM 101.88.39.*