这个把计算派发到离存储近的地方的假设,应该来自Hadoop吧
感觉现在云计算的话,搞一个Hadoop集群不太经济,直接访问s3之类的对象存储,就不需要考虑上述假设了
【 在 hgoldfish 的大作中提到: 】
: 互联网后端很多时候并没有什么计算,而是分布式地合并大量数据。这时候 spark 就有用了。
: dask 虽然可以从多种存储后端去拿数据。但它在派发计算任务的时候,不会把任务派发到离计算近的地方——这是我以前了解到的,不知道现在能不能实现?
:
--
FROM 123.112.22.*