spark较为简单的计算，是不是比数据库慢很多？

水木社区手机版

主题:spark较为简单的计算，是不是比数据库慢很多？
楼主|saynothing|2024-04-26 11:37:17|展开
自己建一个dataframe，100条记录，4个字段。都是整数。
执行较简单的查询。

重复的动作做50次，慢的不行。。
java的缘故，还是因为分布式计算，多了很多额外的事情。。

++++++++++++++++++++++++++++++++++++++++++++++++
query = "SELECT * FROM integer_table WHERE {0}".format(expr)
result = spark.sql(query)
--
FROM 115.206.184.*
2楼|saynothing|2024-04-26 20:43:46|展开
：（

我网上瞥见pyspark的简单例子，可以做查询。觉得和python整合在一起，可以少写很多代码。
毕竟少了客户端连接，api查询这些。

但没想到慢的没法忍受。。

+++++++++++++++++++++++++++++++++++++++
自动化生成一批where表达式，比如：10万个。
然后在随机生成的行列100x4的表里做查询。

测试，where通过率。就这么个事儿。。

【在 iwannabe 的大作中提到: 】
: 这种哪怕是分布式计算，spark也不占优势
: spark sql的优势在于olap
: 你这个叫ad-hoc查询
: ...................
--
FROM 115.206.184.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版