- 主题:spark较为简单的计算,是不是比数据库慢很多?
自己建一个dataframe,100条记录,4个字段。 都是整数。
执行较简单的查询。
重复的动作做50次,慢的不行。。
java的缘故,还是因为分布式计算,多了很多额外的事情。。
++++++++++++++++++++++++++++++++++++++++++++++++
query = "SELECT * FROM integer_table WHERE {0}".format(expr)
result = spark.sql(query)
--
FROM 115.206.184.*
这种哪怕是分布式计算,spark也不占优势
spark sql的优势在于olap
你这个叫ad-hoc查询
【 在 saynothing 的大作中提到: 】
: 自己建一个dataframe,100条记录,4个字段。 都是整数。
: 执行较简单的查询。
: 重复的动作做50次,慢的不行。。
: ...................
--
FROM 119.139.198.*
:(
我网上瞥见pyspark的简单例子,可以做查询。 觉得和python整合在一起,可以少写很多代码。
毕竟少了客户端连接,api查询这些。
但没想到慢的没法忍受。。
+++++++++++++++++++++++++++++++++++++++
自动化生成一批where表达式,比如:10万个。
然后在随机生成的行列100x4的表里做查询。
测试,where通过率。 就这么个事儿。。
【 在 iwannabe 的大作中提到: 】
: 这种哪怕是分布式计算,spark也不占优势
: spark sql的优势在于olap
: 你这个叫ad-hoc查询
: ...................
--
FROM 115.206.184.*
框架本身固有开销大而已,数据量大了, 效率优势就看到了。
--
FROM 43.206.234.*
明明掏出计算器就能干的事,你非要起动一个集群,何必呢?
【 在 saynothing 的大作中提到: 】
: 自己建一个dataframe,100条记录,4个字段。 都是整数。
: 执行较简单的查询。
: 重复的动作做50次,慢的不行。。
: ...................
--
FROM 223.104.147.*
可以做个简单实验,蒙特卡洛法算pi,spark大概有20s的调度时间,剩下的才是按照分片数并行的时间。比如单机100s,
spark 2分片:70s = 20 + 100/2
spark 3分片:55s = 20 + 100/3
【 在 saynothing 的大作中提到: 】
: 自己建一个dataframe,100条记录,4个字段。 都是整数。
: 执行较简单的查询。
: 重复的动作做50次,慢的不行。。
: ...................
--
FROM 58.135.83.*
你搞clickhouse单机版,比这个快。
【 在 saynothing 的大作中提到: 】
: :(
: 我网上瞥见pyspark的简单例子,可以做查询。 觉得和python整合在一起,可以少写很多代码。
: 毕竟少了客户端连接,api查询这些。
: ...................
--
FROM 223.104.97.*
两个因素都有
Java的东西不能碰
【 在 saynothing (止语) 的大作中提到: 】
: 发信人: saynothing (止语), 信区: Python
: 标 题: spark较为简单的计算,是不是比数据库慢很多?
: 发信站: 水木社区 (Fri Apr 26 11:37:17 2024), 转信
:
--
FROM 183.179.53.*