- 主题:最近看大数据方面的选型,轮子太多了
比这复杂,我的理解,分布式应用目前比较正确的形态
只要是分布式应用,理论上都得考虑这些问题
【 在 guestking (无) 的大作中提到: 】
: 我对flink的理解
: flink就是一个有状态的kafka consumer
: 当然数据来源不止kafka这一个
: 相比于你自己写一个consumer
: flink提供了更多企业级的功能支持
: 比如并行,多算子协同,checkpoint,savepoint,故障恢复,窗口等等功能
: 这些东西你要自己写,还是挺麻烦的
--
FROM 221.220.225.*
数据清洗吧,还有一些实时的统计指标。
虽然clickhouse有直接接kafka的功能,但是我试过,
一旦遇到字段不符合定义,直接退出。
所以还需要整一个etl。不知道最新版的改进了没有。
【 在 MyWorkLife (我是谁) 的大作中提到: 】
: 用flink的目的是啥呢,
: clickhouse的查询还不够满足实时性?
--
FROM 223.104.96.*
读写是真的快。
压缩率是真的高。
稳定是真的稳定。我搭了一个7节点的clickshoue,除了因为zk日志解压导致挂掉之外,整个集群稳定运行了2年。。一直在入库。
缺点也是有的:
查询的都是范围查询,无法像hbase一样,根据一个rowid来取。
很多sql不兼容,写sql得写专用的来进行数据分析,写得累死。。。官方说将来会考虑兼容标准的sql语法。
扩容困难,加机器麻烦,还得修改配置。表的迁移也很麻烦。原来3shard的表扩到6shard的表需要先建新表,然后倒腾旧表到新表去。
自定义函数不会写,因为是c++。。。不如hive的udf好弄。
所以,大家不考虑下doris么?
【 在 Xjt (Voldemort) 的大作中提到: 】
: 为啥都在推clickhouse呢?
: 太奇怪了。到底优势在哪里呢?
--
修改:lokta FROM 223.104.96.*
FROM 223.104.96.*
如果你只是需要分布式消费数据,kafka多接几个consumer就行了
我说的多算子协同其实就包含了分布式的含义了
的确是比普通的分布式要更复杂
【 在 sayinger (言者) 的大作中提到: 】
: 比这复杂,我的理解,分布式应用目前比较正确的形态
: 只要是分布式应用,理论上都得考虑这些问题
--
FROM 223.166.140.*
现在都是云原生,扩容的事情,云会自己搞定吧,这个无所谓了
压缩率确实高,我体会到了……
但据说写入不支持碎片化写入,最好是一千两千条一块合并插入?
【 在 lokta 的大作中提到: 】
: 读写是真的快。
: 压缩率是真的高。
: 稳定是真的稳定。我搭了一个7节点的clickshoue,除了因为zk日志解压导致挂掉之外,整个集群稳定运行了2年。。一直在入库。
: ...................
--
FROM 117.136.119.*
doris的话,不如用阿里云的Analytic DB for Mysql了吧,无缝从mysql切换过去。
【 在 lokta 的大作中提到: 】
: 读写是真的快。
: 压缩率是真的高。
: 稳定是真的稳定。我搭了一个7节点的clickshoue,除了因为zk日志解压导致挂掉之外,整个集群稳定运行了2年。。一直在入库。
: ...................
--
FROM 101.80.150.*
dolphindb
【 在 iwannabe 的大作中提到: 】
: 这玩意儿比java的轮子还多,一般的大数据分析系统什么比较成熟?
: 还有个时序数据库(influxdb,timescaledb,tdengine),这玩意儿怎么和olap结合起
: 来
:
: ### 技术栈
:
: \- Parquet
:
: \- olap引擎
: ..................
发自「今日水木 on DBY-W09」
--
FROM 122.235.146.*
ELK/EFK也需要
--
FROM 114.242.206.*