最近看大数据方面的选型，轮子太多了

水木社区手机版

主题:最近看大数据方面的选型，轮子太多了
20楼|sayinger|2021-08-18 16:21:44|只看此ID
比这复杂，我的理解，分布式应用目前比较正确的形态

只要是分布式应用，理论上都得考虑这些问题

【在 guestking (无) 的大作中提到: 】
: 我对flink的理解
: flink就是一个有状态的kafka consumer
: 当然数据来源不止kafka这一个
: 相比于你自己写一个consumer
: flink提供了更多企业级的功能支持
: 比如并行，多算子协同，checkpoint，savepoint，故障恢复，窗口等等功能
: 这些东西你要自己写，还是挺麻烦的
--
FROM 221.220.225.*
21楼|lokta|2021-08-18 16:54:40|只看此ID
数据清洗吧，还有一些实时的统计指标。
虽然clickhouse有直接接kafka的功能，但是我试过，
一旦遇到字段不符合定义，直接退出。
所以还需要整一个etl。不知道最新版的改进了没有。

【在 MyWorkLife (我是谁) 的大作中提到: 】
: 用flink的目的是啥呢，
: clickhouse的查询还不够满足实时性？
--
FROM 223.104.96.*
22楼|lokta|2021-08-18 16:56:05|只看此ID
读写是真的快。
压缩率是真的高。
稳定是真的稳定。我搭了一个7节点的clickshoue，除了因为zk日志解压导致挂掉之外，整个集群稳定运行了2年。。一直在入库。
缺点也是有的：
查询的都是范围查询，无法像hbase一样，根据一个rowid来取。
很多sql不兼容，写sql得写专用的来进行数据分析，写得累死。。。官方说将来会考虑兼容标准的sql语法。
扩容困难，加机器麻烦，还得修改配置。表的迁移也很麻烦。原来3shard的表扩到6shard的表需要先建新表，然后倒腾旧表到新表去。
自定义函数不会写，因为是c++。。。不如hive的udf好弄。

所以，大家不考虑下doris么？

【在 Xjt (Voldemort) 的大作中提到: 】
: 为啥都在推clickhouse呢？
: 太奇怪了。到底优势在哪里呢？
--
修改:lokta FROM 223.104.96.*
FROM 223.104.96.*
23楼|guestking|2021-08-18 17:27:02|只看此ID
如果你只是需要分布式消费数据，kafka多接几个consumer就行了
我说的多算子协同其实就包含了分布式的含义了
的确是比普通的分布式要更复杂

【在 sayinger (言者) 的大作中提到: 】
: 比这复杂，我的理解，分布式应用目前比较正确的形态
: 只要是分布式应用，理论上都得考虑这些问题
--
FROM 223.166.140.*
24楼|Xjt|2021-08-18 18:01:33|只看此ID
现在都是云原生，扩容的事情，云会自己搞定吧，这个无所谓了

压缩率确实高，我体会到了……

但据说写入不支持碎片化写入，最好是一千两千条一块合并插入？
【在 lokta 的大作中提到: 】
: 读写是真的快。
: 压缩率是真的高。
: 稳定是真的稳定。我搭了一个7节点的clickshoue，除了因为zk日志解压导致挂掉之外，整个集群稳定运行了2年。。一直在入库。
: ...................
--
FROM 117.136.119.*
25楼|Xjt|2021-08-18 20:42:51|只看此ID
doris的话，不如用阿里云的Analytic DB for Mysql了吧，无缝从mysql切换过去。
【在 lokta 的大作中提到: 】
: 读写是真的快。
: 压缩率是真的高。
: 稳定是真的稳定。我搭了一个7节点的clickshoue，除了因为zk日志解压导致挂掉之外，整个集群稳定运行了2年。。一直在入库。
: ...................
--
FROM 101.80.150.*
26楼|alexhawk|2021-08-18 23:05:03|只看此ID
dolphindb
【在 iwannabe 的大作中提到: 】
: 这玩意儿比java的轮子还多，一般的大数据分析系统什么比较成熟？
: 还有个时序数据库（influxdb，timescaledb，tdengine），这玩意儿怎么和olap结合起
: 来
:
: ### 技术栈
:
: \- Parquet
:
: \- olap引擎
: ..................

发自「今日水木 on DBY-W09」
--
FROM 122.235.146.*
27楼|hiyachen1|2021-08-20 10:03:53|只看此ID
ELK/EFK也需要
--
FROM 114.242.206.*