目前有需求场景:
写入 100w+数据量每天, 场景为离线, 且写多读少, 目前用的是 hbase+hive
遇到的问题:
hbase 的服务端 rpc 频繁超时, 导致数据堆积
已采用的方案:
与服务端沟通, 增加 hbase 离线集群,增加服务端数量(结果: 轻度缓解超时问题, 但仍未解决问题)
待选方案:
1. 更换存储, 改为 mongodb 或者其他存储
2. 直接把数据写入到 hive 表(这里想请教一下两个问题:1. hive 表中外部表和内部表在读写性能方面是否有区别,2. hive 表的写入效率如何, 是否能支持 100w/天的写入效率)
想请教一下各位大大, 待选方案是否可行, 以及是否有更好的解决方案
写入 100w+数据量每天, 场景为离线, 且写多读少, 目前用的是 hbase+hive
遇到的问题:
hbase 的服务端 rpc 频繁超时, 导致数据堆积
已采用的方案:
与服务端沟通, 增加 hbase 离线集群,增加服务端数量(结果: 轻度缓解超时问题, 但仍未解决问题)
待选方案:
1. 更换存储, 改为 mongodb 或者其他存储
2. 直接把数据写入到 hive 表(这里想请教一下两个问题:1. hive 表中外部表和内部表在读写性能方面是否有区别,2. hive 表的写入效率如何, 是否能支持 100w/天的写入效率)
想请教一下各位大大, 待选方案是否可行, 以及是否有更好的解决方案