当前方案
现在使用的是两个 prometheus 节点(配置完全相同), 存储 influxdb, 前端 nginx 负载均衡
存在的问题
- 两个节点的数据不完全一样, 图表展示的时候, 刷新前后的趋势图有点差别, 有点差别还挺明显
- 当我尝试弄挂掉一个节点, 重启时(节点还没完全可用), dashboard 中的图表中, 有的有数据, 有的显示 请求失败
本以为存储在 influxdb 读的数据是一致的, 但现在看来并不是
其它方案
- nginx 的 upstream 中设置 ip_hash 之类的, 用来解决问题 1, 但感觉也不靠谱
- Thanos 方案, 但了解的还不够多, 感觉能解决问题 2, 但不确定能否解决问题 1