一次Zookeeper的问题

一次Zookeeper的问题


前段时间发现生产服务变得特别慢,结果发现是两台服务器其中一台服务一直提示Zookeeper连接超时,查了下Zookeeper服务,发现莫名其妙的停止了,于是开始排查问题。


首先定位Zookeeper停止时间

查询Nginx日志,得到最终日志打印时间,可以得出最后一次服务执行时间;

查看Zookeepe在这个时间段打印的日志,得到Zookeeper停止的原因;

原因是之前其中有台服务器重启过了,导致共享文件目录失效,停止的这台服务器一直访问不到共享目录,导致Zookeeper和其他NFS服务失效;

结果把共享目录重新配置后,重启了Zookeeper服务,发现过了大约10分钟,又停止了。


继续查看Zookeeper日志

查看Zookeeper节点的log日志,发现没有问题;

跟踪Zookeeper的占用内存,也没有发现问题;

尝试使用sudo 权限用户启动Zookeeper。


解决

对比了两台服务器的Zookeeper配置文件,感觉应该是配置文件配置错了,记录一下。