在机器的故障修理,主图书馆binlog,导致网络问题的解决方案
一周前,一个MySQL服务器硬件故障而停了下来。我们向那些在这片收取学生的申请,并负责服务。今天,当服务器修好后,他们开始了服务器上的4个MySQL实例启动后自动启动并开始拉的主要图书馆binlog。因为服务器出现长时间的停止,更多的日志丢失,和主图书馆binlog引起主图书馆网络的问题。
现象:
首先,我们不知道一个坏的服务器开始拉主图书馆binlog,因为我们不知道服务器是一样的。我们只知道1周前,我们维修了1台服务器,具体情况是什么,没有维修,没有启动,我们不知道。
在这种情况下,突然听到来自网络的学生说,mysql有一台机器网络流量太大,造成业务的感觉非常慢,总共17分钟。实际上,没有大的线索。
调查:
看着列表,整个日志,和慢日志,没有问题。
查看监视器时,发现服务器在那段时间的读取IO急剧上升。
通过查看列表的历史,可以发现,一时间,主从复制用户状态等网。通过它的IP,发现服务器是1周前断开的从服务器。
结论:
此服务器上有4个实例。服务器启动后,MySQL实例会自动启动,并开始拉binlog到主图书馆。各主要图书馆binlog容量约为6g /天,和4的情况下,binlog 1周或超过160克。
问题:
1。当坏服务器被固定,什么时候开始,我们不控制,我们不知道,我们不注意它。
2,这个案例实际上是一个非常简单、典型的案例,可能会造成影响或失败。我们对这种现象事先没有警觉。虽然我们知道这是一个非常容易的问题,但在我们的例子中,没有这样的意识,因此事件的发生。
三.缺乏对网络流量的有效监控
uff1a解
1,所有服务器,取消开机自动启动mysql,服务器启动后,人们启动一个实例,停止奴隶(这样,如果有很多服务器,可能会有太多麻烦,最好是暂时记录它,比这更好)。
2,认识问题,将问题引入常识库或工作手册中,以避免问题的产生。