数据库

MySQL主从、字典死锁、连接数的Python监控脚本

Jager · 7月31日 · 2016年 · 3056次已读

最近,公司的系统在天津增加了不少异地容灾,其中就有异地双主MySQL。由于容灾环境一般只会在出现较大的网络故障或故障演习的时候用到,所以,容灾系统的可用性就只能靠监控了。

对于互联网这种赶鸭式的发展模式,很多公司都没有完善的自动化运维系统。所以,很多时候还得靠自己写脚本。

脚本越写越多,就容易出现混乱、分散难管理的窘状。所以,这次就写了一个MySQL的集中监控脚本,后续有新的监控加入也可以非常方便的拓展。

Python 脚本:

#!/usr/bin/python
# MySQL主从集中监控脚本
# 请在MySQL上执行如下语句,将跑脚本的机器授权一个db_monitor账号。
# grant SHOW VIEW,REPLICATION CLIENT,SHOW DATABASES,PROCESS on *.* to [email protected]'192.168.1.10';
import MySQLdb
import os
import datetime

# 发送一个字符串告警,公司特有告警系统,可以改成其他监控方式,比如短信或邮件
def report_alarm(attr, err_msg):
    os.system('/usr/local/agenttools/agent/agentRepStr %s "%s" >/dev/null' % (attr, err_msg))

# 上报一个数值型告警,也是特有告警系统
def send_repnum(attr, num):
    os.system('/usr/local/agenttools/agent/agentRepNum %s "%s" >/dev/null' % (attr ,num) )

def monitor(db_host):
    try:
        cxn=MySQLdb.connect(db_host, 'db_monitor', '', db='mysql')   
    except MySQLdb.Error, e:  
        try:  
            sqlError =  "Error %d:%s" % (e.args[0], e.args[1])  
        except IndexError:  
            sqlError = "MySQL Error:%s" % str(e)
        report_alarm(36320, sqlError)
    
    #get mysql version
    cur=cxn.cursor()
    cur.execute('select version()')
    for item in cur.fetchall():
        if '5.0.' in item[0]:
            mysql_version = 'low'
        else:
            mysql_version = 'high'
    #show slave status
    cur=cxn.cursor()
    cur.execute('show slave status')
    for item in cur.fetchall():
        replicate_error = item[19]
        if mysql_version == 'low':
            seconds_behind_master = item[-1]
        else:
            seconds_behind_master = item[32]
    #show processlist
    cur=cxn.cursor()        
    cur.execute('show processlist')
    connect_num = len(cur.fetchall()) 
    meta_lock_num = cur.fetchall().count("meta lock")
    cxn.close() 
    return replicate_error,seconds_behind_master,connect_num,meta_lock_num

print datetime.datetime.now()

for host in open('%s/hosts.list'% os.path.dirname(os.path.realpath(__file__))):
    host = host.strip('\n')
    replicate_error = ''
    seconds_behind_master = 0
    connect_num = 0
    meta_lock_num = 0
    replicate_error,seconds_behind_master,connect_num,meta_lock_num = monitor(host)
    try:
        Seconds_behind_master = int(seconds_behind_master)
    except:
        Seconds_behind_master = seconds_behind_master
    print '==============================='
    print 'Infomation of %s' % host
    print "The Num of metalock   : %s" % meta_lock_num
    print "The Num of connection : %s" % connect_num
    # 上报当前连接数
    send = send_repnum(36713, connect_num)
    # 上报字典锁数量
    send = send_repnum(36715, meta_lock_num)
    if len(replicate_error) > 0:
        print replicate_error
        # 如果主从同步出现问题,就发送告警
        report_alarm(36320, '%s: Replicate error' % host)
    elif Seconds_behind_master > 600:
        print "Seconds behid master: %s" % Seconds_behind_master
        # 如果主从延迟超过600s,就发送告警
        report_alarm(36320, '%s: Seconds behind master ge 600' % host)
    #else:
    #   print host + " is OK!"
print '==============================='

用法很简单,只要在脚本同目录新增一个文本文件hosts.list,一行一个IP,然后需要在IP对应的MySQL身上新增一个 db_monitor账号,用于监控机远程登录MySQL(见脚本注释部分语句):MySQL主从、字典死锁、连接数的Python监控脚本

其他特性:

①、脚本支持 5.0 和 5.5+ MySQL版本的 Second behid master 监控,因为新老版本这个参数的位置不一样(鹅厂很多开源软件是非常陈旧的。。。);

②、支持MySQL连接失败的监控;

③、支持MySQL主从复制的延迟和错误监控

④、支持MySQL的连接数和字典锁数监控

⑤、更多监控可以参考继续添加…..

好了,就这么多了,算是给自己一个备忘。

27 条回应
  1. 开拓者博客2016-7-31 · 15:05

    签到成功!签到时间:下午3:04:55,每日签到,生活更精彩哦~

  2. Koolight2016-8-1 · 7:32

    太深奥的内容,看不懂。

  3. 这个不是懂技术的,或者程序员是理解的吧

  4. 易淘金股票博客2016-8-1 · 16:26

    技术男出文章有质量!!

  5. 洋得意自媒体博客2016-8-2 · 15:10

    不错的文章 。。。。。

    。。。。。。。。学习了

  6. 烟台阿里巴巴2016-8-2 · 16:02

    技术贴,小白路过

  7. 好书推荐排行榜2016-8-2 · 18:11

    看着很迷糊 不是很懂

  8. benen0052016-8-2 · 23:36

    确实简单易懂 , mysql 主从复制 one master and more slave

  9. 奉化人才网2016-8-3 · 9:52

    我的博客 奉化人才网 http://www.fenghuarc.com 是否换个连接

  10. 奉化人才网2016-8-3 · 9:53

    我的博客 奉化人才网 http://www.fenghuarc.com 是否换个连接

    • Jager2016-8-3 · 12:59

      1是不相关,2你的站是新站,也不符合要求。

  11. 我爱动感单车网2016-8-3 · 10:55

    🙁 偶也表示完全不懂这些!

  12. 混合矩阵2016-8-3 · 17:05

    内容很丰富,学习了!!!

  13. 易淘金股票博客2016-8-3 · 19:29

    谢谢分享经验

  14. 微部落博客2016-8-3 · 23:44

    张大神,文章越来越深澳了,多来点wp技术文章

  15. 帅气小琦琦2016-8-8 · 14:37

    签到成功!签到时间:下午2:36:38,每日签到,生活更精彩哦~

  16. 成航先森2016-8-8 · 21:17

    这么多内容,就看懂了一个主从。。。

    • 成信先森2016-8-9 · 12:19

      这位先森你好!我也姓成,好巧呀!

  17. 西米2016-8-10 · 15:39

    看不懂

  18. 书轩高清网2016-8-11 · 10:58

    不错,很好,正需要这个

  19. 松松软文发布2016-8-15 · 15:12

    看来不止我一个人没看懂哦。。

  20. 刘明野的博客2016-9-3 · 19:46

    签到成功!签到时间:下午7:46:33,每日签到,生活更精彩哦~

  21. luckBox2017-8-2 · 11:24

    不错呦,可以拿过来按照自己的工作需求加以修改直接用,省事儿!