田逸互联网监控的艺术.ppt
互联网监控的艺术演讲人:田逸()监控演变历程n用户、老板电话通知nPing主机n放在线收音机n时不时登陆系统查看状态n使用监控平台必要性n被动方式延误时机,并且给技术人员产生巨大的压力nPing主机对于服务器数量多的场合会怎么样?n服务器在远端,无声卡等,放不了在线收音机音频n数以百计甚至上千计的服务器,挨个登录恐怕是个困难n部署监控平台,随时了解大规模网络运行的状态,并且在出现意外时及时报警高可用性的保证措施n高可用架构:应用集群、负载均衡、分布式文件系统、数据库集群等n设计良好的监控系统选择何种监控方式n自己写程序或者脚本小工具n商业解决方案n开源的方案自己写程序或者脚本n优点1、现金成本低2、操控性强n不足1、集中管理是个问题2、无可视性效果3、调度需要好的技巧4、运营复杂,如监控一个集群,需要对集群维护。因程序被安装在每个主机,因此可能要重复n次操作商业解决方案n优势1、大包大揽2、用户不用承担运营中的责任。假如出了问题,可把责任推给厂商。3、很受欢迎的展现方式,如报表、美观的用户界面n不足1、成本高(一般以万计)2、取舍不易:需要的功能可能不足,不需要的功能一大堆商业解决方案(续)3、巨大的资源占用:就client代理而言,包大小基本以百兆字节计4、扩展性差。要新增模块,需要昂贵的支出5、安全问题。来自代理agent的权限。开源解决方案n优势1、开源免费2、定制能力强3、完全可控4、集中化管理5、可视性好n不足1、需要很强的技术实力2、一切靠自己推荐的方案n开源的方案nNagios、zenoss、Ganglia、zabbix 等n本案以nagios为例谁在使用nagiosnFacebookn搜狗n网易n空中网n新浪n阿里巴巴nwww.wikipedia.orgn互动百科nSohun其他更多.什么是nagiosnNagios是一个框架,核心部分是调度器和状态通知模块。n调度器调度插件或者任意定制的可执行程序,根据执行结果返回状态值,并根据需要进行相信的报警/通知Nagios监控机制n检查登录用户数的场景n条件:1、当登录数小于5时,属于正常2、当用户数大于5小于8时,应当警告3、大于8时为异常n脚本:logins.sh检查用户登录脚本(续一)n#!/bin/shnlogins=who|wc-lnif$logins -le$1 n thenn echo OK!-login count is$loginsn exit 0nfinif$logins-gt$1-a$logins-le$2 n thenn echo Warnning!-login count is$loginsn exit 1nfinif$logins-gt$2 n thenn echo Critical!-login count is$loginsn exit 2nfi检查用户登录脚本(续二)n手动执行脚本,形如./usercon.sh 5 8n输出:1、有2个用户登录时:OK!-login count is 22、有6个用户登录时:Warnning!-login count is 6 3、有9个用户登录时:Critical!-login count is 9 调度脚本n本地调度:用于检查远程服务端口等n远程调度(Nrpe):检查主机资源、检查内部网络服务n设定调度时间间隔、重试次数等。注意与crond不同。通知机制n退出代码为0,代表正常n退出代码为1,代表警告warningn退出代码为2,代表极度异常Criticaln退出代码为3、代表未知(不常用)监控的表现形式nWeb方式:不同的用户查看各自负责的应用运行状态n邮件:故障发生或恢复时发送邮件告警n手机短消息:最及时的通知方式Nagios的组成n3个大的部分:1、守护进程(core)2、插件3、web接口定制安装nagios-corenUseradd nagios s/sbin/nologinnTar zxvf nagios-3.x.tar.gznCd nagios-3.xn./configure prefix=/usr/local/nagiosnMake allnMake install make install-config install-commandmode n为保持通用性 舍弃了一些安装选项安装插件nTar zxvf nagios-plugin-x.tar.gznCd nagios-plugin-xn./configure prefix=/usr/local/nagiosnMake allnMake install安装nrpenUseradd nagios s/sbin/nologinnTar zxvf nrpe-x.tar.gznCd nrpe.xn./configure prefix=/usr/local/nrpenMake;make installn从nagios-core复制一些插件配置nagiosn对象归类。使用多个配置文件,易于维护n使用模版,减少重复书写文字n用户分级,责任分清(cgi.cfg)监控配置的两难问题n对象少了,担心有遗漏;对象多了,既担心冗余,又顾虑“狼来了”关注点:紧要程度n影响财务 n组织上的影响。如伤害客户关系n对个人的影响。如可能导致某些人被解雇综合监控n主机资源n网络服务n逻辑(一)主机资源n负载、磁盘使用量、tcp连接数、交换空间利用率n监控主机资源可起到预警的作用(二)监控网络服务n检查端口存活情况n有时服务存活,但并不意味服务可用。例如/var分区满了,web服务依然存活,但用户很可能不能正常访问逻辑监控n模拟某个应用的实际行为,通过返还状态确定该应用是否正常。n例子1:对mysql主从复制的监控n例子2:监控一个web集群一些效果不佳的监控场景n监控测试对象n跨机房监控n企图用一个nagios core监控数以万计的对象n把报警信息发给无关人员n监控linux的内存使用等等大规模网络监控的一些技巧n主机资源自动感知n配置自动化n使用配置模版(一)主机资源自动感知n建立主机列表:临时列表、已存在主机列表、新主机列表等。n用nmap指定地址范围扫描,并对扫描内容进行处理n对比列表,自动整理扫描到的新主机资源(二)自动配置nagiosn以(一)的列表做输入,并遍历这个列表n用程序语言自动生成配置文件并自动进行语法检查(三)使用模版n目的是减少配置文件文本的长度n定义一个服务模版:ndefine service n name commonserv n check_period 24x7n max_check_attempts 4n normal_check_interval 3n retry_check_interval 2n notification_interval 10n notification_period 24x7n notification_options w,u,c,rn register 0n (三)使用模版续一n引用模版:ndefine service n host_name nagios-server n service_description check-host-aliven contact_groups sagroup n check_command check-host-alive n use commonservn (三)使用模版续二n假如监控3000个对象,使用模版,则节省了3000*7=21000行n使用模版的前提是所有的引用具有一致性。如果一些服务对象有其他要求(如不同的联系组),则可以定义多个模版,来获得这种灵活性结束语n监控的理想状态:沉默是金!但事实上,偶尔报几次警,心里还是要踏实一些!完毕n谢谢!n田逸 nEmail:nQq:447877614nmsn:n即将面市作品互联网运营智慧n 2010/8/5