作者: ecsun  链接:http://papa.javaeye.com/blog/228331  发表时间: 2008年08月15日

声明:本文系JavaEye网站发布的原创博客文章,未经作者书面许可,严禁任何网站转载本文,否则必将追究法律责任!

最近接手了公司的服务器监控部分的工作,一直忙于这方面工作的前期设计.

  公司现在有200多台分布在全国各地的服务器,有应用的,有搜索引擎的,有数据库的,有缓存的,有web的,有wap的,等等等,这些服务器有时候不太听话,多多少少偶尔会搞出点意想不到的问题,而早先做的监控系统,又不能及时的响应这些问题,同时,明年服务器的数量要增加到大约2000台,所以就需要对这么多服务器进行全面的监控.规则设计新的监控系统对数量众多的服务器进行管理,势在必行.

  而对于监控,我是一个新手,可以说一问三不知,早年学习的SNMP,CMIP之类的,早不知道忘记到哪里去了,重新查资料,翻手册,还好,网上多多少少有一些资料,但优秀的snmp的中文资料,实在是少之又少,找了大半天,在网上可以找到的关于snmp的中文资料,基本都收录到我的博客里了.
 
   先大致描述一下要做什么吧.

1.监控公司各种搜索产品的运行状况,这些搜索产品包括,新闻啊,图片啊,mp3啊,铃声啊,游戏啊等等
2.监控公司各主要服务器的实时状态,这一块比较多,总的来说有cpu的,内存的,磁盘的,网卡的,网络连接数端口数的等等,总之服务器上可能出现问题的设备都要监控起来
3.监控公司各个数据库服务器的状态
4.监控服务上运行服务的运行状态
....

总之都是抓数据,抓状态,然后将状态实时的展现出来,如果哪一被监控的东东出了问题,要马上发出警报,邮件啊,短信啊,在线通知啊...就是要第一时间广播出去异常信息.公司员工手机要求24小时开机,哎,苦了这帮兄弟,监控千万别误报,要不每天都要打拢400来个兄弟姐妹的春秋大梦啊~

搞了两三个星期,总算有点头绪了,snmp部分的资料,搞的差不多了,对服务器状态的监控,靠它了.应用的,相对比较成熟,早期就已经实现的很好的,数据库服务器的,没问题,服务状态的,没问题了,下一步可以考虑一下怎么去实现的问题了.

有兄弟可能会说, cacti做的已经很好啊,干嘛要自己再发明一轮子,是啊cacti已经做的很好了,而且可以很容易的扩展 ,干嘛要再发明一轮子啊?实在不想用cacti,mrgt也可以啊?要不就snmpJ,哎,一言难尽,先折腾吧~

已有 8 人发表留言,猛击->>这里<<-参与讨论


JavaEye推荐