为什么要监控?
在公司中,运维分很多职位,但是在很多职位中监控是非常重要的。如果你的业务一旦出现问题,能不能及时告知你,而不是被动的状态去等别人告诉你。发现问题,能不能及时快速的解决,能不能及时快速的定位,这就显得非常重要。
所以监控是在整个产品生命周期中最重要的一环,目的就是为了我们的业务减少故障率或避免故障的扩大。或者根据监控的历史数据来赘述问题,去复盘我们历史业务的瓶颈。总而言之就三点:
- 对系统不间断的实时监控
- 实时反馈系统当前的状态
- 保证业务持续性运行

(其实大数据也是这四个步骤zzzzzz)
监控分为两个层面:
- 一是业务故障率和高可用
- 二是性能瓶颈方面
如何来监控?
- 通过“数据采集”拿到服务器的性能数据
- 通过“数据存储”存储历史数据
- 通过“数据分析”分析采集数据中的重要指标
- 通过“展示告警”来展示对服务器异常的信息
在没有监控系统的情况下,我们一般手动通过各种命令进行监控,比如top,free,ss,w等等(PS:如果想要查看业务流量可以使用iftop命令来命令行查看)
要监控什么?
监控的东西根据业务和环节进行规划,当你不知道要监控的时候,就去想,你的业务最重要的是什么?经过哪些环节?比如,我们得需要服务器吧,这个服务器是否要监控硬件,硬件上面的操作系统是否要关注一下?操作系统上面跑着应用程序,这个程序的日志是否需要按时序进行存储等等。

监控的软件有哪些?
监控在企业业务中处于一个十分重要的地方,目前主流的监控软件主要有zabbix公司开源的zabbix,小米公司开源的open-falcon,SoundCloud 开源的Prometheus,微软开发的SCOM,cacti,nagios等等。
文章评论