阅读源码,解析基本原理。

流程

一个监控系统运行的大概的流程是这样的:

agentd需要安装到被监控的主机上,它负责定期收集各项数据,并发送到zabbix server端,zabbix server将数据存储到数据库中,zabbix web根据数据在前端进行展现和绘图。这里agentd收集数据分为主动和被动两种模式:

主动:agent请求server获取主动的监控项列表,并主动将监控项内需要检测的数据提交给server/proxy

被动:server向agent请求获取监控项的数据,agent返回数据。

主动监测

通信过程如下:

zabbix首先向ServerActive配置的IP请求获取active items,获取并提交active tiems数据值server或者proxy。很多人会提出疑问:zabbix多久获取一次active items?它会根据配置文件中的RefreshActiveChecks的频率进行,如果获取失败,那么将会在60秒之后重试。分两个部分:

1.获取ACTIVE ITEMS列表

  • Agent打开TCP连接(主动检测变成Agent打开)
  • Agent请求items检测列表
  • Server返回items列表
  • Agent 处理响应
  • 关闭TCP连接
  • Agent开始收集数据

2.主动检测提交数据过程如下:

  • Agent建立TCP连接
  • Agent提交items列表收集的数据
  • Server处理数据,并返回响应状态
  • 关闭TCP连接

被动监测

通信过程如下:

  • Server打开一个TCP连接
  • Server发送请求agent.ping\n
  • Agent接收到请求并且响应<HEADER><DATALEN>1
  • Server处理接收到的数据1
  • 关闭TCP连接

这里,有人可以看出来,被动模式每次都需要打开一个tcp连接,这样当监控项越来越多时,就会出现server端性能问题了。

比如not supported items通信过程

  • Server打开一个TCP连接
  • Server发送请求vfs.fs.size[ no]\n
  • Agent接收请求并且返回响应数据 <HEADER><DATALEN>ZBX_NOTSUPPORTED\0Cannot obtain filesystem information: [2] No such file or directory
  • Server接收并处理数据, 将item的状态改为“ not supported ”
  • 关闭TCP连接

还有人会问,那实际监控中是用主动的还是被动的呢?这里主要涉及两个地方:

1、新建监控项目时,选择的是zabbix代理还是zabbix端点代理程式(主动式),前者是被动模式,后者是主动模式。

2、agentd配置文件中StartAgents参数的设置,如果为0,表示禁止被动模式,否则开启。一般建议不要设置为0,因为监控项目很多时,可以部分使用主动,部分使用被动模式。

常用的监控架构平台

1、server-agentd模式:

这个是最简单的架构了,常用于监控主机比较少的情况下。

2、server-proxy-agentd模式:

这个常用于比较多的机器,使用proxy进行分布式监控,有效的减轻server端的压力。

组件解析

Agent

  1. 入口函数:zabbix_agentd.c:MAIN_ZABBIX_ENTRY

  2. 采集线程:stats.c: ZBX_THREAD_ENTRY(collector_thread, args),采集数据

  3. 监听线程:listener.c: ZBX_THREAD_ENTRY(listener_thread, args),监听端口(根据加密格式)

  4. 发送线程:active.c:ZBX_THREAD_ENTRY(active_checks_thread, args)

    1.发送报文函数: active.c:send_buffer,消息体为消息头+json格式的消息体,根据加密配置,分为不加密,cert加密和psk加密。Json的编码可以在这个函数里看。
    2.加密可以使用openssl的库,主要实现在tls.c:zbx_tls_connect函数中。
    3.消息头的编码:comms.c:zbx_tcp_send_ext,包括” ZBXD”+1字节flag+32位json消息长度+32位0x00,在发送json体的时候,使用了zlib的compress函数进行压缩,对端接收的时候使用uncompress进行了解压缩。
    4.1字节flag有以下取值:
    
            {
            ZBX_TCP_PROTOCOL(0x01)
            ZBX_TCP_PROTOCOL |ZBX_TCP_COMPRESS (0x03)
            0x00
            }
            当flag& ZBX_TCP_COMPRESS!=0时,发送报文需要对消息体进行compress压缩,接收报文需要对消息体进行uncompress解压缩
            #define ZBX_TCP_PROTOCOL        0x01
            #define ZBX_TCP_COMPRESS        0x02
            当flag==0时,报文没有消息头,只有json消息体
    
    5.消息长度
    
            发送报文时,如果加密,消息体最长16K
            #define ZBX_TLS_MAX_REC_LEN 16384
            如果不加密,没有限制,写json串时动态申请内存
            接收报文时,最大长度128M,根据接收的消息长度循环动态申请内存
            #define ZBX_MAX_RECV_DATA_SIZE  (128 * ZBX_MEBIBYTE)
    
    6.json编码中request的类型
    
            #define ZBX_PROTO_VALUE_GET_ACTIVE_CHECKS   "active checks"
            #define ZBX_PROTO_VALUE_PROXY_CONFIG        "proxy config"
            #define ZBX_PROTO_VALUE_PROXY_HEARTBEAT     "proxy heartbeat"
            #define ZBX_PROTO_VALUE_SENDER_DATA     "sender data"
            #define ZBX_PROTO_VALUE_AGENT_DATA      "agent data"
            #define ZBX_PROTO_VALUE_COMMAND         "command"
            #define ZBX_PROTO_VALUE_JAVA_GATEWAY_INTERNAL   "java gateway internal"
            #define ZBX_PROTO_VALUE_JAVA_GATEWAY_JMX    "java gateway jmx"
            #define ZBX_PROTO_VALUE_GET_QUEUE       "queue.get"
            #define ZBX_PROTO_VALUE_GET_STATUS      "status.get"
            #define ZBX_PROTO_VALUE_PROXY_DATA      "proxy data"
            #define ZBX_PROTO_VALUE_PROXY_TASKS     "proxy tasks"
    

Proxy

  1. 入口函数:zabbix_proxy.c:MAIN_ZABBIX_ENTRY
  2. 配置同步线程:proxyconfig.c: ZBX_THREAD_ENTRY(proxyconfig_thread, args)

    1.主要处理函数:proxyconfig.c: process_configuration_sync
    2.发送request为#define ZBX_PROTO_VALUE_PROXY_CONFIG        "proxy config"的配置同步请求消息,消息头和消息体的格式和agent消息格式一样,见agent段落的第3节
    3.接收对端的配置同步响应消息,并解析消息体中的json段
    
  3. 心跳线程:heartbeat.c:ZBX_THREAD_ENTRY(heart_thread, args)

    发送request为#define ZBX_PROTO_VALUE_PROXY_HEARTBEAT       "proxy heartbeat"的心跳消息
    
  4. 发送线程:datasender.c: ZBX_THREAD_ENTRY(datasender_thread, args)

    1.主要处理函数:datasender.c: proxy_data_sender
    2.发送request为#define ZBX_PROTO_VALUE_PROXY_DATA      "proxy data"的消息,消息头和消息体的格式和agent消息格式一样,见agent段落的第3节
    3.发送的消息体包括下面4个类型的数据,数据源主要从db中获取
        #define ZBX_DATASENDER_AVAILABILITY     0x0001
        #define ZBX_DATASENDER_HISTORY          0x0002
        #define ZBX_DATASENDER_DISCOVERY        0x0004
        #define ZBX_DATASENDER_AUTOREGISTRATION     0x0008
    4.从数据库中获取remotetasks,zbx_tm_get_remote_tasks,根据获取的task组织json消息体zbx_tm_json_serialize_tasks
    5.接收对端的响应消息,解析消息体中的json段,并更新db中的task数据
    
  5. poller线程:poller.c: ZBX_THREAD_ENTRY(poller_thread, args)

    1.poller.c: get_values,从队列中获取数据项串并解析substitute_simple_macros,根据接口类型(snmp,java等)获取数值get_values_snmp,get_values_java
    
  6. trapper线程:trapper.c:ZBX_THREAD_ENTRY(trapper_thread, args)

    1.解析各类响应消息并对应处理:trapper.c:process_trap
    2.消息体格式分为json格式,ZBX_GET_ACTIVE_CHECKS开头格式,xml格式,host:key:value格式
    
  7. pinger线程:pinger.c:ZBX_THREAD_ENTRY(pinger_thread, args)

    1.从snmp或者java接口中获取数据
    2.Icmp.c:process_ping,写数据到zbx_get_thread_id()i.pinger文件中
    
  8. housekeeper_thread线程:housekeeper.c:ZBX_THREAD_ENTRY(pinger_thread, args) 1.连接数据库删除历史数据

  9. discoverer线程:httppoller.c:ZBX_THREAD_ENTRY(httppoller_thread, args)

    1.数据库操作,获取新主机
    
  10. dbsyncer线程:dbsyncer.c:ZBX_THREAD_ENTRY(dbsyncer_thread, args)

    1.同步数据库和内存
    
  11. snmptrapper线程:snmptrapper.c: ZBX_THREAD_ENTRY(snmptrapper_thread, args)

    1.读取snmptrapper文件中的数据
    
  12. selfmon线程:selfmon.c: ZBX_THREAD_ENTRY(selfmon_thread, args)

    1.收集selfmon统计数据
    
  13. vmware线程:selfmon.c: ZBX_THREAD_ENTRY(vmware_thread, args)

    1.收集vmware统计数据,使用soap协议
    

Sever: proxy的交互

  1. 入口函数Proxypoll.c:ZBX_THREAD_ENTRY(proxypoller_thread, args)

  2. 主要处理函数process_proxy,发送报文send_data_to_proxy,接收报文recv_data_from_proxy,回proxy响应zbx_send_proxy_data_response,报文格式仍然为json格式,同agent的第3部分