最近的一个监控方案实践:
需求背景: 使用轻量化监控 TICK 监控云管平台宿主机的OS状态
架构说明:
- Telegraf的职能是数据采集,用于主机性能数据,包括主机CPU、内存、IO、进程状态、服务状态等
- Influxdb的职能是时序数据库,用于存储Telegraf采集来的数据
- Chronograf的职能是数据可视化,用于将Influxdb数据库的性能数据时序展示
- Kapacitor的职能是规则告警,用于配置告警规则将Influxdb数据库查询触发规则的数据进行告警
- 其中Chronograf可视化工具可以使用Grafana替代使用
这里重点讲一下 telegraf ,下载链接 https://docs.influxdata.com/telegraf/v1/install/
在windows中,安装后使用powershell(管理员),执行测试
.\telegraf.exe `
--config C:\"Program Files"\InfluxData\telegraf\telegraf.conf --test
简单列一下命令:
telegraf.exe --service install 将 telegraf 安装为服务
telegraf.exe --service uninstall 删除电报服务
telegraf.exe --service start 启动电报服务
telegraf.exe --service stop 停止电报服务
influxDB可视化管理工具
重点
这里有一问题,就是telegraf的配置文件里面会有一项叫做 retention_policy
的配置项
这个玩意默认是 "autogen"
,不能乱填,这个是influxDB数据库里面以 库的维度配置的
,所以如果要配置数据保存时间,需要自己在埋点插件telegraf启动之前,先去库里面插入,比如:
create database os_monitor;
create retention policy "rp_os_test" on "os_monitor" duration 180d replication 1 default;
这样才是正确的
Linux:
systemctl [start/status/stop] telegraf
最后,截个成果