关于Tick方案中的 influxdb 与 telegraf 的关系

关于Tick方案中的 influxdb 与 telegraf 的关系

最近的一个监控方案实践:

需求背景: 使用轻量化监控 TICK 监控云管平台宿主机的OS状态

架构说明:

  • Telegraf的职能是数据采集,用于主机性能数据,包括主机CPU、内存、IO、进程状态、服务状态等
  • Influxdb的职能是时序数据库,用于存储Telegraf采集来的数据
  • Chronograf的职能是数据可视化,用于将Influxdb数据库的性能数据时序展示
  • Kapacitor的职能是规则告警,用于配置告警规则将Influxdb数据库查询触发规则的数据进行告警
  • 其中Chronograf可视化工具可以使用Grafana替代使用

这里重点讲一下 telegraf ,下载链接 https://docs.influxdata.com/telegraf/v1/install/

在windows中,安装后使用powershell(管理员),执行测试

.\telegraf.exe `
--config C:\"Program Files"\InfluxData\telegraf\telegraf.conf --test

简单列一下命令:

telegraf.exe --service install  将 telegraf 安装为服务
telegraf.exe --service uninstall    删除电报服务
telegraf.exe --service start    启动电报服务
telegraf.exe --service stop 停止电报服务

influxDB可视化管理工具

重点

这里有一问题,就是telegraf的配置文件里面会有一项叫做 retention_policy 的配置项 这个玩意默认是 "autogen" ,不能乱填,这个是influxDB数据库里面以 库的维度配置的 ,所以如果要配置数据保存时间,需要自己在埋点插件telegraf启动之前,先去库里面插入,比如:

create database os_monitor;
create retention policy "rp_os_test" on "os_monitor" duration 180d replication 1 default;

这样才是正确的

Linux:

systemctl [start/status/stop] telegraf

最后,截个成果 file