淘宝系统信息采集和监控工具tsar

项目地址:https://github.com/alibaba/tsar

一.介绍

Tsar是淘宝的系统信息采集和监测工具,主要用来收集服务器的系统信息(如cpu,io,mem,tcp等)以及应用数据(如squid haproxy nginx等),这些信息可以保存在本地磁盘或者发送到Nagios中;

tsar支持实时查看和历史查看,方便了解应用和服务器的信息,且模块化的设计利于通过开发新模块来扩展新的功能,非常方便。

二.安装

方式1:

$ wget -O tsar.zip https://github.com/alibaba/tsar/archive/master.zip --no-check-certificate

$ unzip tsar.zip

$ cd tsar

$ make

# make install

方式2:

GitHub方式 (以前没有试过,所以这次使用这种方式)

这种方法需要安装Git,下面就开始源码安装Git(如果不想这么麻烦可以直接yum install git)

1.下载Git

下载地址:https://www.kernel.org/pub/software/scm/git/

2.编译安装

[root@node1 ~]#  tar xf git-2.10.0.tar.gz -C /usr/local/src/

[root@node1 ~]#  cd /usr/local/src/git-2.10.0/

[root@node1 ~]#  ./configure --prefix=/usr/local/application/git

configure时出现错误,因为gcc未安装,直接yum install gcc即可

[root@node1 ~]#   make

make时出现缺少zlib.h错误,直接yum install zlib zlib-devel 即可

[root@node1 ~]#   make install

安装成功后记得要添加Git路径:

export PATH=$PATH:/usr/local/application/git/bin/

3.安装Tsar

[root@node1 application]# pwd

/usr/local/application

[root@node1 application]#  git clone git://github.com/kongjian/tsar.git

[root@node1 application]#  cd tsar

[root@node1 tsar]#  make

[root@node1 tsar]#  make install

4.安装后可以看到如下文件

/etc/tsar/tsar.conf   #Tsar的主配置文件

/etc/cron.d/tsar,    #运行Tsar的定时脚本,默认每分钟

/etc/logrotate.d/   #日志滚动脚本,每月回滚一次Tsar的日志文件

/usr/local/tsar/modules    #存放所有的模块库文件

三.配置

安装后默认不会显示输出,只需要运行tsar -l 查看是否实时监控

配置文件内容:

[root@node1 tsar]# cat tsar.conf

####debug_level(INFO DEBUG WARN ERROR FATAL)

debug_level ERROR

####[module]

mod_cpu on

mod_mem on

mod_swap on

mod_tcp on

mod_udp on

mod_traffic on

mod_io on

mod_pcsw on

mod_partition on

mod_tcpx on

mod_load on

mod_apache off

mod_lvs off

mod_haproxy off

mod_squid off

mod_nginx off

mod_swift off

mod_swift_code off

mod_swift_domain off

mod_swift_esi off

mod_swift_fwd off

mod_swift_store off

mod_swift_swapdir off

mod_swift_purge off

mod_swift_sys off

mod_swift_tcmalloc off

mod_tmd off

mod_percpu off

mod_tcprt off

mod_proc off pidname

mod_pharos off

mod_tmd4 off

mod_keyserver off

#mod_erpc on /etc/tsar/erpc.conf

####output_interface file,db,nagios

output_interface file

####[output_file] original data to store

output_file_path /var/log/tsar.data

####[output_stdio] these mod will be show as using tsar command

output_stdio_mod mod_swap,mod_partition,mod_cpu,mod_mem,mod_lvs,mod_haproxy,mod_traffic,mod_squid,mod_load,mod_tcp,mod_udp,mod_tcpx,mod_apache,mod_pcsw,mod_io,mod_percpu

####[output_db]

#output_db_mod mod_swap,mod_partition,mod_cpu,mod_mem,mod_traffic,mod_load,mod_tcp,mod_udp,mod_pcsw,mod_io

#output_db_addr console2:56677

####[output_tcp]

#output_tcp_mod mod_swap,mod_cpu

#output_tcp_addr localhost:9666

#output_tcp_merge on

####support include other mod conf

include /etc/tsar/conf.d/*.conf

####The IP address or the host running the NSCA daemon

#server_addr nagios.server.com

####The port on which the daemon is running - default is 5667

#server_port 8086

####The cycle of send alert to nagios

#cycle_time 300

####nsca client program

#send_nsca_cmd /usr/bin/send_nsca

#send_nsca_conf /home/a/conf/amon/send_nsca.conf

####tsar mod alert config file

####threshold servicename.key;w-min;w-max;c-min;cmax;

#threshold cpu.util;N;N;N;N;

可以通过编辑/etc/tsar/tsar.conf文件来配置tsar:

  • 添加模块只需添加一行 mod_modname  on
  • 开启或关闭模块功能使用 mod_modname  on/off
  • 指定模块参数使用 mod_modname on 参数  ,例如mod_erpc on /etc/tsar/erpc.conf
  • output_stdio_mod设定输出到标准I/O的模块(即可以使用tsar命令显示输出的模块)
  • output_interface 指定输出方式,默认为本地文件,可用参数有file  db  nagios
  • output_file_path指定数据存放文件(也可以修改日志回滚脚本/etc/logrotate.d/tsar来实现)

四.tsar用法

不跟参数:查看历史数据,如tsar

--modname:查看指定模块的输出,如下图

-check:显示最后一个警报记录,只用于淘宝内部警报;

-C , --check:显示最后一个收集的数据,如下图

-c , --cron:运行于cron模式,输出数据到文件中,默认文件为/var/log/tsar.data;

-l ,--live:实时显示信息,如下图

-i , --interval:控制时间间隔,在打印历史数据中(不和--live一起使用),单位是分钟,默认显示间隔5分钟;而实时模式(和--live一起使用)下,单位是秒,默认是5秒,如下图

-m , --merge:对有多个数据的展示,进行汇总,如机器上跑了3个squid,可以用 tsar --squid -m的放式进行展示汇总。如下图

-L , --list:显示可用模块,如下图

-n , --ndays:显示过去几天的值,默认为1;

-d , --date:显示指定日期的数据,日期格式为:YYYYMMDD或一个整型值,如下图

-f , --file:指定tsar要读取的tsar.data 文件;

-D , --detail:不转换数据到K M G,如下图

-s , --spec:指定模块的详细字段,如下图

五.补充

1.输出到Mysql

使用这个特性只需在配置文件中添加输出类型output_interface file,db,还要开启相关模块的功能,而且还要设定tsar2db 监听的IP(主机名)和端口

####[output_db]

output_db_mod  mod_cpu,mod_mem,mod_traffic,mod_load,mod_tcp,mod_udp,mod_io

output_db_addr  hostname:56677


项目地址:https://github.com/alibaba/tsar2db
下载地址:https://codeload.github.com/alibaba/tsar2db/zip/master
tsar2db用来收集一个cdn节点内tsar的采集数据,存到mysql数据库,提供给其它应用查询

数据保留最近3个月的,各表字段含义和tsar采集定义相同
从mysql的tsar库中可以看到整个cdn节点tsar采集到的数据
配置tsar向tsar2db传送数据

vi /etc/tsar/tsar.conf
output_db_addr console2:56677
将console2替换成tsar2db的hostname
tsar2db的编译依赖mysql-devel,运行依赖于httpd和mysql-server,其中httpd是用来提供cgi环境供查询

mysql可以下载:
mysql:http://vault.centos.org/5.3/updates/x86_64/RPMS/mysql-5.0.77-3.el5.x86_64.rpm
mysql-devel:http://vault.centos.org/5.3/updates/x86_64/RPMS/mysql-devel-5.0.77-3.el5.x86_64.rpm
mysql-server:http://vault.centos.org/5.3/updates/x86_64/RPMS/mysql-server-5.0.77-3.el5.x86_64.rpm
查询时通过cgi接口指定时间和模块,查看具体数据,比如:

[kongjian@console1 cdnlog]$ curl http://localhost:8082/query.cgi
Error:miss table name.
Table:load mem cpu tcp squid haproxy lvs switch traffic udp tcpx apache partition swap io pcsw 
Host:cache161.cn20 
Start/End:timestamp or stardtime, 1292472000 or 2010-12-16_12:00:00 
Sample as:query.cgi?table=load&start=1292472000&end=1292472060&host=mmdev2.corp.alimama.com

测试环境:
数据收集端/tsar端:192.168.85.130   node1.liv.com
tsar2db端+Mysql端:192.168.85.131    node2.liv.com

详细配置:
192.168.85.131主机上安装相关包:
[root@node2 ~]# yum install http mysql mysql-devel mysql-server -y
[root@node2 ~]# wget https://codeload.github.com/alibaba/tsar2db/zip/master
[root@node2 ~]# unzip tsar2db-master.zip
tsar2db怎么都安装不了,查了很多资料,都是让参考tsar2db项目(Github上的介绍的不清楚,我也没搞懂怎么操作),
他也没有亲自测试过,难道数据入库不行么?编译依赖的包我都装了啊,怎么还是不行!

好吧!果然百度搜的文章是一大抄啊,几乎全一样,而用Google搜了一下,还真找到了解决办法,原来tsar2db的安装
不仅需要mysql的一些包,还需要tcp_wrappers  tcp_wrappers-devel这两个包,安装这两个包后,重新编译后就没
问题了;

参考文章:http://xiaofengwu.tumblr.com/post/67420208992/ubuntu1204%E5%AE%89%E8%A3%85tsar2db
安装内容在Makefile文件中,而Makefile文件主要看install部分,install部分主要是编译好之后一些文件的复制以及
数据库表的构建。现在针对我的系统上apache和mysql具体情况来重新配置Makefile文件,配置后的Makefile文件如下,
只针对install部分做了修改:
 

然后编译安装:

接着配置tsar向tsar2db传送数据:
启动tsar2db服务:

或者

测试:

tsar端(192.168.85.130)收集数据:

tsar2db端(192.168.85.131)查看数据库中是否有数据:

查询时通过CGI接口指定时间,主机和查询模块来查看具体数据:
而且由于注释了Makefile E中的cp src/query.cgi /home/a/share/cgi-bin/query.cgi一行,所以要重新创建

这里提示没有MySQLdb模块,所以还需要进行安装:
[root@node2 tsar2db-master]# yum install  MySQL-python  python-setuptools  -y


然后执行查询测试:

查询格式为:
http://IP或主机名/cgi-bin/query.cgi?table=mem&start=1473566101&end=1474719482&host=node1.liv.com

其中table为查询的表名,start为起始时间(mysql中可以看到),host为主机名(收集数据的主机)

而且还要注意的是:

1./usr/lib/cgi-bin/query.cgi文件中
db = MySQLdb.connect(host="localhost", unix_socket="/var/lib/mysql/mysql.sock", user=db_user, 
passwd=db_pw, db=db_name)行中的unix_socket一定要是mysql的socket文件的路径(find查一下),记得要修改!
2.数据库如果设置的有密码,那么/etc/trsa2db/tsar2db.cfg文件要配置
[root@node2 tsar2db]# cat tsar2db.cfg
#mysql database hostname or ip
db_address=localhost
#database port default is 3306
db_port=3306
#mysql user info for tsar
db_name=tsar
db_user=root
db_pw=123456
#tsar2db port.same as output_nagios_addr at /etc/tsar/tsar.conf
server_port=56677
#log for tsar2db.see more@/var/log/message
debug=0
pid_file=/var/run/tsar2db.pid
3.httpd.conf文件中要修改如下(默认的cgi-bin目录是/var/www/cgi-bin)
ScriptAlias /cgi-bin/ "/usr/lib/cgi-bin/"

    AllowOverride None
    Options None
    Order allow,deny
    Allow from all

4.两主机做好主机名解析,且最好关闭防火墙和SELinux
配置好之后在浏览器中输入:
http://node2.liv.com/cgi-bin/query.cgi?table=cpu&start=1474716781&end=1474722361&host=node1.liv.com

如果输入正确的URL后页面显示为空白,而数据采集和入库都没问题的话,多看看/usr/lib/cgi-bin/query.cgi文件,
根据该文件内容找出问题所在。我之前遇到过空白页的问题,后来根据文件中的re模块部分,猜测是Python有问题,
升级了Python问题果然解决了!

还有,如果显示空白页,可以依次减少参数,如果http://node2.liv.com/cgi-bin/query.cgi?table=cpu显示的
有一行数据,那么可以确定,是你的参数有错误,根据query.cgi文件修改即可!

2.输出到Nagios

编辑配置文件中的输出类型为output_interface file,nagios

然后指定nagios的IP地址,端口和发送间隔,如

####The IP address or the host running the NSCA daemon

server_addr nagios.server.com

####The port on which the daemon is running - default is 5667

server_port 8086

####The cycle of send alert to nagios

cycle_time 300

由于tsar使用Nagios的被动模式,所以还需要指定nsca库和它的配置文件路径:

####nsca client program

send_nsca_cmd /usr/bin/send_nsca

send_nsca_conf /home/a/conf/amon/send_nsca.conf

然后指定要监控的模块和字段,且指定其有4个阀值:

####tsar mod alert config file

####threshold servicename.key;w-min;w-max;c-min;cmax;

threshold cpu.util;50;60;70;80;

由于没有Nagios环境,所以这里不再测试!

(转)淘宝系统信息采集和监控工具tsar的更多相关文章

  1. (转)从P1到P7——我在淘宝这7年

    (一) 2011-12-08 [原文链接] 今天有同事恭喜我,我才知道自己在淘宝已经七周年了.很多人第一句话就是七年痒不痒,老实说,也曾经痒过,但往往都是一痒而过,又投入到水深火热的工作中去.回家之后 ...

  2. Web——在淘宝搜索到看到商品

    [摘自]http://blog.renren.com/blog/254459622/799372165 浏览器首先查询DNS服务器,将www.taobao.com转换成ip地址.负载均衡的第一步,将你 ...

  3. 《淘宝技术这十年》之LAMP架构的网站

    本文节选自<淘宝技术这十年>一书,子柳(赵超)著,由电子工业出版社出版.作者的系列博文:从P1到P7--我在淘宝这7年 2003年4月7日,马云在杭州成立了一个神秘的组织.他叫来十位员工, ...

  4. 两个月淘宝刷单,连续死N次血泪史 (转)

    两个月淘宝刷单,连续死N次血泪史 派代网 2014/10/13 刷单 分享到:3 [思路网注] 看来是靠刷流量刷销量是行不通了,点击率与展现无法匹配,这是致命的!!那么,贵就贵点,直通车来吧!!再删宝 ...

  5. 从P1到P7——我在淘宝这7年(转)

    作者: 赵超  发布时间: 2012-02-25 14:47  阅读: 114607 次  推荐: 153   [收藏] (一) 2011-12-08 [原文链接] 今天有同事恭喜我,我才知道自己在淘 ...

  6. 淘宝可伸缩高性能互联网架构HSF(转)

    文章转自http://blog.csdn.net/hpf911/article/details/14165865 时间过得很快,来淘宝已经两个月了,在这两个月的时间里,自己也感受颇深.下面就结合淘宝目 ...

  7. 【转】淘宝技术牛p博客整理

    转自:http://blog.csdn.NET/zdp072/article/details/19574793 淘宝技术委员会是由淘宝技术部高级技术人员组成的一个组织,共分为Java分会.C/C++分 ...

  8. 从P1到P7——我在淘宝这7年 - 子柳撰写

    http://kb.cnblogs.com/page/132752/来自博客园的整理版本,作者是子柳,博客地址:http://blog.sina.com.cn/calvinzhaoc (一) 2011 ...

  9. 淘宝内部大量使用的开源系统监控工具--Tsar

    Tsar是淘宝开发的一个非常好用的系统监控工具,在淘宝内部大量使用    它不仅可以监控CPU.IO.内存.TCP等系统状态,也可以监控Apache,Nginx/Tengine,Squid等服务器状态 ...

随机推荐

  1. vitamio MediaController总是显示在底部的问题

    前面一直用腾讯的x5 tas来播放视频,但是体验效果不好,不能设置播放页,无法获取用户对视频的学习情况,百度了下,发现好多人在使用vitamio,最新版本是5.0的,下载可能要花费点时间,官网上竟然没 ...

  2. angular 第二种依赖注入

    import { Injectable } from '@angular/core'; import { ProductServiceService, Product } from './produc ...

  3. 浅谈HTTP和TCP的理解

    TCP协议对应于传输层,而Http协议对应于应用层,Http协议是建立在TCP协议之上的,当浏览器需要从服务器获取网页数据的时候,会发出一次Http请求.HTTP会通过TCP建立一个连接通道,当HTT ...

  4. HDU - 5996 树上博弈 BestCoder Round #90

    就是阶梯NIM博弈,那么看层数是不是奇数的异或就行了: #include<iostream> #include<cstdio> #include<algorithm> ...

  5. mysql数据库分库分表shardingjdbc

    分库分表理解 分库分表应用于互联网的两个场景;大量数据和高并发,通常策略有两种:垂直分库,水平拆分 垂直拆分:是根据业务将一个库拆分为多个库,将一个表拆分为多个表,例如:将不常用的字段和经常访问的字段 ...

  6. jeesite模块解析,功能实现

    做为十分优秀的开源框架,JeeSite拥有着很多实用性的东西. 默认根路径跳转 定义了无Controller的path<->view直接映射 <mvc:view-controller ...

  7. python之time和datetime的常用方法

    python之time和datetime的常用方法   一.time的常用方法: import time,datetime # 时间有三种展现方式:时间戳,时间元组,格式化的时间print(time. ...

  8. 1011 A+B 和 C (15 分)

    #include <iostream> using namespace std; int main(){ int t; cin >> t; double a, b, c; // ...

  9. Win7电脑开机无法正常启动只能进入安全模式解决方式

    我们先尝试在开机的时候按F8进入安全模式,进入到安全模式后一次打开“控制面板”-“程序与功能”,然后将卡巴斯基卸载[ http://jingyan.baidu.com/article/ff42efa9 ...

  10. POJ_1984 Navigation Nightmare 【并查集】

    一.题面 POJ1984 二.分析 这题还是比较有意思的一题. 首先需要清楚的是,这题与普通并查集的区别在于它的节点之间的权值是二维的,因为是曼哈顿距离,肯定不能直接存距离,这样将不利于后面的路径压缩 ...