Facebook开源的基于SQL的操作系统检测和监控框架:osquery Table详解
写在前面
上一篇介绍了osquery的一些用法,即如何使用SQL语句查询系统信息。本文就来介绍下这个table是如何定义的,及table中的数据是如何取得的。
本文以uptime和process两张表为例。本文介绍的osquery版本是1.7.6。
uptime
uptime主要用来获取系统的启动时间:
osquery> select * from uptime;
+------+-------+---------+---------+---------------+
| days | hours | minutes | seconds | total_seconds |
+------+-------+---------+---------+---------------+
| 1 | 23 | 19 | 53 | 170393 |
+------+-------+---------+---------+---------------+
uptime表中的这条数据是如何获取的呢?
一般来说,对于table的描述分为两部分。一部分是spec,一部分是impl。
- spec用于说明表的名称、结构以及对应实现的方法,其代码主要在/specs中。
- impl则是表的具体实现,其代码主要在/osquery/tables中。
Spec
首先来看uptime.table
table_name("uptime")
description("Track time passed since last boot.")
schema([
Column("days", INTEGER, "Days of uptime"),
Column("hours", INTEGER, "Hours of uptime"),
Column("minutes", INTEGER, "Minutes of uptime"),
Column("seconds", INTEGER, "Seconds of uptime"),
Column("total_seconds", BIGINT, "Total uptime seconds"),
])
implementation("system/uptime@genUptime")
可以看到uptime表有5列,分别是days,hours,minutes,seconds,total_seconds。
其实现的代码是system/uptime
中的genUptime
函数。
Impl
那么直接来看具体实现uptime.cpp。
QueryData genUptime(QueryContext& context) {
Row r;
QueryData results;
long uptime_in_seconds = getUptime(); //获取启动的时间(根据不同的系统,有不同的方法获取)
if (uptime_in_seconds >= 0) {
r["days"] = INTEGER(uptime_in_seconds / 60 / 60 / 24);
r["hours"] = INTEGER((uptime_in_seconds / 60 / 60) % 24);
r["minutes"] = INTEGER((uptime_in_seconds / 60) % 60);
r["seconds"] = INTEGER(uptime_in_seconds % 60);
r["total_seconds"] = BIGINT(uptime_in_seconds);
results.push_back(r);
}
return results;
}
Row r
是一行数据,其对应于SQL查询结果的一行,包含有该表的每一列。QueryData results
是SQL查询返回的所有查询结果的集合,可以包含若干行。
可以看到该函数是首先获取启动时间,然后在行Row r
中对应的字段填入相应的数据。
之后将结果通过results.push_back(r);
填入到返回数据中,然后最终返回查询的结果。
因为uptime表只是获取对应的时间,所以只有一行。这里genUptime
也就对应只填写了一行进行返回。
uptime
是一个比较简单的表,下面对一个更为复杂的表processes
进行分析。
Process
processes表相对来说,就复杂一些,其提供了正在running的进程的相关信息。
spec
首先来看processes.table,
可以看到该表包含了很多列。这里就不一一介绍了。
table_name("processes")
description("All running processes on the host system.")
schema([
Column("pid", BIGINT, "Process (or thread) ID", index=True),
Column("name", TEXT, "The process path or shorthand argv[0]"),
Column("path", TEXT, "Path to executed binary"),
Column("cmdline", TEXT, "Complete argv"),
Column("state", TEXT, "Process state"),
Column("cwd", TEXT, "Process current working directory"),
Column("root", TEXT, "Process virtual root directory"),
Column("uid", BIGINT, "Unsigned user ID"),
Column("gid", BIGINT, "Unsigned group ID"),
Column("euid", BIGINT, "Unsigned effective user ID"),
Column("egid", BIGINT, "Unsigned effective group ID"),
Column("suid", BIGINT, "Unsigned saved user ID"),
Column("sgid", BIGINT, "Unsigned saved group ID"),
Column("on_disk", INTEGER,
"The process path exists yes=1, no=0, unknown=-1"),
Column("wired_size", BIGINT, "Bytes of unpagable memory used by process"),
Column("resident_size", BIGINT, "Bytes of private memory used by process"),
Column("phys_footprint", BIGINT, "Bytes of total physical memory used"),
Column("user_time", BIGINT, "CPU time spent in user space"),
Column("system_time", BIGINT, "CPU time spent in kernel space"),
Column("start_time", BIGINT,
"Process start in seconds since boot (non-sleeping)"),
Column("parent", BIGINT, "Process parent's PID"),
Column("pgroup", BIGINT, "Process group"),
Column("nice", INTEGER, "Process nice level (-20 to 20, default 0)"),
])
implementation("system/processes@genProcesses")
examples([
"select * from processes where pid = 1",
])
可以看到起其实现是processes
中的genProcesses
函数。
Impl
processes
中的genProcesses
函数为不同系统提供了不同的实现。本文主要是从linux/processes.cpp来做分析。
首先看实现函数genProcesses
:
QueryData genProcesses(QueryContext& context) {
QueryData results;
auto pidlist = getProcList(context);
for (const auto& pid : pidlist) {
genProcess(pid, results);
}
return results;
}
可以看到该函数主要有两部分。
- 根据context获取pid列表
- 根据pid列表依次获取每个pid的信息
获取pid列表
getProcList
函数主要是根据context获取pid列表。
std::set<std::string> getProcList(const QueryContext& context) {
std::set<std::string> pidlist;
if (context.constraints.count("pid") > 0 &&
context.constraints.at("pid").exists(EQUALS)) {
for (const auto& pid : context.constraints.at("pid").getAll(EQUALS)) {
if (isDirectory("/proc/" + pid)) {
pidlist.insert(pid);
}
}
} else {
osquery::procProcesses(pidlist);
}
return pidlist;
}
从代码里可以看到,这里可以根据查询条件进行筛选。如果查询条件里面有where pid=xxxx
的时候,即符合了
if (context.constraints.count("pid") > 0 && context.constraints.at("pid").exists(EQUALS))
的条件,因此只需要将该pid加入到pidList中。
这一步的好处在于如果有where pid=xxxx
的条件,就不需要检索所有的pid,只需要去获取特定的pid信息就可以了。
如果没有这种限制条件,则去获取所有的pid。获取的方法是procProcesses
函数:
const std::string kLinuxProcPath = "/proc";
Status procProcesses(std::set<std::string>& processes) {
// Iterate over each process-like directory in proc.
boost::filesystem::directory_iterator it(kLinuxProcPath), end;
try {
for (; it != end; ++it) {
if (boost::filesystem::is_directory(it->status())) {
// See #792: std::regex is incomplete until GCC 4.9
if (std::atoll(it->path().leaf().string().c_str()) > 0) {
processes.insert(it->path().leaf().string());
}
}
}
} catch (const boost::filesystem::filesystem_error& e) {
VLOG(1) << "Exception iterating Linux processes " << e.what();
return Status(1, e.what());
}
return Status(0, "OK");
}
可以看到,获取所有的pid就是遍历/proc
下的所有文件夹,判断文件夹是不是纯数字,如果是,则加入到processes
集合里。
获取process的信息
有了pidList,接下来就是根据pidList,依次获取每个pid的信息。
void genProcess(const std::string& pid, QueryData& results) {
// Parse the process stat and status.
auto proc_stat = getProcStat(pid);
Row r;
r["pid"] = pid;
r["parent"] = proc_stat.parent;
r["path"] = readProcLink("exe", pid);
r["name"] = proc_stat.name;
r["pgroup"] = proc_stat.group;
r["state"] = proc_stat.state;
r["nice"] = proc_stat.nice;
// Read/parse cmdline arguments.
r["cmdline"] = readProcCMDLine(pid);
r["cwd"] = readProcLink("cwd", pid);
r["root"] = readProcLink("root", pid);
r["uid"] = proc_stat.real_uid;
r["euid"] = proc_stat.effective_uid;
r["suid"] = proc_stat.saved_uid;
r["gid"] = proc_stat.real_gid;
r["egid"] = proc_stat.effective_gid;
r["sgid"] = proc_stat.saved_gid;
// If the path of the executable that started the process is available and
// the path exists on disk, set on_disk to 1. If the path is not
// available, set on_disk to -1. If, and only if, the path of the
// executable is available and the file does NOT exist on disk, set on_disk
// to 0.
r["on_disk"] = osquery::pathExists(r["path"]).toString();
// size/memory information
r["wired_size"] = "0"; // No support for unpagable counters in linux.
r["resident_size"] = proc_stat.resident_size;
r["phys_footprint"] = proc_stat.phys_footprint;
// time information
r["user_time"] = proc_stat.user_time;
r["system_time"] = proc_stat.system_time;
r["start_time"] = proc_stat.start_time;
results.push_back(r);
}
可以看到首先是用getProcStat函数获取pid的信息。
这里getProcStat
函数就不展开分析了,其主要就是读取/proc/<pid>/stat
文件,然后将对应的字段获取出来。
然后genProcess
函数将从getProcStat
获取到的信息,填入到行r
中的对应列,最后将行r
加到返回的结果集中。
Facebook开源的基于SQL的操作系统检测和监控框架:osquery Table详解的更多相关文章
- Facebook开源的基于SQL的操作系统检测和监控框架:osquery daemon详解
osqueryd osqueryd(osquery daemon)是可以定期执行SQL查询和记录系统状态改变的驻守程序. osqueryd能够根据配置手机归档查询结果,并产生日志. 同时也可以使用系统 ...
- Facebook开源的基于SQL的操作系统检测和监控框架:osquery
osquery简介 osquery是一款由facebook开源的,面向OSX和Linux的操作系统检测框架. osquery顾名思义,就是query os,允许通过使用SQL的方式来获取操作系统的数据 ...
- [转帖]技术扫盲:新一代基于UDP的低延时网络传输层协议——QUIC详解
技术扫盲:新一代基于UDP的低延时网络传输层协议——QUIC详解 http://www.52im.net/thread-1309-1-1.html 本文来自腾讯资深研发工程师罗成的技术分享, ...
- Android中实现java与PHP服务器(基于新浪云免费云平台)http通信详解
Android中实现java与PHP服务器(基于新浪云免费云平台)http通信详解 (本文转自: http://blog.csdn.net/yinhaide/article/details/44756 ...
- SQL Server中通用数据库角色权限的处理详解
SQL Server中通用数据库角色权限的处理详解 前言 安全性是所有数据库管理系统的一个重要特征.理解安全性问题是理解数据库管理系统安全性机制的前提. 最近和同事在做数据库权限清理的事情,主要是删除 ...
- SQL Server中排名函数row_number,rank,dense_rank,ntile详解
SQL Server中排名函数row_number,rank,dense_rank,ntile详解 从SQL SERVER2005开始,SQL SERVER新增了四个排名函数,分别如下:1.row_n ...
- 开源一个基于dotnet standard的轻量级的ORM框架-Light.Data
还在dotnet framework 2.0的时代,当时还没有EF,而NHibernate之类的又太复杂,并且自己也有一些特殊需求,如查询结果直接入表.水平分表和新增数据默认值等,就试着折腾个轻量点O ...
- SQL Server 表的管理_关于完整性约束的详解(案例代码)
SQL Server 表的管理之_关于完整性约束的详解 一.概述: ●约束是SQL Server提供的自动保持数据库完整性的一种方法, 它通过限制字段中数据.记录中数据和表之间的数据来保证数据的完整性 ...
- 第三十一节,目标检测算法之 Faster R-CNN算法详解
Ren, Shaoqing, et al. “Faster R-CNN: Towards real-time object detection with region proposal network ...
随机推荐
- Mysql C语言API编程入门讲解
原文:Mysql C语言API编程入门讲解 软件开发中我们经常要访问数据库,存取数据,之前已经有网友提出让鸡啄米讲讲数据库编程的知识,本文就详细讲解如何使用Mysql的C语言API进行数据库编程. ...
- 出现Deprecated: Function ereg_replace() is deprecated in 的原因及解决方法
在 php5.3环境下运行oscommerce,常常会出现Deprecated: Function ereg() is deprecated in...和Deprecated: Function er ...
- 在windows server里,对于同一个账号,禁止或允许多个用户使用该账户,同时登录
开始 -> 运行 -> gpedit.msc -> 本地计算机 策略 -> 计算机配置 -> 管理模板 -> Windows 组件 -> 远程桌面服务 -&g ...
- PHP 4:从Login进一步看到的
原文:PHP 4:从Login进一步看到的 我们已经在PHP 3:从Login界面谈PHP标记谈到了PHP标记,不过其页面代码有一句 require_once('bookmark_fns.php'); ...
- xheditor 进阶
xhEditor提供两种方式初始化编辑器: 方法1:利用class属性来初始化和传递各种初始化参数,例: class="xheditor {skin:'default'}" 方法 ...
- myeclipse搭建svn插件
在网上查了一下,安装的方法有几种,这里给大家推荐一种快速安装的方法. //第一步 : 下载 site-1.6.5.zip //===================================== ...
- Effective C++(17) 以独立语句将newed对象置入智能指针
问题聚焦: 使用了资源管理对象(如智能指针),就一定是安全的吗?显然不是. 资源泄露发生可能在于,在“资源被创建”和“资源被转换为资源管理对象”两个时间点之间有可能发生异常干扰. 看下 ...
- Printk 标志优先级别
#define KERN_EMERG "<0>" /* 致命级:紧急事件消息,系统崩溃之前提示,表示系统不可用 */# ...
- 关于iTunes随机播放和我所不知道的自己
无意中看到这套题,很有意思,自己做了一下. 规则是这样的:打开你的播放器,我的是iTunes,不管是哪个,总之打开最全的那个播放列表,开启随机播放,按顺序把每首歌名写在下面每道题的后面,比如第一首歌是 ...
- 生成自己的Webapi帮助文档(二)
经过今天一上午的修改,已经有个基础的框架了,其它功能只能是在实际使用中发现一个修改一个了. 以下是生成的结果示例: 相比昨天,几个Model都有修改,这里就不一一贴代码了,放个代码包上来,有需要的自己 ...