一只简单的网络爬虫（基于linux C/C++）————读取命令行参数及日志宏设计

linux上面的程序刚开始启动的时候一般会从命令行获取某些参数，比如以守护进程运行啊什么的，典型的例子就是linux下的man，如下图所示

实现该功能可以使用getopt函数实现，该函数在头文件unistd.h定义

函数原型

int getopt(int argc,char * const argv[ ],const char * optstring);

函数说明

getopt()用来分析命令行参数。参数argc和argv是由main()传递的参数个数和内容。参数optstring 则代表欲处理的选项字符串。此函数会返回在argv 中下一个的选项字母，此字母会对应参数optstring 中的字母。如果选项字符串里的字母后接着冒号“:”，则表示还有相关的参数，全域变量optarg 即会指向此额外参数。如果getopt()找不到符合的参数则会印出错信息，并将全域变量optopt设为“?”字符，如果不希望getopt()印出错信息，则只要将全域变量opterr设为0即可。

短参数的定义

getopt()使用optstring所指的字串作为短参数列表，象”1ac:d::”就是一个短参数列表。短参数的定义是一个’-‘后面跟一个字母或数字，象-a, -b就是一个短参数。每个数字或字母定义一个参数。

　　其中短参数在getopt定义里分为三种：

　　1. 不带值的参数，它的定义即是参数本身。

　　2. 必须带值的参数，它的定义是在参数本身后面再加一个冒号。

　　3. 可选值的参数，它的定义是在参数本身后面加两个冒号。

　　在这里拿上面的”1ac:d::”作为样例进行说明，其中的1,a就是不带值的参数，c是必须带值的参数，d是可选值的参数。

　　在实际调用中，’-1 -a -c cvalue -d’, ‘-1 -a -c cvalue -ddvalue’, ‘-1a -ddvalue -c cvalue’都是合法的。这里需要注意三点：

　　1. 不带值的参数可以连写，象1和a是不带值的参数，它们可以-1 -a分开写，也可以-1a或-a1连写。

　　2. 参数不分先后顺序，’-1a -c cvalue -ddvalue’和’-d -c cvalue -a1’的解析结果是一样的。

　　3. *要注意可选值的参数的值与参数之间不能有空格*，必须写成-ddvalue这样的格式，如果写成-d dvalue这样的格式就会解析错误。

返回值

　 getopt()每次调用会逐次返回命令行传入的参数。

　当没有参数的最后的一次调用时，getopt()将返回-1。

　当解析到一个不在optstring里面的参数，或者一个必选值参数不带值时，返回’?’。

　当optstring是以’:’开头时，缺值参数的情况下会返回’:’，而不是’?’ 。

　读取命令行参数函数可如下设计：

　

// 解析命令行参数

    //getopt为标准库的函数，判断传进来的参数是否是后面参数集合的一部分

    while ((ch = getopt(argc, (char* const*)argv, "vhd")) != -1)

    {//这里要做一个类型转换，否则出错

        switch(ch)

        {

            case 'v'://获取版本

                version();

                break;

            case 'd'://守护进程

                daemonized = 1;

                break;

            case 'h'://获取帮助

            case '?':

            default:

                usage();

        }

    }

根据返回值跳转到不同的函数执行。

日志宏

下面说说日志宏的实现，日志对于服务器程序或其他长期运行的，以守护进程方式运行的程序来说是非常重要的，除了发生错误的时候查看，在开发的时候输出调试信息更是有利于我们的开发，应该有不少的人会觉得用日志信息来调试会比使用gdb调试好。muduo库里面封装了很好的日志类，并且支持日志滚动，高效异步日志，实现了一个较好的日志功能，当然，我们并不用也去开发一个那样强大的日志库，“不要重复发明轮子”，学习是可以的，因为这个爬虫并不是用muduo库写的，而且我们的要求并没有那么高，所以我们可以自己实现一个简单的日志功能。

个人觉得日志一般应该包括时间，文件，所在行，日志等级，以及我们自己要输出的信息

一个简单的日志宏可以如下实现：

#define MAX_MESG_LEN   1024

#define SPIDER_LEVEL_DEBUG 0

#define SPIDER_LEVEL_INFO  1

#define SPIDER_LEVEL_WARN  2

#define SPIDER_LEVEL_ERROR 3

#define SPIDER_LEVEL_CRIT  4 

static const char * LOG_STR[] = {

    "DEBUG",

    "INFO",

    "WARN",

    "ERROR",

    "CRIT"

};

extern Config *g_conf;

//可变参数

//输出日期，时间，日志级别，源码文件，行号，信息

//'\'后面不要加注释

#define SPIDER_LOG(level, format, ...) do{ \

    if (level >= g_conf->log_level) {\

        time_t now = time(NULL);                      \

        char msg[MAX_MESG_LEN];                        \

        char buf[32];                                   \

        sprintf(msg, format, ##__VA_ARGS__);             \

        strftime(buf, sizeof(buf), "%Y%m%d %H:%M:%S", localtime(&now)); \

        fprintf(stdout, "[%s] [%s] [file:%s] [line:%d] %s\n", buf, LOG_STR[level],__FILE__,__LINE__, msg); \

        fflush (stdout); \

    }\

     if (level == SPIDER_LEVEL_ERROR) {\

        exit(-1); \

    } \

} while(0)

fprintf(stdout, “[%s] [%s] [file:%s] [line:%d] %s\n”, buf, LOG_STR[level],FILE,LINE, msg);这个是核心的输出函数，从左到右一次输出时间，日志等级，文件，所在行号，以及我们的信息。

VA_ARGS是一个可变参数宏，可以帮助我们把我们要输出的信息按照我们所要求的特定格式写进数组msg中，可见这里

FILE和LINE（前后都是双下划线，这里显示不出来）用于获取文件和行号

日志宏不仅是只能输出到终端，即一般日志应该能够写到文件中，特别是在以守护进程方式运行的时候，我们不希望终端上出现任何的消息，而是需要的时候采取查看日志文件，这里可以简单地实现下这个功能。

在以守护进程方式运行的时候，使用dup2函数将日志文件的文件描述符复制到标准输出stdout中，这样一来，输出到stdout的内容都将写到文件中，当然我们这里只是为了实现这个功能而已，效率及其他不做考虑，大并发的日志设计可以参考muduo库

该日志的输出效果如下：

一只简单的网络爬虫（基于linux C/C++）————读取命令行参数及日志宏设计的更多相关文章

一只简单的网络爬虫（基于linux C/C++）————开篇
最近学习开发linux下的爬虫,主要是参考了该博客及其他一些网上的资料.网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息 ...
一只简单的网络爬虫（基于linux C/C++）————主事件流程
该爬虫的主事件流程大致如下: 1.获取命令行参数,执行相应操作 2.读取配置文件,解析得到各种设置 3.载入各种模块 4.种子入队,开启DNS解析线程(原始队列不为空时解析) 5.创建epoll,开启 ...
一只简单的网络爬虫（基于linux C/C++）————浅谈并发（IO复用）模型
Linux常用的并发模型 Linux 下设计并发网络程序,有典型的 Apache 模型( Process Per Connection ,简称 PPC ), TPC ( Thread Per Conn ...
一只简单的网络爬虫（基于linux C/C++）————支持动态模块加载
插件在软件设计中有很大的好处,可以方便地扩展各种功能,使用插件技术能够在分析.设计.开发.项目计划.协作生产和产品扩展等很多方面带来好处: (1)结构清晰.易于理解.由于借鉴了硬件总线的结构,而且各个 ...
一只简单的网络爬虫（基于linux C/C++）————socket相关及HTTP
socket相关建立连接网络通信中少不了socket,该爬虫没有使用现成的一些库,而是自己封装了socket的相关操作,因为爬虫属于客户端,建立套接字和发起连接都封装在build_connect中 ...
一只简单的网络爬虫（基于linux C/C++）————守护进程
守护进程,也就是通常说的Daemon进程,是Linux中的后台服务进程.它是一个生存期较长的进程,通常独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件.守护进程常常在系统引导装入时启动, ...
一只简单的网络爬虫（基于linux C/C++）————利用正则表达式解析页面
我们向一个HTTP的服务器发送HTTP的请求后,服务器会返回可能一个HTML页面(当然也可以是其他的资源),我们可以利用返回的HTML页面,在其中寻找其他的Url,例如我们可以这样在浏览器上查看一下H ...
一只简单的网络爬虫（基于linux C/C++）————线程相关
爬虫里面采用了多线程的方式处理多个任务,以便支持并发的处理,把主函数那边算一个线程的话,加上一个DNS解析的线程,以及我们可以设置的max_job_num值,最多使用了1+1+max_job_num个 ...
一只简单的网络爬虫（基于linux C/C++）————Url处理以及使用libevent进行DNS解析
Url处理爬虫里使用了两个数据结构来管理Url 下面的这个数据结构用来维护原始的Url,同时有一个原始Url的队列 //维护url原始字符串 typedef struct Surl { char * ...

随机推荐

数据结构-Python 列表(List)
列表是最常用的Python数据类型,它可以作为一个方括号内的逗号分隔值出现一.列表常用方法 1.创建一个列表,只要把逗号分隔的不同的数据项使用方括号括起来即可. eg:list1 = ['1', ' ...
ConcurrentHashMap中节点数目并发统计的实现原理
前言: 前段时间又看了一遍ConcurrentHashMap的源码,对该并发容器的底层实现原理有了更进一步的了解,本想写一篇关于ConcurrentHashMap的put方法所涉及的初始化以及扩容操作 ...
队列的含义以及C语言实现顺序队列
队列,和栈一样,也是一种对数据的"存"和"取"有严格要求的线性存储结构. 什么是队列与栈结构不同的是,队列的两端都"开口",要求数据只能从 ...
Struts2-学习笔记系列(8)-异常处理
后台抛出自定义异常 public String execute() throws Exception { if (getUser().equalsIgnoreCase("user" ...
Pod容器共享Volume
同一个Pod中的多个容器能够共享Pod级别的存储卷Volume.Volume可以被定义为各种类型,多个容器各自进行挂载操作,将一个Volume挂载为容器内部需要的目录,如图在下面的例子中,在Pod内 ...
01-css3之过渡
一.介绍过渡(transition)是CSS3中具有颠覆性的特征之一,我们可以在不使用 Flash 动画或 JavaScript 的情况下,当元素从一种样式变换为另一种样式时为元素添加效果,经常和 ...
Davor COCI 2018
当题目中有多组解,但要某值最大,该怎么办? 本文为博客园ShyButHandsome的原创作品,转载请注明出处题目描述 After successfully conquering the South ...
Extjs——简单的Grid panel小实例
<!DOCTYPE html> <html lang="en" xmlns="http://www.w3.org/1999/xhtml"> ...
MVC-基础02
MVC是Model(模型).View(视图)和Controller(控制). 1)最上面的一层,是直接面向最终用户的"视图层"(View).它是提供给用户的操作界面,是程序的外壳. ...
pytorch中的前项计算和反向传播
前项计算1 import torch # (3*(x+2)^2)/4 #grad_fn 保留计算的过程 x = torch.ones([2,2],requires_grad=True) print(x ...

一只简单的网络爬虫（基于linux C/C++）————读取命令行参数及日志宏设计

日志宏

一只简单的网络爬虫（基于linux C/C++）————读取命令行参数及日志宏设计的更多相关文章

随机推荐

热门专题