上一小节,我们实现了下载一个网页。接下来的一步就是使用提取有用的信息。如何提取呢?一个比较好用和常见的方法就是使用正则表达式来提取的。想一想我们要做个什么样的网络爬虫好呢?我记得以前好像博客园里面有人写过一个提取博客园用户名的博客。我这次就实现这个好了。

  第一步我们要分析博客园一个URL的组成,我们每一个用户对应都有这样的一个主目录http://www.cnblogs.com/XXXXXXX 这样的一个主页(现在有了http://XXXXXXX.cnblogs.com这样的主页了,但是不常用)。所以我们判断一个字符串是不是博客园的有效用户,我们的做法就是提取一个像上面一样的URL,然后截取后面的用户名即可。

  带正则表达式的网页下载程序

 #include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/types.h>
#include <sys/socket.h>
#include <unistd.h>
#include <netdb.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <regex.h>//正则表达式 #define BUF_SIZE 512 int reptile_regex(char * buf,char *pattern); char ch[];//100k int main(int argc,char *argv[])
{
struct sockaddr_in servAddr;
struct hostent * host;
int sockfd;
char sendBuf[BUF_SIZE],recvBuf[BUF_SIZE];
int sendSize,recvSize; host=gethostbyname(argv[]);
if(host==NULL)
{
perror("dns 解析失败");
}
servAddr.sin_family=AF_INET;
servAddr.sin_addr=*((struct in_addr *)host->h_addr);
servAddr.sin_port=htons(atoi(argv[]));
bzero(&(servAddr.sin_zero),); sockfd=socket(AF_INET,SOCK_STREAM,);
if(sockfd==-)
{
perror("socket 创建失败");
} if(connect(sockfd,(struct sockaddr *)&servAddr,sizeof(struct sockaddr_in))==-)
{
perror("connect 失败");
} //构建一个http请求
sprintf(sendBuf,"GET / HTTP/1.1 \r\nHost: %s \r\nConnection: Close \r\n\r\n",argv[]);
if((sendSize=send(sockfd,sendBuf,BUF_SIZE,))==-)
{
perror("send 失败");
}
//获取http应答信息
memset(recvBuf,,sizeof(recvBuf));
memset(ch,,sizeof(ch));
char pattern[]={};
strcpy(pattern,"http://www.cnblogs.com/[[:alnum:]]*/");
while(recvSize=recv(sockfd,recvBuf,BUF_SIZE,)>)
{
//printf("%s",recvBuf);
strcat(ch,recvBuf);
memset(recvBuf,,sizeof(recvBuf));
}
reptile_regex(ch,pattern); return ;
} //第一个参数是要匹配的字符串,第二个参数是匹配的规则,返回匹配的个数
int reptile_regex(char * buf,char *pattern)
{
size_t nmatch=;//最多匹配100个一次
regmatch_t pm[];//与上面对应
regex_t reg;//正则表达式指针
regcomp(&reg,pattern,);//编译匹配模式
int z=regexec(&reg,buf,nmatch,pm,);
if(z==REG_NOMATCH)
{
;//本次没有匹配到
}
else
{
for(int i=;i<&&pm[i].rm_so!=-;++i)
{
for(int j=pm[i].rm_so;j<pm[i].rm_eo;++j)
{
printf("%c",buf[j]);
}
//上面的遍历可以用下面函数代替
//printf("%d=%s\n",i,substr(buf,pm[i].rm_so,pm[i].rm_eo));
printf("\n");
}
}
regfree(&reg);
return ;
}

  本来一开始以为这样就可以了,可是没想到每次都是匹配到第一个而已,后面怎么都匹配不到,还以为是正则写错了,但是就那么几个怎么可能错了。最后找到一篇博客,才知道,一次调用regexec是没有办法全部匹配出来的。要进行多次。哎,怎么这么麻烦呀。

  带正则表达式的网页下载程序修改版

  将reptile_regex函数修改如下即可实现多次匹配

 int reptile_regex(char * buf,char *pattern)
{
size_t nmatch=;//最多匹配100个一次
regmatch_t pm[];//与上面对应
regex_t reg;//正则表达式指针
char * str;
str=buf;
regcomp(&reg,pattern,);//编译匹配模式
while(regexec(&reg,str,nmatch,pm,)!=REG_NOMATCH)
{
for(int j=pm[].rm_so;j<pm[].rm_eo;++j)
{
printf("%c",str[j]);
}
//printf("%d=%s\n",i,substr(buf,pm[i].rm_so,pm[i].rm_eo));
printf("\n");
str=str+pm[].rm_eo;
}
regfree(&reg);
return ;
}

  好了,现在可以多次匹配了,但是又出现一个问题了,问题就是会有重复的用户名出现。如何避免呢?一个办法是把用户名保存起来,然后来一个用户名就一个一个进行比较,看是否有相同,如果都没有就加入到用户名组里面去。依次类推。不过一般爬虫爬到的用户名都会比较多,如果这样O(N)的比较效率不是很高,可以通过HASH降低为O(1)。但是设计一个hash函数比较麻烦,为了方便,我就使用一个map来处理,效率还好有O(logN)。

  防止重复后的网页下载程序

  ...
int main(int argc,char *argv[])
{
    ...
map<string,int> user;//第一个是用户名,第二个保存被加入的次数     ...
reptile_regex(ch,pattern,user);
map<string,int>::iterator it;
for(it=user.begin();it!=user.end();++it)
{
cout<<it->first<<endl;
} return ;
} //第一个参数是要匹配的字符串,第二个参数是匹配的规则,返回匹配的个数
int reptile_regex(char * buf,char *pattern,map<string,int> & user)
{
size_t nmatch=;
regmatch_t pm[];
regex_t reg;//正则表达式指针
char * str;
char ch[];
int i,j;
str=buf;
regcomp(&reg,pattern,);//编译匹配模式
while(regexec(&reg,str,nmatch,pm,)!=REG_NOMATCH)
{
//http://www.cnblogs.com/
i=pm[].rm_so+;
for(j=i;j<pm[].rm_eo;++j)
{
//printf("%c",str[j]);
ch[j-i]=str[j];
}
ch[j-i]=;
string st(ch);
user[st]++;
//printf("%s",ch);
//printf("%d=%s\n",i,substr(buf,pm[i].rm_so,pm[i].rm_eo));
//printf("\n");
str=str+pm[].rm_eo;
}
regfree(&reg);
return ;
}

  这样就把所有查询到的用户名都保存在users中了。而且对应的int还保存了查询到的次数。这个还可以在以后用来判断该用户的博客是否经常被人提及到的一个参考值。

  参考资料:

  正则表达式匹配多个问题: http://blog.163.com/lixiangqiu_9202/blog/static/53575037201412311211291/

  本文地址: http://www.cnblogs.com/wunaozai/p/3900169.html

Socket网络编程--网络爬虫(2)的更多相关文章

  1. [转] - Linux网络编程 -- 网络知识介绍

    (一)Linux网络编程--网络知识介绍 Linux网络编程--网络知识介绍客户端和服务端         网络程序和普通的程序有一个最大的区别是网络程序是由两个部分组成的--客户端和服务器端. 客户 ...

  2. JAVA基础知识之网络编程——-网络基础(Java的http get和post请求,多线程下载)

    本文主要介绍java.net下为网络编程提供的一些基础包,InetAddress代表一个IP协议对象,可以用来获取IP地址,Host name之类的信息.URL和URLConnect可以用来访问web ...

  3. UNIX网络编程——网络IPC:套接字

    UNIX网络编程——网络IPC:套接字 Contents 套接字接口 套接字描述符 寻址 字节序 地址格式 地址查询 绑定地址 建立连接 数据传输 套接字选项 带外数据 UNIX域套接字 使用套接字的 ...

  4. Socket网络编程--网络爬虫(1)

    我们这个系列准备讲一下--网络爬虫.网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,采集信息,这些网页信息用于建立索引从而为搜索引擎提供支持,它决定着整个引擎系统的内容是否丰富, ...

  5. 网络编程—网络基础概览、socket,TCP/UDP协议

    网络基础概览 socket概览 socket模块—TCP/UDP的实现 TCP/UDP总结 网络基础概览 osi七层协议各层主要的协议 # 物理层传输电信号1010101010 # 数据链路层,以太网 ...

  6. linux网络编程--网络编程的基本函数介绍与使用【转】

    本文转载自:http://blog.csdn.net/yusiguyuan/article/details/17538499 我们深谙信息交流的价值,那网络中进程之间如何通信,如我们每天打开浏览器浏览 ...

  7. python网络编程——网络IO模型

    1 网络IO模型介绍 服务器端编程经常需要构造高性能的IO模型,常见的IO模型有四种:    (1)同步阻塞IO(Blocking IO):即传统的IO模型.    (2)同步非阻塞IO(Non-bl ...

  8. JAVA基础知识之网络编程——-网络通信模型(IO模型)

    <Unix网络编程:卷1>中介绍了5中I/O模型,JAVA作为运行在宿主机上的程序,底层也遵循这5中I/O模型规则.这5中I/O模型分别是: 阻塞式IO 非阻塞式IO I/O复用 信号驱动 ...

  9. UNIX网络编程——网络I/O模型

    在学习UNIX网络编程的时候.一開始分不清 同步 和 异步,所以还是总结一下,理清下他们的差别比較好. IO分类 IO依据对IO的调度方式可分为堵塞IO.非堵塞IO.IO复用.信号驱动IO.异步IO. ...

随机推荐

  1. C#简单画图Draw研究学习

    命名空间:using System.Drawing; Graphics类:有道词典翻译 在C#里是封装一个 GDI+ 绘图图面,此类不能被继承. Pen类:定义用于绘制直线和曲线的对象. 此类不能被继 ...

  2. Python 函数装饰器

    首次接触到装饰器的概念,太菜啦! Python 装饰器可以大大节省代码的编写量,提升代码的重复使用率.函数装饰器其本质也是一个函数,我们可以把它理解为函数中定义了一个子函数. 例如我们有这么一个需求, ...

  3. 安装Appium-desktop,并连接模拟器!Appium-Python-Client

    1.下载appium-desktop https://github.com/appium/appium-desktop/releases 2.双击 exe 文件,然后,等待安装完就好了 3.启动app ...

  4. BZOJ.1927.[SDOI2010]星际竞速(无源汇上下界费用流SPFA /最小路径覆盖)

    题目链接 上下界费用流: /* 每个点i恰好(最少+最多)经过一次->拆点(最多)+限制流量下界(i,i',[1,1],0)(最少) 然后无源汇可行流 不需要源汇. 注: SS只会连i',求SS ...

  5. Python图形编程探索系列-09-tkinter与matplotlib结合案例

    案例1 案例来自于:https://bbs.csdn.net/topics/390326088 代码示例: import matplotlib matplotlib.use('TkAgg') from ...

  6. __NSCFNumber isEqualToString:]: unrecognized selector sent to instance 0xb000000000000003

    出现这个报错的原因是:拿数字与字符串进行对比了. 检查两边的数据格式是否一致 如果不一致,可以使用[nsstring stringwithformate:@"%d",xx]包装一下 ...

  7. * -[__NSPlaceholderDictionary initWithObjects:forKeys:count:]: attempt to insert nil object from objects[0]’

    错误描述: * -[__NSPlaceholderDictionary initWithObjects:forKeys:count:]: attempt to insert nil object fr ...

  8. Python 将图片转化为 HTML 页面

    最近在 GitHub 看到一个挺有意思的 Python 程序(img2html: Convert a image to HTML). 它能将图片的每个像素用文字代替,最后生成一个HTML文档,在浏览器 ...

  9. 数据结构C语言版--动态顺序表的基本功能实现(二)

    /* * 若各个方法结构体变量参数为: &L(即地址符加变量)则结构体变量访问结构成员变量时使用"." * 若为:*L(即取地址符加变量)则结构体变量访问结构体成员变量使用 ...

  10. [Beego模型] 一、ORM 使用方法

    [Beego模型] 一.ORM 使用方法 [Beego模型] 二.CRUD 操作 [Beego模型] 三.高级查询 [Beego模型] 四.使用SQL语句进行查询 [Beego模型] 五.构造查询 [ ...