Socket网络编程--网络爬虫(2)

　　上一小节，我们实现了下载一个网页。接下来的一步就是使用提取有用的信息。如何提取呢？一个比较好用和常见的方法就是使用正则表达式来提取的。想一想我们要做个什么样的网络爬虫好呢？我记得以前好像博客园里面有人写过一个提取博客园用户名的博客。我这次就实现这个好了。

　　第一步我们要分析博客园一个URL的组成，我们每一个用户对应都有这样的一个主目录http://www.cnblogs.com/XXXXXXX 这样的一个主页(现在有了http://XXXXXXX.cnblogs.com这样的主页了，但是不常用)。所以我们判断一个字符串是不是博客园的有效用户，我们的做法就是提取一个像上面一样的URL，然后截取后面的用户名即可。

　　带正则表达式的网页下载程序

 #include <stdio.h>
 #include <stdlib.h>
 #include <string.h>
 #include <sys/types.h>
 #include <sys/socket.h>
 #include <unistd.h>
 #include <netdb.h>
 #include <netinet/in.h>
 #include <arpa/inet.h>
 #include <regex.h>//正则表达式
 
 #define BUF_SIZE 512
 
 int reptile_regex(char * buf,char *pattern);
 
 char ch[];//100k
 
 int main(int argc,char *argv[])
 {
     struct sockaddr_in servAddr;
     struct hostent * host;
     int sockfd;
     char sendBuf[BUF_SIZE],recvBuf[BUF_SIZE];
     int sendSize,recvSize;
 
     host=gethostbyname(argv[]);
     if(host==NULL)
     {
         perror("dns 解析失败");
     }
     servAddr.sin_family=AF_INET;
     servAddr.sin_addr=*((struct in_addr *)host->h_addr);
     servAddr.sin_port=htons(atoi(argv[]));
     bzero(&(servAddr.sin_zero),);
 
     sockfd=socket(AF_INET,SOCK_STREAM,);
     if(sockfd==-)
     {
         perror("socket 创建失败");
     }
 
     if(connect(sockfd,(struct sockaddr *)&servAddr,sizeof(struct sockaddr_in))==-)
     {
         perror("connect 失败");
     }
 
     //构建一个http请求
     sprintf(sendBuf,"GET / HTTP/1.1 \r\nHost: %s \r\nConnection: Close \r\n\r\n",argv[]);
     if((sendSize=send(sockfd,sendBuf,BUF_SIZE,))==-)
     {
         perror("send 失败");
     }
     //获取http应答信息
     memset(recvBuf,,sizeof(recvBuf));
     memset(ch,,sizeof(ch));
     char pattern[]={};
     strcpy(pattern,"http://www.cnblogs.com/[[:alnum:]]*/");
     while(recvSize=recv(sockfd,recvBuf,BUF_SIZE,)>)
     {
         //printf("%s",recvBuf);
         strcat(ch,recvBuf);
         memset(recvBuf,,sizeof(recvBuf));
     }
     reptile_regex(ch,pattern);
 
     return ;
 }
 
 //第一个参数是要匹配的字符串，第二个参数是匹配的规则,返回匹配的个数
 int reptile_regex(char * buf,char *pattern)
 {
     size_t nmatch=;//最多匹配100个一次
     regmatch_t pm[];//与上面对应
     regex_t reg;//正则表达式指针
     regcomp(&reg,pattern,);//编译匹配模式
     int z=regexec(&reg,buf,nmatch,pm,);
     if(z==REG_NOMATCH)
     {
         ;//本次没有匹配到
     }
     else
     {
         for(int i=;i<&&pm[i].rm_so!=-;++i)
         {
             for(int j=pm[i].rm_so;j<pm[i].rm_eo;++j)
             {
                 printf("%c",buf[j]);
             }
             //上面的遍历可以用下面函数代替
             //printf("%d=%s\n",i,substr(buf,pm[i].rm_so,pm[i].rm_eo));
             printf("\n");
         }
     }
     regfree(&reg);
     return ;
 }

　　本来一开始以为这样就可以了，可是没想到每次都是匹配到第一个而已，后面怎么都匹配不到，还以为是正则写错了，但是就那么几个怎么可能错了。最后找到一篇博客，才知道，一次调用regexec是没有办法全部匹配出来的。要进行多次。哎，怎么这么麻烦呀。

　　带正则表达式的网页下载程序修改版

　　将reptile_regex函数修改如下即可实现多次匹配

 int reptile_regex(char * buf,char *pattern)
 {
     size_t nmatch=;//最多匹配100个一次
     regmatch_t pm[];//与上面对应
     regex_t reg;//正则表达式指针
     char * str;
     str=buf;
     regcomp(&reg,pattern,);//编译匹配模式
     while(regexec(&reg,str,nmatch,pm,)!=REG_NOMATCH)
     {
         for(int j=pm[].rm_so;j<pm[].rm_eo;++j)
         {
             printf("%c",str[j]);
         }
         //printf("%d=%s\n",i,substr(buf,pm[i].rm_so,pm[i].rm_eo));
         printf("\n");
         str=str+pm[].rm_eo;
     }
     regfree(&reg);
     return ;
 }

　　好了，现在可以多次匹配了，但是又出现一个问题了，问题就是会有重复的用户名出现。如何避免呢？一个办法是把用户名保存起来，然后来一个用户名就一个一个进行比较，看是否有相同，如果都没有就加入到用户名组里面去。依次类推。不过一般爬虫爬到的用户名都会比较多，如果这样O(N)的比较效率不是很高，可以通过HASH降低为O(1)。但是设计一个hash函数比较麻烦，为了方便，我就使用一个map来处理，效率还好有O(logN)。

　　防止重复后的网页下载程序

  ...
 int main(int argc,char *argv[])
 {
 　　　　...
     map<string,int> user;//第一个是用户名，第二个保存被加入的次数
 
　　　　...
     reptile_regex(ch,pattern,user);
     map<string,int>::iterator it;
     for(it=user.begin();it!=user.end();++it)
     {
         cout<<it->first<<endl;
     }
 
     return ;
 }
 
 //第一个参数是要匹配的字符串，第二个参数是匹配的规则,返回匹配的个数
 int reptile_regex(char * buf,char *pattern,map<string,int> & user)
 {
     size_t nmatch=;
     regmatch_t pm[];
     regex_t reg;//正则表达式指针
     char * str;
     char ch[];
     int i,j;
     str=buf;
     regcomp(&reg,pattern,);//编译匹配模式
     while(regexec(&reg,str,nmatch,pm,)!=REG_NOMATCH)
     {
         //http://www.cnblogs.com/
         i=pm[].rm_so+;
         for(j=i;j<pm[].rm_eo;++j)
         {
             //printf("%c",str[j]);
             ch[j-i]=str[j];
         }
         ch[j-i]=;
         string st(ch);
         user[st]++;
         //printf("%s",ch);
         //printf("%d=%s\n",i,substr(buf,pm[i].rm_so,pm[i].rm_eo));
         //printf("\n");
         str=str+pm[].rm_eo;
     }
     regfree(&reg);
     return ;
 }

　　这样就把所有查询到的用户名都保存在users中了。而且对应的int还保存了查询到的次数。这个还可以在以后用来判断该用户的博客是否经常被人提及到的一个参考值。

　　参考资料:

　　正则表达式匹配多个问题: http://blog.163.com/lixiangqiu_9202/blog/static/53575037201412311211291/

　　本文地址: http://www.cnblogs.com/wunaozai/p/3900169.html

Socket网络编程--网络爬虫(2)的更多相关文章

[转] - Linux网络编程 -- 网络知识介绍
(一)Linux网络编程--网络知识介绍 Linux网络编程--网络知识介绍客户端和服务端网络程序和普通的程序有一个最大的区别是网络程序是由两个部分组成的--客户端和服务器端. 客户 ...
JAVA基础知识之网络编程——-网络基础（Java的http get和post请求，多线程下载）
本文主要介绍java.net下为网络编程提供的一些基础包,InetAddress代表一个IP协议对象,可以用来获取IP地址,Host name之类的信息.URL和URLConnect可以用来访问web ...
UNIX网络编程——网络IPC：套接字
UNIX网络编程——网络IPC:套接字 Contents 套接字接口套接字描述符寻址字节序地址格式地址查询绑定地址建立连接数据传输套接字选项带外数据 UNIX域套接字使用套接字的 ...
Socket网络编程--网络爬虫(1)
我们这个系列准备讲一下--网络爬虫.网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,采集信息,这些网页信息用于建立索引从而为搜索引擎提供支持,它决定着整个引擎系统的内容是否丰富, ...
网络编程—网络基础概览、socket，TCP/UDP协议
网络基础概览 socket概览 socket模块—TCP/UDP的实现 TCP/UDP总结网络基础概览 osi七层协议各层主要的协议 # 物理层传输电信号1010101010 # 数据链路层,以太网 ...
linux网络编程--网络编程的基本函数介绍与使用【转】
本文转载自:http://blog.csdn.net/yusiguyuan/article/details/17538499 我们深谙信息交流的价值,那网络中进程之间如何通信,如我们每天打开浏览器浏览 ...
python网络编程——网络IO模型
1 网络IO模型介绍服务器端编程经常需要构造高性能的IO模型,常见的IO模型有四种: (1)同步阻塞IO(Blocking IO):即传统的IO模型. (2)同步非阻塞IO(Non-bl ...
JAVA基础知识之网络编程——-网络通信模型（IO模型）
<Unix网络编程:卷1>中介绍了5中I/O模型,JAVA作为运行在宿主机上的程序,底层也遵循这5中I/O模型规则.这5中I/O模型分别是: 阻塞式IO 非阻塞式IO I/O复用信号驱动 ...
UNIX网络编程——网络I/O模型
在学习UNIX网络编程的时候.一開始分不清同步和异步,所以还是总结一下,理清下他们的差别比較好. IO分类 IO依据对IO的调度方式可分为堵塞IO.非堵塞IO.IO复用.信号驱动IO.异步IO. ...

随机推荐

Evolution ZOJ2853
矩阵太大导致爆栈解决方法:矩阵不要开在main函数里面全部在外面处理 main函数只能处理简单的赋值和加减损失的要自减!! 最后为 sum+=t[i]*ans.m[i][n-1]; 得 ...
094实战关于js SDK的程序，java SDK的程序
一:JS SDK 1.修改配置workspace 2.导入 3.Demo.html <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Trans ...
U盘装机教程
http://winpe.uqidong.asia/upzxpxt/upzxpxt.html
分布式系统缓存系列之guava cache
guava是google的一个开源java框架,其github地址是 https://github.com/google/guava.guava工程包含了若干被Google的 Java项目广泛依赖 ...
HDU 1051 Wooden Sticks 造木棍【贪心】
题目链接>>> 转载于:https://www.cnblogs.com/Action-/archive/2012/07/03/2574800.html 题目大意: 给n根木棍的长度 ...
BZOJ.4894.天赋(Matrix Tree定理辗转相除)
题目链接有向图生成树个数.矩阵树定理,复习下. 和无向图不同的是,度数矩阵改为入度矩阵/出度矩阵,分别对应外向树/内向树. 删掉第i行第i列表示以i为根节点的生成树个数,所以必须删掉第1行第1列. ...
洛谷.1782.旅行商的背包(背包DP 单调队列)
题目链接(卡常背包) 朴素的多重背包是: \(f[i][j] = \max\{ f[i-1][j-k*v[i]]+k*w[i] \}\),复杂度 \(O(nV*\sum num_i)\) 可以发现求\ ...
#1075 : 开锁魔法III
描述一日,崔克茜来到小马镇表演魔法. 其中有一个节目是开锁咒:舞台上有 n 个盒子,每个盒子中有一把钥匙,对于每个盒子而言有且仅有一把钥匙能打开它.初始时,崔克茜将会随机地选择 k 个盒子用魔法将它 ...
LVS 之ARP
原理工作过程主机A的IP地址为:192.168.1.1 MAC地址为:0A-11-22-33-44-01: 主机B的IP地址为:192.168.1.2 MAC地址为:0A-11-22-33-4 ...
Oracle 11g透明网关连接Sqlserver 2000(转)
Oracle 11g透明网关连接Sqlserver 2000: http://www.cnblogs.com/lightnear/archive/2013/02/03/2890858.html 透明网 ...

Socket网络编程--网络爬虫(2)

Socket网络编程--网络爬虫(2)的更多相关文章

随机推荐

热门专题