C++ 网络爬虫实现

最近有个概念吵得很火，网络爬虫，但是基本都是用什么python或者JAVA写，貌似很少看到用c++写的，我在网上找了一个，看到其实还是很简单的算法

算法讲解：1.遍历资源网站

　　　　　2.获取html信息

　　　　 3.然后解析网址和图片url下载。

　　　　 4.递归调用搜索网址

BFS是最重要的处理：

先是获取网页响应，保存到文本里面，然后找到其中的图片链接HTMLParse，

下载所有图片DownLoadImg。

//广度遍历

void BFS( const string & url ){

	char * response;

	int bytes;

	// 获取网页的相应，放入response中。

	if( !GetHttpResponse( url, response, bytes ) ){

		cout << "The url is wrong! ignore." << endl;

		return;

	}

	string httpResponse=response;

	free( response );

	string filename = ToFileName( url );

	ofstream ofile( "./html/"+filename );

	if( ofile.is_open() ){

		// 保存该网页的文本内容

		ofile << httpResponse << endl;

		ofile.close();

	}

	vector<string> imgurls;

	//解析该网页的所有图片链接，放入imgurls里面

	HTMLParse( httpResponse,  imgurls, url );  

	//下载所有的图片资源

	DownLoadImg( imgurls, url );

}

然后附上代码：

#include "stdafx.h"

//#include <Windows.h>

#include <string>

#include <iostream>

#include <fstream>

#include <vector>

#include "winsock2.h"

#include <time.h>

#include <queue>

#include <hash_set>  

#pragma comment(lib, "ws2_32.lib")

using namespace std;  

#define DEFAULT_PAGE_BUF_SIZE 1048576  

queue<string> hrefUrl;

hash_set<string> visitedUrl;

hash_set<string> visitedImg;

int depth=0;

int g_ImgCnt=1;  

//解析URL，解析出主机名，资源名

bool ParseURL( const string & url, string & host, string & resource){

	if ( strlen(url.c_str()) > 2000 ) {

		return false;

	}  

	const char * pos = strstr( url.c_str(), "http://" );

	if( pos==NULL ) pos = url.c_str();

	else pos += strlen("http://");

	if( strstr( pos, "/")==0 )

		return false;

	char pHost[100];

	char pResource[2000];

	sscanf( pos, "%[^/]%s", pHost, pResource );

	host = pHost;

	resource = pResource;

	return true;

}  

//使用Get请求，得到响应

bool GetHttpResponse( const string & url, char * &response, int &bytesRead ){

	string host, resource;

	if(!ParseURL( url, host, resource )){

		cout << "Can not parse the url"<<endl;

		return false;

	}  

	//建立socket

	struct hostent * hp= gethostbyname( host.c_str() );

	if( hp==NULL ){

		cout<< "Can not find host address"<<endl;

		return false;

	}  

	SOCKET sock = socket( AF_INET, SOCK_STREAM, IPPROTO_TCP);

	if( sock == -1 || sock == -2 ){

		cout << "Can not create sock."<<endl;

		return false;

	}  

	//建立服务器地址

	SOCKADDR_IN sa;

	sa.sin_family = AF_INET;

	sa.sin_port = htons( 80 );

	//char addr[5];

	//memcpy( addr, hp->h_addr, 4 );

	//sa.sin_addr.s_addr = inet_addr(hp->h_addr);

	memcpy( &sa.sin_addr, hp->h_addr, 4 );  

	//建立连接

	if( 0!= connect( sock, (SOCKADDR*)&sa, sizeof(sa) ) ){

		cout << "Can not connect: "<< url <<endl;

		closesocket(sock);

		return false;

	};  

	//准备发送数据

	string request = "GET " + resource + " HTTP/1.1\r\nHost:" + host + "\r\nConnection:Close\r\n\r\n";  

	//发送数据

	if( SOCKET_ERROR ==send( sock, request.c_str(), request.size(), 0 ) ){

		cout << "send error" <<endl;

		closesocket( sock );

		return false;

	}  

	//接收数据

	int m_nContentLength = DEFAULT_PAGE_BUF_SIZE;

	char *pageBuf = (char *)malloc(m_nContentLength);

	memset(pageBuf, 0, m_nContentLength);  

	bytesRead = 0;

	int ret = 1;

	cout <<"Read: ";

	while(ret > 0){

		ret = recv(sock, pageBuf + bytesRead, m_nContentLength - bytesRead, 0);  

		if(ret > 0)

		{

			bytesRead += ret;

		}  

		if( m_nContentLength - bytesRead<100){

			cout << "\nRealloc memorry"<<endl;

			m_nContentLength *=2;

			pageBuf = (char*)realloc( pageBuf, m_nContentLength);       //重新分配内存

		}

		cout << ret <<" ";

	}

	cout <<endl;  

	pageBuf[bytesRead] = '\0';

	response = pageBuf;

	closesocket( sock );

	return true;

	//cout<< response <<endl;

}  

//提取所有的URL以及图片URL

void HTMLParse ( string & htmlResponse, vector<string> & imgurls, const string & host ){

	//找所有连接，加入queue中

	const char *p= htmlResponse.c_str();

	char *tag="href=\"";

	const char *pos = strstr( p, tag );

	ofstream ofile("url.txt", ios::app);

	while( pos ){

		pos +=strlen(tag);

		const char * nextQ = strstr( pos, "\"" );

		if( nextQ ){

			char * url = new char[ nextQ-pos+1 ];

			//char url[100]; //固定大小的会发生缓冲区溢出的危险

			sscanf( pos, "%[^\"]", url);

			string surl = url;  // 转换成string类型，可以自动释放内存

			if( visitedUrl.find( surl ) == visitedUrl.end() ){

				visitedUrl.insert( surl );

				ofile << surl<<endl;

				hrefUrl.push( surl );

			}

			pos = strstr(pos, tag );

			delete [] url;  // 释放掉申请的内存

		}

	}

	ofile << endl << endl;

	ofile.close();  

	tag ="<img ";

	const char* att1= "src=\"";

	const char* att2="lazy-src=\"";

	const char *pos0 = strstr( p, tag );

	while( pos0 ){

		pos0 += strlen( tag );

		const char* pos2 = strstr( pos0, att2 );

		if( !pos2 || pos2 > strstr( pos0, ">") ) {

			pos = strstr( pos0, att1);

			if(!pos) {

				pos0 = strstr(att1, tag );

				continue;

			} else {

				pos = pos + strlen(att1);

			}

		}

		else {

			pos = pos2 + strlen(att2);

		}  

		const char * nextQ = strstr( pos, "\"");

		if( nextQ ){

			char * url = new char[nextQ-pos+1];

			sscanf( pos, "%[^\"]", url);

			cout << url<<endl;

			string imgUrl = url;

			if( visitedImg.find( imgUrl ) == visitedImg.end() ){

				visitedImg.insert( imgUrl );

				imgurls.push_back( imgUrl );

			}

			pos0 = strstr(pos0, tag );

			delete [] url;

		}

	}

	cout << "end of Parse this html"<<endl;

}  

//把URL转化为文件名

string ToFileName( const string &url ){

	string fileName;

	fileName.resize( url.size());

	int k=0;

	for( int i=0; i<(int)url.size(); i++){

		char ch = url[i];

		if( ch!='\\'&&ch!='/'&&ch!=':'&&ch!='*'&&ch!='?'&&ch!='"'&&ch!='<'&&ch!='>'&&ch!='|')

			fileName[k++]=ch;

	}

	return fileName.substr(0,k) + ".txt";

}  

//下载图片到img文件夹

void DownLoadImg( vector<string> & imgurls, const string &url ){  

	//生成保存该url下图片的文件夹

	string foldname = ToFileName( url );

	foldname = "./img/"+foldname;

	if(!CreateDirectory( foldname.c_str(),NULL ))

		cout << "Can not create directory:"<< foldname<<endl;

	char *image;

	int byteRead;

	for( int i=0; i<imgurls.size(); i++){

		//判断是否为图片，bmp，jgp，jpeg，gif

		string str = imgurls[i];

		int pos = str.find_last_of(".");

		if( pos == string::npos )

			continue;

		else{

			string ext = str.substr( pos+1, str.size()-pos-1 );

			if( ext!="bmp"&& ext!="jpg" && ext!="jpeg"&& ext!="gif"&&ext!="png")

				continue;

		}

		//下载其中的内容

		if( GetHttpResponse(imgurls[i], image, byteRead)){

			if ( strlen(image) ==0 ) {

				continue;

			}

			const char *p=image;

			const char * pos = strstr(p,"\r\n\r\n")+strlen("\r\n\r\n");

			int index = imgurls[i].find_last_of("/");

			if( index!=string::npos ){

				string imgname = imgurls[i].substr( index , imgurls[i].size() );

				ofstream ofile( foldname+imgname, ios::binary );

				if( !ofile.is_open() )

					continue;

				cout <<g_ImgCnt++<< foldname+imgname<<endl;

				ofile.write( pos, byteRead- (pos-p) );

				ofile.close();

			}

			free(image);

		}

	}

}  

//广度遍历

void BFS( const string & url ){

	char * response;

	int bytes;

	// 获取网页的相应，放入response中。

	if( !GetHttpResponse( url, response, bytes ) ){

		cout << "The url is wrong! ignore." << endl;

		return;

	}

	string httpResponse=response;

	free( response );

	string filename = ToFileName( url );

	ofstream ofile( "./html/"+filename );

	if( ofile.is_open() ){

		// 保存该网页的文本内容

		ofile << httpResponse << endl;

		ofile.close();

	}

	vector<string> imgurls;

	//解析该网页的所有图片链接，放入imgurls里面

	HTMLParse( httpResponse,  imgurls, url );  

	//下载所有的图片资源

	DownLoadImg( imgurls, url );

}  

void main()

{

	//初始化socket，用于tcp网络连接

	WSADATA wsaData;

	if( WSAStartup(MAKEWORD(2,2), &wsaData) != 0 ){

		return;

	}  

	// 创建文件夹，保存图片和网页文本文件

	CreateDirectory( "./img",0);

	CreateDirectory("./html",0);

	//string urlStart = "http://hao.360.cn/meinvdaohang.html";  

	// 遍历的起始地址

	 string urlStart = "http://desk.zol.com.cn/bizhi/7018_87137_2.html";

	//string urlStart = "http://item.taobao.com/item.htm?spm=a230r.1.14.19.sBBNbz&id=36366887850&ns=1#detail";  

	// 使用广度遍历

	// 提取网页中的超链接放入hrefUrl中，提取图片链接，下载图片。

	BFS( urlStart );  

	// 访问过的网址保存起来

	visitedUrl.insert( urlStart );  

	while( hrefUrl.size()!=0 ){

		string url = hrefUrl.front();  // 从队列的最开始取出一个网址

		cout << url << endl;

		BFS( url );                   // 遍历提取出来的那个网页，找它里面的超链接网页放入hrefUrl，下载它里面的文本，图片

		hrefUrl.pop();                 // 遍历完之后，删除这个网址

	}

	WSACleanup();

	return;

}

C++ 网络爬虫实现的更多相关文章

Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务
上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格
通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码.(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup
开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful ...
Atitit.数据检索与网络爬虫与数据采集的原理概论
Atitit.数据检索与网络爬虫与数据采集的原理概论 1. 信息检索1 1.1. <信息检索导论>((美)曼宁...)[简介_书评_在线阅读] - dangdang.html1 1.2. ...
Java 网络爬虫获取页面源代码
原博文:http://www.cnblogs.com/xudong-bupt/archive/2013/03/20/2971893.html 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网 ...
[Search Engine] 搜索引擎技术之网络爬虫
随着互联网的大力发展,互联网称为信息的主要载体,而如何在互联网中搜集信息是互联网领域面临的一大挑战.网络爬虫技术是什么?其实网络爬虫技术就是指的网络数据的抓取,因为在网络中抓取数据是具有关联性的抓取, ...
[Python] 网络爬虫和正则表达式学习总结
以前在学校做科研都是直接利用网上共享的一些数据,就像我们经常说的dataset.beachmark等等.但是,对于实际的工业需求来说,爬取网络的数据是必须的并且是首要的.最近在国内一家互联网公司实习, ...
【Python网络爬虫一】爬虫原理和URL基本构成
1.爬虫定义网络爬虫,即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的.从网站某一个页面(通常 ...

随机推荐

Visual Studio 2017 离线安装方式
Visual Studio, 特别是Visual Studio 2017 通常是一个在线安装程序,如果你在安装过程中失去连接,你可以遇到问题.但是,由于法律原因,微软没有提供完整的可下载的ISO镜像. ...
SpringMvc拦截器小测试
前言俗话说做项目是让人成长最快的方案,最近小编写项目的时候遇到了一个小问题.小编在项目中所负责的后台系统,但是后台系统是通过系统的页面是通过ifame联动的,那么这时候问题就来了,后台所做的所有操作 ...
SQLite基础回顾
SQLite基础回顾 SQLite iOS中的数据存储方式 Plist(NSArray\NSDictionary) Preference(偏好设置\NSUserDefaults) NSCoding(N ...
vue路由组件群
import Vue from 'vue'import VueRouter from 'vue-router'Vue.use(VueRouter) const first = { template: ...
shell-3
每天学习一篇:利用跑代码或者空闲思考时间,启动环境时间等闲杂时间: http://blog.csdn.net/junjieguo/article/category/880326/2
基于Hadoop的改进Apriori算法
一.Apriori算法性质性质一: 候选的k元组集合Ck中,任意k-1个项组成的集合都来自于Lk. 性质二: 若k维数据项目集X={i1,i2,-,ik}中至少存在一个j∈X,使得|L(k-1)(j ...
关于c# 基础运算符的应用
运算符分为5种 1 算数预算符 +,-,*,/,分别为加减乘除 ++为加1,--为减1, 前++ 后++ 的区别 int a = 10, b = a++; Console ...
jquery小测
1.在div元素中,包含了一个<span>元素,通过has选择器获取<div>元素中的<span>元素的语法是? 提示使用has() $("div:has ...
原生js中slice()方法和splice()区别
slice()方法和splice()方法都是原生js中对数组操作的方法. slice(),返回一个新的数组,该方法可从已有的数组中返回选定的元素.例如:arrObject(start,end),sta ...
【Zookeeper】源码分析之Leader选举（二）
一.前言前面学习了Leader选举的总体框架,接着来学习Zookeeper中默认的选举策略,FastLeaderElection. 二.FastLeaderElection源码分析 2.1 类的继承 ...

C++ 网络爬虫实现

C++ 网络爬虫实现的更多相关文章

随机推荐

热门专题