C++ 提取网页内容系列之二

标题: C++ 提取网页内容系列
作者: itdef
链接: http://www.cnblogs.com/itdef/p/4171203.html

欢迎转帖请保持文本完整并注明出处

另外一种下载网页的内容就是使用windows sdk中的有关HTTP通讯的函数

这里使用了 www.codeproject.com 网站一位中国人封装的C++类

下载地址为http://www.codeproject.com/Articles/66625/A-Fully-Featured-Windows-HTTP-Wrapper-in-C

加入其中几个头文件

就可以在工程中简单的几行代码下载网页内容

WinHttpClient client(L"http://www.verycd.com");
client.SendHttpRequest();
wstring httpResponseHeader = client.GetResponseHeader();
wstring httpResponseContent = client.GetResponseContent();

但是这个类返回的是宽字符串，在中文显示上有点问题。

使用时要根据自己的需求决定是否转换成多字节字符串.

string ws2s(const wstring &ws)

{

	const wchar_t* wpchar = ws.c_str();

	size_t returnVal = 0;

	size_t wSize = 2*ws.size() + 1;

	char* pchar = new char[wSize];

	memset(pchar,0,wSize);

	wcstombs(pchar, wpchar, wSize);

	string result = pchar;

	delete[] pchar;

	return result;

}

整个代码如下:
WinHttpClient.h是codeproject网站下载的类的头文件

#include "WinHttpClient.h"

#include <fstream>

#include <string>

#include <Windows.h>

using namespace std;

string ws2s(const wstring &ws)

{

	const wchar_t* wpchar = ws.c_str();

	size_t returnVal = 0;

	size_t wSize = 2*ws.size() + 1;

	char* pchar = new char[wSize];

	memset(pchar,0,wSize);

	wcstombs(pchar, wpchar, wSize);

	string result = pchar;

	delete[] pchar;

	return result;

}

int _tmain(int argc, _TCHAR* argv[])

{

	setlocale(LC_ALL,"");

	WinHttpClient client(L"http://www.verycd.com");

	bool b = client.SendHttpRequest();

	if(!b)

	{

		cout << "error" << endl;

		exit(1);

	}

	wstring httpResponseHeader = client.GetResponseHeader();

	wstring httpResponseContent = client.GetResponseContent();

	wcout <<  httpResponseHeader  << endl;

 	if(httpResponseContent.empty() == false )

 	{

		string strTmp = ws2s(httpResponseContent);

 		std::ofstream  ofsLogFile("test.dat", std::ios_base::trunc);

 		ofsLogFile << strTmp << endl;

 	}

	return 0;

}

C++ 提取网页内容系列之二的更多相关文章

C++ 提取网页内容系列之四正则
标题: C++ 提取网页内容系列之四作者: itdef链接: http://www.cnblogs.com/itdef/p/4173833.html 欢迎转帖请保持文本完整并注明出处将网页内 ...
C++ 提取网页内容系列之三
标题: C++ 提取网页内容系列作者: itdef链接: http://www.cnblogs.com/itdef/p/4171659.html 欢迎转帖请保持文本完整并注明出处这次继续下载 ...
C++ 提取网页内容系列之一
标题: C++ 提取网页内容系列作者: itdef链接: http://www.cnblogs.com/itdef/p/4171179.html 欢迎转帖请保持文本完整并注明出处首先分析网页 ...
C++ 提取网页内容系列之五整合爬取豆瓣读书
工作太忙没有时间细化了就说说主要内容吧下载和分析漫画是分开的下载豆瓣漫画页面是使用之前的文章的代码见http://www.cnblogs.com/itdef/p/4171179.html ...
NLP+词法系列（二）︱中文分词技术简述、深度学习分词实践（CIPS2016、超多案例）
摘录自:CIPS2016 中文信息处理报告<第一章词法和句法分析研究进展.现状及趋势>P4 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bce ...
【疯狂造轮子-iOS】JSON转Model系列之二
[疯狂造轮子-iOS]JSON转Model系列之二本文转载请注明出处 —— polobymulberry-博客园 1. 前言上一篇<[疯狂造轮子-iOS]JSON转Model系列之一> ...
【原】Android热更新开源项目Tinker源码解析系列之二:资源文件热更新
上一篇文章介绍了Dex文件的热更新流程,本文将会分析Tinker中对资源文件的热更新流程. 同Dex,资源文件的热更新同样包括三个部分:资源补丁生成,资源补丁合成及资源补丁加载. 本系列将从以下三个方 ...
MySQL 系列（二）你不知道的数据库操作
第一篇:MySQL 系列(一) 生产标准线上环境安装配置案例及棘手问题解决第二篇:MySQL 系列(二) 你不知道的数据库操作本章内容: 查看\创建\使用\删除数据库用户管理及授权实战局域网 ...
ES6+ 现在就用系列（二)：let 命令
系列目录 ES6+ 现在就用系列(一):为什么使用ES6+ ES6+ 现在就用系列(二):let 命令 ES6+ 现在就用系列(三):const 命令 ES6+ 现在就用系列(四):箭头函数 => ...

随机推荐

pytorch下的lib库源码阅读笔记（2）
2017年11月22日00:25:54 对lib下面的TH的大致结构基本上理解了,我阅读pytorch底层代码的目的是为了知道 python层面那个_C模块是个什么东西,底层完全黑箱的话对于理解pyt ...
Ext.NET Grid Group分组使用
- 需要注意的是, 涉及到分页排序, 最好定义GroupDir 方向与分组方式相同. - 譬如工资表按照最新最前分页输出. 如果分组按照默认排序的话, 最就最前. - 界面呈现出2015年, 2016 ...
gogs 源码阅读笔记 001
gogs 源码阅读笔记 001 gogs项目相当不错,本笔记实际是基于gogs fork版本 git-122a66f. gitea (gitea版本由来)[https://blog.gitea.io/ ...
profile default1
DEVPISAP01:/sapmnt/ISD/profile # more ISD_J20_SHADEVEAIAP01 SAPSYSTEMNAME = ISD SAPSYSTEM = 20 INSTA ...
IDEA VM设置
1.IDEA vm options -server -Xms800m -Xmx800m -XX:PermSize=64M -XX:MaxNewSize=256m -XX:MaxPermSize=128 ...
CSS vertical-align属性详解
. 首页博客园联系我前言:关于vertical-align属性. 实践出真知. 垂直居中. 第二种用法. 留言评论返回顶部前言:关于vertical-align属性 vertical-ali ...
1011 A+B 和 C （15 分）
pragma warning(disable:4996) a-c+b>0? 考虑可能越界在循环体内判断,然后有序号输出输入输出格式看多个题然后总结下不会处理单行数据 include < ...
gitlab 502
经过一个下午的查找终于发现了错误,原来是在服务器上还开启了一个tomcat服务,占用了8080端口,使GitLab的unicorn服务不能开启. 最后在/etc/gitlab/gitlab.rb 中做 ...
hello2
String username = request.getParameter("username");//获取参数值 if (username != null && ...
vue 关键词模糊查询
页面html,绑定的列表数据为datas,关键词为 select_words,如下图其中d.accounts和d.roleName是需要进行搜索的字段,也可以进行大小写都可以

C++ 提取网页内容系列之二

C++ 提取网页内容系列之二的更多相关文章

随机推荐

热门专题