Windows下比较简单的获取网页源码的方法

第一个方法是使用MFC里面的 <afxinet.h>

 CString GetHttpFileData(CString strUrl)

{

     CInternetSession Session("Internet Explorer", );

     CHttpFile *pHttpFile = NULL;

     CString strData;

     CString strClip;

     pHttpFile = (CHttpFile*)Session.OpenURL(strUrl);

    while ( pHttpFile->ReadString(strClip) )

     {

      strData += strClip;

      }

     return strData;

}

要讲一下，pHttpFile->ReadString() 每次可能只读一个数据片断，读多少次取决于网络状况，所以要把每次读到的数据加到总数据的尾部，用了CString 省去了缓冲区处理:)
别忘了包含头文件#include <afxinet.h> 在工程设置，里面要选择 using MFC 要不然编译不了

第二种是使用WinNet的纯API实现的

#define MAXBLOCKSIZE 1024

#include <windows.h>

#include <wininet.h>

#pragma comment(lib, "wininet.lib")

void GetWebSrcCode(const char *Url);

int _tmain(int argc, _TCHAR* argv[])

{

    GetWebSrcCode("http://www.cnblogs.com/");

    return ;

}

void GetWebSrcCode(const char *Url)

{

    HINTERNET hSession = InternetOpen("zwt", INTERNET_OPEN_TYPE_PRECONFIG, NULL, NULL, );

    if (hSession != NULL)

    {

        HINTERNET hURL = InternetOpenUrl(hSession, Url, NULL, , INTERNET_FLAG_DONT_CACHE, );

        if (hURL != NULL)

        {

            char Temp[MAXBLOCKSIZE] = {};

            ULONG Number = ;

            FILE *stream;

            if( (stream = fopen( "E:\\test.html", "wb" )) != NULL )

            {

                while (Number > )

                {

                    InternetReadFile(hURL, Temp, MAXBLOCKSIZE - , &Number);

                    fwrite(Temp, sizeof (char), Number , stream);

                }

                fclose( stream );

            }

            InternetCloseHandle(hURL);

            hURL = NULL;

        }

        InternetCloseHandle(hSession);

        hSession = NULL;

    }

}

第三种就是使用非封装过的Socket实现了

int main(int argc, char* argv[])

{

    SOCKET hsocket;

    SOCKADDR_IN saServer;

    WSADATA wsadata;

    LPHOSTENT lphostent;

    int nRet;

    char Dest[];

    char* host_name="blog.sina.com.cn";

    char* req="GET /s/blog_44acab2f01016gz3.html HTTP/1.1\r\n"

        "User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET4.0C; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)\r\n"

        "Host:blog.sina.com.cn\r\n\r\n";

    // 初始化套接字

    if(WSAStartup(MAKEWORD(,),&wsadata))

        printf("初始化SOCKET出错！");

    lphostent=gethostbyname(host_name);

    if(lphostent==NULL)

        printf("lphostent为空！");

    hsocket = socket(AF_INET,SOCK_STREAM,IPPROTO_TCP);

    saServer.sin_family = AF_INET;

    saServer.sin_port = htons();

    saServer.sin_addr =*((LPIN_ADDR)*lphostent->h_addr_list);

    // 利用SOCKET连接

    nRet = connect(hsocket,(LPSOCKADDR)&saServer,sizeof(SOCKADDR_IN));

    if(nRet == SOCKET_ERROR)

    {

        printf("建立连接时出错！");

        closesocket(hsocket);

        return ;

    }

    // 利用SOCKET发送   

    nRet = send(hsocket,req,strlen(req),);

    if(nRet==SOCKET_ERROR)

    {

        printf("发送数据包时出错！");

        closesocket(hsocket);

    }

    nRet=;

    while(nRet>)

    {

        // 接收返回数据包

        nRet=recv(hsocket,(LPSTR)Dest,sizeof(Dest),);

        if(nRet>)

            Dest[nRet]=;

        else

            Dest[]=;

        char sDest[] = {};

        UTF8_2_GB2312(sDest,nRet,Dest,nRet);

        // 显示返回数据包的大小、内容

        //printf("\nReceived bytes:%d\n",nRet);

        printf("Result:\n%s",sDest);

    }

}

另外，以上我们获取网页的时候，获取到的可能是UTF8，似乎目前大多数网站都用的这种编码吧！下面是编码转换。

void UTF_8ToUnicode(wchar_t* pOut,char *pText)

{

    char* uchar = (char *)pOut;

    uchar[] = ((pText[] & 0x0F) << ) + ((pText[] >> ) & 0x0F);

    uchar[] = ((pText[] & 0x03) << ) + (pText[] & 0x3F);

}

void Gb2312ToUnicode(wchar_t* pOut,char *gbBuffer)

{

    ::MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,,pOut,);

}

void UTF_8ToGB2312(char*pOut, char *pText, int pLen)

{

    char Ctemp[];

    memset(Ctemp,,);

    int i = ,j = ;

    while(i < pLen)

    {

        if(pText[i] >= )

        {

            pOut[j++] = pText[i++];

        }

        else

        {

            WCHAR Wtemp;

            UTF_8ToUnicode(&Wtemp,pText + i);

            UnicodeToGB2312(Ctemp,Wtemp);

            pOut[j] = Ctemp[];

            pOut[j + ] = Ctemp[];

            i += ;

            j += ;

        }

    }

    pOut[j] ='\n';

    return;

}

这是是转换成GB2312的代码

Windows下比较简单的获取网页源码的方法的更多相关文章

vc++获取网页源码之使用import+接口方式
1.使用IWinHttpRequest获取网页源码首先要创建基于对话框的mfc应用程序 2.import+接口方式首先导入winhttp.dll,使用IWinHttpRequest接口 #impo ...
QT：轻松获取网页源码
获取网页源码的小例子,代码很简单,就不多作解释了. 不过一定要注意网页的编码问题,否则会出现乱码的!!! #include <QtCore> #include <QtNetwork& ...
Python爬虫学习之获取网页源码
偶然的机会,在知乎上看到一个有关爬虫的话题<利用爬虫技术能做到哪些很酷很有趣很有用的事情?>,因为强烈的好奇心和觉得会写爬虫是一件高大上的事情,所以就对爬虫产生了兴趣. 关于网络爬虫的定义 ...
vc++获取网页源码
1. 获取网页源码的步骤: com组件的初始化创建WinHttpRequest对象创建并实例化WinHttpRequest组件调用Open方法打开连接调用Send方法发送请求使用Respon ...
高效获取网页源码COM
目前获取网页源码有几种方法: 1.WebClient下载页面2.HttpWebRequest发请求获取3.com组件xmlhttp获取三者比较:WebClient代码最少,效率最慢:xmlhttp代 ...
Python3.x获取网页源码
Python3.x获取网页源码 1,获取网页的头部信息以确定网页的编码方式: import urllib.request res = urllib.request.urlopen('http://ww ...
C语言之socket获取网页源码
写爬虫也许你用的是python,类似urlopen(url).read()即可获得普通的网页的源码,或者用的java的网络库加上流操作,或者其他高级语言.但你有没有想过使用C语言来实现呢?我曾经以为用 ...
Python3 Selenium WebDriver网页的前进、后退、刷新、最大化、获取窗口位置、设置窗口大小、获取页面title、获取网页源码、获取Url等基本操作
Python3 Selenium WebDriver网页的前进.后退.刷新.最大化.获取窗口位置.设置窗口大小.获取页面title.获取网页源码.获取Url等基本操作通过selenium webdr ...
c# HttpClient获取网页源码
#region 获取网页源码 public static string HttpClientGetHtmls(string url) { try { var client = new HttpClie ...

随机推荐

Texlive 更新命令
设置repository tlmgr repository set http://mirror.hust.edu.cn/CTAN/systems/texlive/tlnet 上面的例子使用的是华中科技 ...
norflash启动和nandflash启动
S3C2440的启动时读取的第一条指令是在0x00上,分为成nand flash和nor flash上启动. 1)nand flash:适合大容量数据存储,类似硬盘: 2)nor flash:适合小容 ...
[Python监控]psutil模块简单使用
安装很简单 pip install psutil 官网地址为 https://pythonhosted.org/psutil/ (文档上有详细的api) github地址为 https://githu ...
01_数据库连接池，数据源，ResultSetMetaData，jdbc优化
一.数据库连接池 1. 什么是连接池传统的开发模式下,Servlet处理用户的请求,找Dao查询数据,dao会创建与数据库之间的连接,完成数据查询后会关闭数据库的链接. 这样的方式会导致用户每 ...
GDAL不支持创建PCIDSK的面状矢量格式
最近在使用GDAL创建PCIDSK格式的矢量数据,发现创建点和线的矢量数据都没问题,创建面状的只有属性表没有图形.在GDAL官网说明也写的是支持的,地址为:http://www.gdal.org/fr ...
Android 9Patch图片的使用-android学习之旅（十八）
9patch的使用方法 9patch图片常被用来做消息发送等的图片,只是缩放照片的部分区域,使得图片的整体形状不会受到影响,比较方便. 下面我们介绍一下: 在android的SDK安装目录下的tool ...
【Netty源码学习】EventLoopGroup
在上一篇博客[Netty源码解析]入门示例中我们介绍了一个Netty入门的示例代码,接下来的博客我们会分析一下整个demo工程运行过程的运行机制. 无论在Netty应用的客户端还是服务端都首先会初始化 ...
MyEclipse10+Jdk1.7+OSGI+MySql实现数据库的增删改查
开发环境: Windows2008R2 64位+MyEclipse10+jdk1.7.0_67+MySql5.5 软件安装:myeclipse-10.0-offline-installer-windo ...
StarUML中InteractionOperation的画法
StarUML画InteractionOperation的方法:http://stackoverflow.com/questions/16152278/using-alt-in-sequence-di ...
python的operator.itemgetter('click')用于定义获取'click'项的函数
python的排序参见文章http://blog.csdn.net/longshenlmj/article/details/12747195 这里介绍 import operator模块 operat ...

Windows下比较简单的获取网页源码的方法

Windows下比较简单的获取网页源码的方法的更多相关文章

随机推荐

热门专题