C语言获取网页源代码的学习所得

研究了一天这个玩意感觉挺有意思的。

刚开始是什么都不懂，现在写出来一段代码感觉略微有点意思了。

下面我分享一下学习过程和自己的理解。

整体过程大概就是如下情况：

先搜了一下别人的写这个东西的代码。

研究了一下代码中一些难理解的东西。慢慢就写出来了。

简单分析：

创建一个socket套接字连接主机

发送GET报文头字符串

接收

存放

准备工作：

connect()和服务器建立连接

send() recv() 都是在利用套接字

用户提供一个网址，我们分析网址。

网址中包含的信息有些是要填入sockaddr地址信息中，有些是要填入GET报头文

我们能得知信息有主机名资源路径端口

例如一个 www.baidu.com/1.html 主机名www.baidu.com 资源路径 /1.html 端口没有就默认 80

建立连接 connect（）函数搞定

　　参数中需要socket 和 sockaddr 前者就是套接字，后者是一个套接字地址结构

　　　　可以从sockaddr_in 强制转化过来这个是另一种套接字地址结构体

　　　　需要提供端口和 ip地址

　　　　端口我们分析网址就能得到

　　　　ip地址是用gethostbyname()这个函数搞定

　　　　　　　函数名就挺形象的通过主机名字获得host信息

　　　　　　　意思就是从 www.baidu.com 主机名获得host信息

　　　　　　　然后我们从信息里面把ip地址提取出来

GET报文头需要主机名资源路径这两样网址中都提供了

发送 send()这个函数搞定

接收 recv()这个函数搞定

细分逻辑：

　　主要是学习这些函数以及结构的过程，和一些简单的逻辑组织。

　　分析网址这个都在string.h

　　从host结构中获得ip地址填入套接字地址结构这个查阅一下gethostbyname()和sockaddr以及sockaddr_in

　　连接connect()

　　存放GET报文头，把报文头用字符串函数组建起来，放在数组或者其他。。

　　发送send()

　　　　如果你发送的GET报文头得到了回应，目标就会传送你要的信息回来

　　接收recv()

　　　　信息可能很多，可能不能一次性接收完，分多次。用memcpy()和malloc()以及realloc()

　　　　　　memcpy() copy字节数到目标 malloc()声明一定大小的内存区域 realloc()改变内存区域大小

　　　　什么时候接收完如果套接字中有接收的内容就一直接收。没有就等待，直到超时，然后返回0.

　　　　　　这个超时时间限定是可以设置的。setsockopt()这个函数。可以设置接收和发送

　　　　　　int nNetTimeout = 5000;

　　　　　　setsockopt(sock, SOL_SOCKET, SO_RCVTIMEO, (char *)&nNetTimeout, sizeof(int));

遗留问题的思考：对于接收到数据处理。编码问题。我觉得套接字中传输的是数据，不是字符串。

　　　　　　　　正文这个我觉得倒是好理解，有人用utf8写了一个html网页文件保存在服务器，我们所获取的正文应该是这个用utf8编码写的数据　（我猜的）　　

　　　　　　　　但是接收到的报文头是什么编码呢，我们用什么简单的方法把它们分离，没有去研究。。有机会再看看

C语言获取网页源代码的学习所得的更多相关文章

Java 网络爬虫获取网页源代码原理及实现
Java 网络爬虫获取网页源代码原理及实现 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL ...
php查看网页源代码的方法
这篇文章主要介绍了php查看网页源代码的方法,涉及php读取网页文件的技巧,具有一定参考借鉴价值,需要的朋友可以参考下本文实例讲述了php查看网页源代码的方法.分享给大家供大家参考.具体实现 ...
c#利用WebClient和WebRequest获取网页源代码的比较
前几天举例分析了用asp+xmlhttp获取网页源代码的方法,但c#中一般是可以利用WebClient类和WebRequest类获取网页源代码.下面分别说明这两种方法的实现. WebClient类获取 ...
delphi 获取网页源代码
//获取网页源代码 var s: string; begin s := WebBrowser1.OleObject.document.body.innerHTML; //body内的所有代码 ...
JS远程获取网页源代码的例子
js代码获取网页源代码. 代码: <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> < ...
如何在ios手机端的Safari浏览器中“查看网页源代码”
在这里给大家分享一个很简单的用苹果手机无需越狱就可以查看网页源代码的方法,不过这个方法只用于苹果手机自带的Safari浏览器随便添加一个safari 书签 (用于一会改为查看源码功能书签)进入书签 ...
c#利用WebClient和WebRequest获取网页源代码
C#中一般是可以利用WebClient类和WebRequest类获取网页源代码.下面分别说明这两种方法的实现. WebClient类获取网页源代码 WebClient类 WebClient ...
c#利用HttpWebRequest获取网页源代码
c#利用HttpWebRequest获取网页源代码,搞了好几天终于解决了,直接获取网站编码进行数据读取,再也不用担心乱码了! 命名空间:Using System.Net private static ...
C#用正则表达式获取网页源代码标签的属性或值
1.有url获取到网页源代码: using System.Web; using System.IO; using System.Net; private void GetHtmlinfo(string ...

随机推荐

Nodejs的mysql模块学习(一)
介绍 mysql npm包是一个nodejs的模块,由JavaScript编写安装 npm install mysql 建立连接 var mysql = require('mysql');//引用 ...
Android进阶笔记14：ListView篇之ListView性能优化
1. 首先思考一个问题ListView如何才能提高效率 ? 当convertView为空时候,用setTag()方法为每个View绑定一个存放控件的ViewHolder对象.当convertView不 ...
java 操作sqllite的数据库
介绍 sqllite是一个小型数据库,不依赖于数据库服务器,操作它可以像操作本地的文本文件一样.在Android中是用来存储数据到本地的,java中可能也会有用到sqllite需要. 详细 sqlli ...
linux用户及组管理
useradd 添加用户 passwd 修改用户密码 userdel 删除用户,默认不删除用户主目录和email,如果想删除可加 –r 参数 groupadd 添 ...
Log4Net(三)之记录日志到数据库
前面两篇短文向大家介绍了如何使用log4net,以及如何将log4net记录到文本文件中.下面本文将向大家介绍如何将log4net记录到数据库中. 经过前面的介绍,我想大家对使用log4net的过程已 ...
[转]bat批处理实现TXT文本合并
本文转自:http://quanhuaming.blog.163.com/blog/static/1405693672010210101124905/ 有朋友问是否有可以合并TXT文本文件的软件,于是 ...
template和templateUrl区别与联系
templateUrl其实根template功能是一样的,只不过templateUrl加载一个html文件,template后面根的是html的标签. .state('menu.about', { u ...
hdu 2852 树状数组
思路:加一个数e就用update(e,1).删除元素e就用update(e,-1).找比a大的第k大的元素就用二分查找. #include<iostream> #include<cs ...
Python_sklearn机器学习库学习笔记（五）k-means（聚类）
# K的选择:肘部法则如果问题中没有指定的值,可以通过肘部法则这一技术来估计聚类数量.肘部法则会把不同值的成本函数值画出来.随着值的增大,平均畸变程度会减小:每个类包含的样本数会减少,于是样本 ...
centos 安装 acrobat Reader之后
IV: 为Firefox等浏览器安装Acrobat Reader插件:sudo /usr/local/Adobe/Acrobat7.0/Browser/install_browser_plugin按照 ...

C语言获取网页源代码的学习所得

C语言获取网页源代码的学习所得的更多相关文章

随机推荐

热门专题