《C# 爬虫破境之道》：第一境爬虫原理 — 第六节：第一境尾声

【《C# 爬虫破境之道》：第一境爬虫原理 — 第六节：第一境尾声】的更多相关文章

《C# 爬虫破境之道》：第一境爬虫原理 — 第六节：第一境尾声

在第一境中,我们主要了解了爬虫的一些基本原理,说原理也行,说基础知识也罢,结果就是已经知道一个小爬虫是如何诞生的了~那么现在,请默默回想一下,在第一境中,您都掌握了哪些内容?哪些还比较模糊?如果还有什么不清楚或不牢固的地方,建议还是先返回去再看一遍,毕竟看比我写要快得多~ 如果都掌握差不多了,OK,本着本书”看完丢掉“的理念,就不用再去想它了,那么,恭喜各位已经阅读过本书第一境的朋友们,已经可以正式突破第一境,进入到爬虫境界的第二境了,接下来不要懈怠,让我们继续新的征程! 我们在第一境中,一直都…

《C# 爬虫破境之道》：第二境爬虫应用 — 第一节：HTTP协议数据采集

首先欢迎您来到本书的第二境,本境,我们将全力打造一个实际生产环境可用的爬虫应用了.虽然只是刚开始,虽然路漫漫其修远,不过还是有点小鸡冻:P 本境打算针对几大派生类做进一步深耕,包括与应用的结合.对比它们之间的区别.综合共性.封装.One-By-One. System.IO.Packaging.PackWebRequest System.Net.FileWebRequest System.Net.FtpWebRequest System.Net.HttpWebRequest 第一节,我们先来说说最…

《C# 爬虫破境之道》：第一境爬虫原理 — 第五节：数据流处理的那些事儿

为什么说到数据流了呢,因为上一节中介绍了一下异步发送请求.同样,在数据流的处理上,C#也为我们提供几个有用的异步处理方法.而且,爬虫这生物,处理数据流是基础本能,比较重要.本着这个原则,就聊一聊吧. 我们经常使用到的流有文件流.内存流.网络流,爬虫与这三种流都有着密不可分的联系,可以联想以下这些场景: 当我们采集的数据,是一个压缩包或者照片,那么要存储它们到硬盘上,就需要使用到文件流了: 当我们采集的数据,是经过GZip等压缩算法压缩过的,那么要解压它,就需要使用到内存流了: 当我们的爬虫运行起…

《C# 爬虫破境之道》：第一境爬虫原理 — 第二节：WebRequest

本节主要来介绍一下,在C#中制造爬虫,最为常见.常用.实用的基础类 ------ WebRequest.WebResponse. 先来看一个示例 [1.2.1]: using System; using System.IO; using System.Net; using System.Text; class Program { static void Main(string[] args) { var request = WebRequest.Create(@"https://www.cnbl…

《C# 爬虫破境之道》：第一境爬虫原理 — 第一节：整体思路

在构建本章节内容的时候,笔者也在想一个问题,究竟什么样的采集器框架,才能算得上是一个“全能”的呢?就我自己以往项目经历而言,可以归纳以下几个大的分类: 根据通讯协议:HTTP的.HTTPS的.TCP的.UDP的: 根据数据类型:纯文本的.json的.压缩包的.图片的.视频的: 根据更新周期:不定期更新的.定期更新的.增量更新的: 根据数据来源:单一数据源.多重数据源.多重数据源混合: 根据采集点分布:单机的,集群的: 根据反爬虫策略:控制频率的,使用代理的,使用特定UA的: 根据配置:可配置的,…

《C# 爬虫破境之道》：第一境爬虫原理 — 第四节：同步与异步请求方式

前两节,我们对WebRequest和WebResponse这两个类做了介绍,但两者还相对独立.本节,我们来说说如何将两者结合起来,方式有哪些,有什么不同. 1.4.1 说结合,无非就是我们如何发送一个Request以及如何得到一个Response. WebRequest提供了三组方法(Framework 4.6.1+,其它版本没去细看) [Code 1.4.1] public virtual WebResponse GetResponse(); -------------------------…

《C# 爬虫破境之道》：第一境爬虫原理 — 第三节：WebResponse

第二节中,我们介绍了WebRequest,它可以帮助我们发送一个请求,不过正所谓“来而不往非礼也”,对方收到我们的请求,不给点回复,貌似不太合适(不过,还真有脸皮厚的:P). 接下来,就重点研究一下,我们收到的回复,是个什么样的东东 [Code 1.3.1] // // Summary: // Provides a response from a Uniform Resource Identifier (URI). This is an abstract // class. public abs…

《C# 爬虫破境之道》：概述

第一节:写作本书的目的关于笔者张晓亭(Mike Cheers),1982年出生,内蒙古辽阔的大草原是我的故乡. 没有高学历,没有侃侃而谈的高谈阔论,拥有的就是那一份对技术的执著,对自我价值的追求. 我是谁,其实并不重要,我是高级开发.我是架构师.我是技术经理,这些都是我,跟各位没有半毛钱关系.最重要的是,我能给读者带来什么.接下来的日子里,就看看本书能给各位带来什么惊喜,也许到最后,你都不会记得我的名字,没有关系,相信我,那并不重要. 关于本书本书是<破境之道>系列技术丛书中的一部分,将…

《C# 爬虫破境之道》：第二境爬虫应用 — 第四节：小说网站采集

之前的章节,我们陆续的介绍了使用C#制作爬虫的基础知识,而且现在也应该比较了解如何制作一只简单的Web爬虫了. 本节,我们来做一个完整的爬虫系统,将之前的零散的东西串联起来,可以作为一个爬虫项目运作流程的初探,但实际项目中,还需要解决其他一些问题,我们后续章节也将继续深耕:) 先来看一下解决方案的整体结构: 我们也希望我们的爬虫框架能够被应用到跨平台的项目中,所以,本项目采用了.Net Core Framework作为基础. 根据上图所示,项目结构还是很简单的.爬虫框架部分,与之前章节的内容并没…

《C# 爬虫破境之道》：第二境爬虫应用 — 第五节：小总结带来的优化与重构

在上一节中,我们完成了一个简单的采集示例.本节呢,我们先来小结一下,这个示例可能存在的问题: 没有做异常处理没有做反爬应对策略没有做重试机制没有做并发限制 …… 呃,看似平静的表面下还是隐藏着不少杀机的…… 但本节不打算对付上述问题,而是先关注一个隐藏更深的问题,这个问题,可能会牵扯很多人(包括我☹,不包括我☺,包括我☹,不包括我☺)的编程习惯问题. 这里提出一个突出的问题,就是堆栈溢出的问题. 首先,我们以上一节的示例为例,解析一下造成的原因,下图演示了一个内容采集的游走路径,也就是调用…

【《C# 爬虫 破境之道》：第一境 爬虫原理 — 第六节：第一境尾声】的更多相关文章

【《C# 爬虫破境之道》：第一境爬虫原理 — 第六节：第一境尾声】的更多相关文章