网络采集软件核心技术剖析系列（2）---如何使用C#语言获得任意站点博文的正文及标题

一本系列随笔概览及产生的背景

本系列开篇受到大家的热烈欢迎，这对博主是莫大的鼓励，此为本系列第二篇，希望大家继续支持，为我继续写作提供动力。

自己开发的豆约翰博客备份专家软件工具问世3年多以来，深受广大博客写作和阅读爱好者的喜爱。同时也不乏一些技术爱好者咨询我，这个软件里面各种实用的功能是如何实现的。

该软件使用.NET技术开发，为回馈社区，现将该软件中用到的核心技术，开辟一个专栏，写一个系列文章，以飨广大技术爱好者。

本系列文章除了讲解网络采编发用到的各种重要技术之外，也提供了不少问题的解决思路和界面开发的编程经验，非常适合.NET开发的初级，中级读者，希望大家多多支持。

很多初学者常有此类困惑，“为什么我书也看了，C#相关的各个方面的知识都有所了解，但就是没法写出一个像样的应用呢？”，

这其实还是没有学会综合运用所学知识，锻炼出编程思维，建立起学习兴趣，我想该系列文章也许会帮到您，但愿如此。

开发环境：VS2008

本节源码位置：https://github.com/songboriceboy/GetWebContent

源码下载办法：安装SVN客户端(本文最后提供下载地址)，然后checkout以下的地址：https://github.com/songboriceboy/GetWebContent

系列文章提纲如下：

网络采集软件核心技术剖析系列（1）---如何使用C#语言获取博客园某个博主的全部随笔链接及标题

网络采集软件核心技术剖析系列（2）---如何使用C#语言获得任意站点博文的正文及标题

网络采集软件核心技术剖析系列（3）---如何使用C#语言下载博文中的全部图片到本地并可以离线浏览

网络采集软件核心技术剖析系列（4）---使用C#语言如何将html网页转换成pdf（html2pdf）

网络采集软件核心技术剖析系列（5）---将任意博主的全部博文下载到内存中并通过Webbrower显示

网络采集软件核心技术剖析系列（6）---将任意博主的全部博文下载到SQLite数据库中并通过Webbrower显示

网络采集软件核心技术剖析系列（7）---如何使用C#语言搭建程序框架(经典Winform界面，菜单栏，树形列表，多Tab界面）

网络采集软件核心技术剖析系列（综合实例）

二第二节主要内容简介（如何使用C#语言获得任意站点博文的正文及标题）

使用C#语言获得任意站点博文的正文及标题的解决方案演示demo如下图所示：可执行文件下载

三基本原理

要想获取任意网页文章的正文及标题，我们除了要利用上一节提到的HtmlAgilityPack.dll程序集之外，还要借助于另外一个实用的程序集Fizzler.dll（http://fizzlerex.codeplex.com/）

HtmlAgilityPack是通过xpath来解析html元素，相对来说还是稍微麻烦些；Fizzler提供了类似css选择器的方式来解析html元素，非常符合我们的习惯。

通常对于某篇文章，我们只想保留文章的正文（去掉广告，侧边栏等四周的网页布局元素），接下来，我们就来看一下操作步骤，这里我们需要借助一下强大的浏览器工具。

1.使用firefox浏览器或chrome浏览器打开我们想要提取正文的网页，firefox要安装firebug插件，chrome直接按F12，这里我们以firefox举例：

比如，打开我们上一节的博文（http://www.cnblogs.com/ice-river/p/4110799.html），如下图所示：

首先右上角的小虫子图标在我们安装完firebug插件后出现，点击它，浏览器下端弹出调试界面，在调试界面中，点击我红线框起来的图标（一蓝色方框，上面有个箭头），此时你会发现网页中的各个元素都变为可框选的，我们框选正文之后，会发现在下面的调试界面对应的div元素被高亮选中，我们对该div元素（博客园这里是div#cnblogs_post_body）右键，弹出右键菜单，如下图所示：

我们点击[复制css路径菜单项]，此时我们粘贴板中就得到了正文的css路径[html body div#home div#main div#mainContent div.forFlow div#topics div.post div.postBody div#cnblogs_post_body]

对于Fizzler来说，我们只需要提供最后部分的div#cnblogs_post_body即可（大家记住，我们只需要从获得的css路径长字符串中从后往前看，拿到最后一个空格之后的字符串，这里是div#cnblogs_post_body

把这个字符串填入到我们demo的[正文css路径]部分，如下图所示：

其实对应于Fizzler来讲，只需一行代码：

   IEnumerable<HtmlNode> NodesMainContent = htmlDoc.DocumentNode.QuerySelectorAll(this.textBoxCssPath.Text);

是不是很简单？

对于其他技术博客，大家可以自行练习，检验是否理解了我上面所说的方法，这里给出几个常见技术博客的正文Css路径答案：

  站点        --->  CSS路径

"Cnblogs"    ---> "div#cnblogs_post_body"

"Csdn"        ---> "div#article_content.article_content"

"51CTO"        ---> "div.showContent"

"Iteye"        ---> "div#blog_content.blog_content"

"ItPub"        ---> "div.Blog_wz1"

"ChinaUnix" ---> "div.Blog_wz1"

好了，回过头来我们讲讲本节demo中的重点代码：

获取博客正文标题：

private void GetTitle()

        {

            string strContent

                = m_wd.GetPageByHttpWebRequest(this.textBoxUrl.Text, Encoding.UTF8);

            HtmlAgilityPack.HtmlDocument htmlDoc = new HtmlAgilityPack.HtmlDocument

            {

                OptionAddDebuggingAttributes = false,

                OptionAutoCloseOnEnd = true,

                OptionFixNestedTags = true,

                OptionReadEncoding = true

            };

            htmlDoc.LoadHtml(strContent);

            string strTitle = "";

            HtmlNodeCollection nodes = htmlDoc.DocumentNode.SelectNodes("//title");

            // Extract Title

            if (!Equals(nodes, null))

            {

                strTitle = string.Join(";", nodes.

                    Select(n => n.InnerText).

                    ToArray()).Trim();

            }

            strTitle = strTitle.Replace("博客园", "");

            strTitle = Regex.Replace(strTitle, @"[|/\;:*?<>&#-]", "").ToString();

            strTitle = Regex.Replace(strTitle, "[\"]", "").ToString();

            this.textBoxTitle.Text = strTitle.TrimEnd();

        }

主要流程是首先用我们上一节给出的 WebDownloader类获取到网页的源代码，然后通过下面一行代码获取网页标题：

 HtmlNodeCollection nodes = htmlDoc.DocumentNode.SelectNodes("//title");

这里的借助了HtmlAgilityPack的SelectNodes函数提取网页中的title元素，注意一般的格式良好网页都具有title元素，因为这样方便搜索引擎索引收录我们的文章，下图解释下什么是title元素

大家注意上图，我用红笔圈出的2个地方，应该不言自明了吧，不解释。

获取博客正文内容：

  private void GetMainContent()

        {

            string strContent

                = m_wd.GetPageByHttpWebRequest(this.textBoxUrl.Text, Encoding.UTF8);

            HtmlAgilityPack.HtmlDocument htmlDoc = new HtmlAgilityPack.HtmlDocument

            {

                OptionAddDebuggingAttributes = false,

                OptionAutoCloseOnEnd = true,

                OptionFixNestedTags = true,

                OptionReadEncoding = true

            };

            htmlDoc.LoadHtml(strContent);

            IEnumerable<HtmlNode> NodesMainContent = htmlDoc.DocumentNode.QuerySelectorAll(this.textBoxCssPath.Text);

            if (NodesMainContent.Count() > )

            {

                this.richTextBox1.Text = NodesMainContent.ToArray()[].OuterHtml;

                this.webBrowser1.DocumentText = this.richTextBox1.Text;

            }

        }

很简单就是调用htmlDoc.DocumentNode.QuerySelectorAll函数，参数传入我们上面讲到的正文div的css路径，最后NodesMainContent.ToArray()[0].OuterHtml中保存的就是网页正文内容的源代码，放到richTextBox1.Text里显示html源代码，放到webBrowser1.DocumentText里显示网页内容。

四下节预告

网页的抓取主要分为3步：

1.通过分页链接抓取到全部文章链接集合（第一节内容）

2.通过每一个文章链接获取到文章的标题及正文（本节内容）

3.从文章正文中解析出全部图片链接，并将文章的全部图片下载到本地（下节内容）

这3步有了，之后你就想怎么折腾就怎么折腾了，各种加工处理，生成pdf，chm，静态站点，远程发布到其他站点等等（请继续关注本系列文章，并不吝点一下推荐，您的支持是我写作的最大动力）。

作者：宋波
出处：http://www.cnblogs.com/ice-river/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文链接。
正在看本人博客的这位童鞋，我看你气度不凡，谈吐间隐隐有王者之气，日后必有一番作为！旁边有“推荐”二字，你就顺手把它点了吧，相得准，我分文不收；相不准，你也好回来找我！

网络采集软件核心技术剖析系列（2）---如何使用C#语言获得任意站点博文的正文及标题的更多相关文章

网络采集软件核心技术剖析系列（7）---如何使用C#语言搭建程序框架(经典Winform界面，顶部菜单栏，工具栏，左边树形列表，右边多Tab界面）
一本系列随笔概览及产生的背景自己开发的豆约翰博客备份专家软件工具问世3年多以来,深受广大博客写作和阅读爱好者的喜爱.同时也不乏一些技术爱好者咨询我,这个软件里面各种实用的功能是如何实现的. 该软件 ...
网络采集软件核心技术剖析系列（6）---将任意博主的全部博文下载到SQLite数据库中并通过Webbrower显示（将之前的内容综合到一起）
一本系列随笔目录及本节代码下载自己开发的豆约翰博客备份专家软件工具问世3年多以来,深受广大博客写作和阅读爱好者的喜爱.同时也不乏一些技术爱好者咨询我,这个软件里面各种实用的功能是如何实现的. 该软 ...
网络采集软件核心技术剖析系列（5）---将任意博主的全部博文下载到内存中并通过Webbrower显示（将之前的内容综合到一起）
一本系列随笔概览及产生的背景自己开发的豆约翰博客备份专家软件工具问世3年多以来,深受广大博客写作和阅读爱好者的喜爱.同时也不乏一些技术爱好者咨询我,这个软件里面各种实用的功能是如何实现的. 该软件 ...
网络采集软件核心技术剖析系列（4）---使用C#语言如何将html网页转换成pdf（html2pdf）
一本系列随笔概览及产生的背景本系列开篇受到大家的热烈欢迎,这对博主是莫大的鼓励,此为本系列第四篇,希望大家继续支持,为我继续写作提供动力. 自己开发的豆约翰博客备份专家软件工具问世3年多以来,深受 ...
网络采集软件核心技术剖析系列（3）---如何使用C#语言下载博文中的全部图片到本地并可以离线浏览
一本系列随笔概览及产生的背景本系列开篇受到大家的热烈欢迎,这对博主是莫大的鼓励,此为本系列第三篇,希望大家继续支持,为我继续写作提供动力. 自己开发的豆约翰博客备份专家软件工具问世3年多以来,深受 ...
《SDN核心技术剖析和实战指南》第一章小结
第一章主要是概况.新技术有一个特点是,每家都有不同的说法.这里我只说说我比较认同的部分. SDN的核心概念大概有两个:转发面与控制面分离.开发可编程化.书里还说逻辑上集中控制,其实这个就可以从转发与控 ...
WorldWind源码剖析系列：星球球体的加载与渲染
WorldWind源码剖析系列:星球球体的加载与渲染 WorldWind中主函数Main()的分析在文件WorldWind.cs中主函数Main()阐明了WorldWind的初始化运行机制(如图1所 ...
《SDN核心技术剖析和实战指南》2.3 OF-CONFIG配置管理协议小结
OpenFlow协议定义了交换机和控制器交换数据的方式和规范,但并没有定义如何配置和管理必需的网络参数和网络资源,OF-CONFIG的提出就是为了对OpenFlow提供配置管理支持.如下图所示,OF- ...
采用VSPD、ModbusTool模拟串口、MODBUS TCP设备进行Python采集软件开发
版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 不少仪器/设备都提供了数据采集的接口,其中不少是串口或网络的MODBUS/TCP协议. 串口是比较简单 ...

随机推荐

[洛谷P1528] 切蛋糕
洛谷题目链接:切蛋糕题目描述 Facer今天买了n块蛋糕,不料被信息组中球球等好吃懒做的家伙发现了,没办法,只好浪费一点来填他们的嘴巴.他答应给每个人留一口,然后量了量每个人口的大小.Facer有把 ...
Hadoop之yarn调用机制
1,Mapper方法:如果在map方法之前执行一些程序用setup,之后用cleanup.同理在Reducer方法中也有setup和cleanup. 2,map任务是并行执行,没有谁先谁后,如果是两个 ...
noip2014 提高组
T1 生活大爆炸版石头剪刀布题目传送门就是道模拟题咯 #include<algorithm> #include<cstdio> #include<cstring&g ...
mongo语法和mysql语法对比学习
我们总是在对比中看到自己的优点和缺点,对于mongodb来说也是一样,对比学习让我们尽快的掌握关于mongodb的基础知识. mongodb与mysql命令对比关系型数据库一般是由数据库(datab ...
git web 服务器的搭建【转】
转自:http://blog.csdn.net/transformer_han/article/details/6450200 目录(?)[-] git服务器搭建过程需求硬件需求一台Ubuntu或 ...
内存管理相关函数 -- Linux【转】
转自:http://blog.csdn.net/cy_cai/article/details/47001245 1.kmalloc()/kfree() static __always_inline v ...
算法题之Climbing Stairs（leetcode 70）
题目: You are climbing a stair case. It takes n steps to reach to the top. Each time you can either cl ...
springboot整合mybatis+pageHelper
springboot整合mybatis+pageHelper 〇.搭建sporingboot环境,已经整合mybatis环境,本篇主要是添加pageHelper工具一.添加依赖 <!-- 分页 ...
django使用celery进行耗时任务的优化
# 原创,转载请留言联系在用django做项目的时候,做到注册模块时,需要发送短信验证码.本来简简单单的做好了,后来优化的时候发现,发送短信验证码的时候需要一点时间,在这个时间之内程序是阻塞的,用户 ...
JavaScript的数组详解
#转载请留言联系创建数组 1.通过new Array()进行创建 var arr1=new Array(); 2.通过中括号进行创建 var arr2=[]; 计算数组的长度 var arr3=[' ...

网络采集软件核心技术剖析系列（2）---如何使用C#语言获得任意站点博文的正文及标题

网络采集软件核心技术剖析系列（2）---如何使用C#语言获得任意站点博文的正文及标题的更多相关文章

随机推荐

热门专题