提取HTML的正文类

本文转载：http://blog.csdn.net/cjh200102/article/details/6824895

//2、提取html的正文 类

using System;

 using System.Text;

 namespace HtmlStrip

 {

     class MainClass

     {

         public static void Main (string[] args)

         {

             string str = "<div>abc</div><span>efg</span><br /><script>888</script><!--<PA>WW</PA-->oo";

             //System.IO.StreamReader rd=new System.IO.StreamReader ("/home/lx/test.html");

             //str=rd.ReadToEnd ();

             HtmlParser t = new HtmlParser (str); //

             t.KeepTag (new string[] { "br" }); //设置br标签不过虑

             Console.Write (t.Text ());

         }

     }

     class HtmlParser

     {

         private string[] htmlcode; //把html转为数组形式用于分析

         private StringBuilder result = new StringBuilder ();  //输出的结果

         private int seek; //分析文本时候的指针位置

         private string[] keepTag;  //用于保存要保留的尖括号内容

         private bool _inTag;  //标记现在的指针是不是在尖括号内

         private bool needContent = true;  //是否要提取正文

         private string tagName;  //当前尖括号的名字

         private string[] specialTag = new string[] { "script", "style", "!--" };  //特殊的尖括号内容，一般这些标签的正文是不要的

         /// <summary>

         /// 当指针进入尖括号内，就会触发这个属性。这里主要逻辑是提取尖括号里的标签名字

         /// </summary>

         public bool inTag {

             get { return _inTag; }

             set {

                 _inTag = value;

                 if (!value)

                     return;

                 bool ok = true;

                 tagName = "";

                 while (ok) {

                     string word = read ();

                     if (word != " " && word != ">") {

                         tagName += word;

                     } else if (word == " " && tagName.Length > 0) {

                         ok = false;

                     } else if (word == ">") {

                         ok = false;

                         inTag = false;

                         seek -= 1;

                     }

                 }

             }

         }

         /// <summary>

         /// 初始化类

         /// </summary>

         /// <param name="html">

         ///  要分析的html代码

         /// </param>

         public HtmlParser (string html)

         {

             htmlcode = new string[html.Length];

             for (int i = 0; i < html.Length; i++) {

                 htmlcode[i] = html[i].ToString ();

             }

             KeepTag (new string[] {  });

         }

         /// <summary>

         /// 设置要保存那些标签不要被过滤掉

         /// </summary>

         /// <param name="tags">

         ///

         /// </param>

         public void KeepTag (string[] tags)

         {

             keepTag = tags;

         }

         /// <summary>

         ///

         /// </summary>

         /// <returns>

         /// 输出处理后的文本

         /// </returns>

         public string Text ()

         {

             int startTag = 0;

             int endTag = 0;

             while (seek < htmlcode.Length) {

                 string word = read ();

                 if (word.ToLower () == "<") {

                     startTag = seek;

                     inTag = true;

                 } else if (word.ToLower () == ">") {

                     endTag = seek;

                     inTag = false;

                     if (iskeepTag (tagName.Replace ("/", ""))) {

                         for (int i = startTag - 1; i < endTag; i++) {

                             result.Append (htmlcode[i].ToString ());

                         }

                     } else if (tagName.StartsWith ("!--")) {

                         bool ok = true;

                         while (ok) {

                             if (read () == "-") {

                                 if (read () == "-") {

                                     if (read () == ">") {

                                         ok = false;

                                     } else {

                                         seek -= 1;

                                     }

                                 }

                             }

                         }

                     } else {

                         foreach (string str in specialTag) {

                             if (tagName == str) {

                                 needContent = false;

                                 break;

                             } else

                                 needContent = true;

                         }

                     }

                 } else if (!inTag && needContent) {

                     result.Append (word);

                 }

             }

             return result.ToString ();

         }

         /// <summary>

         /// 判断是否要保存这个标签

         /// </summary>

         /// <param name="tag">

         /// A <see cref="System.String"/>

         /// </param>

         /// <returns>

         /// A <see cref="System.Boolean"/>

         /// </returns>

         private bool iskeepTag (string tag)

         {

             foreach (string ta in keepTag) {

                 if (tag.ToLower () == ta.ToLower ()) {

                     return true;

                 }

             }

             return false;

         }

         private string read ()

         {

             return htmlcode[seek++];

         }

     }

 }

提取HTML的正文类的更多相关文章

c# 使用正则表达式提取章节小说正文全本篇
这一节主要内容是使用正则表达式提取网站的正文,主要面向于小说章节网站.其中涉及到一些其他知识点,比如异步读取.异步流写入等,代码中都会有详细的注解.现在流行的网络文学都是每日一更或几更,没有一个统一的 ...
arcgis python脚本工具实例教程—栅格范围提取至多边形要素类
arcgis python脚本工具实例教程-栅格范围提取至多边形要素类商务合作,科技咨询,版权转让:向日葵,135-4855_4328,xiexiaokui#qq.com 功能:提取栅格数据的范围, ...
提取html的正文
1 using System; 2 using System.Text; 3 namespace HtmlStrip 4 { 5 class MainClass 6 { 7 ...
提取ecshop的mysql类
在下一篇文章中,我还将介绍如何完善ecshop的mysql类,使用ecshop的数据库前缀下载ecshop后,解压缩,进入目录upload/includes,复制里面的cls_mysql.php放进 ...
利用正则提取discuz的正文内容
源正文: [p=24, null, left][color=#000][font=宋体]近日,香港著名漫画家马荣成在香港举办的"[color=#ff660][url=http://cul.c ...
VOC2012数据集提取自己需要的类的图片和对应的xml标签
根据需要修改路径和自己需要的类即可. import os import os.path import shutil fileDir_ann = r'/home/somnus/tttt/VOC2012/ ...
COCO数据集提取特定多个类并在YOLO-V3上训练
先占个地方,有空再写 ` import os Dir = './coco_class_6/Annotations/val2014' ImageDir = './coco_class_6/images/ ...
HTML 转文本及HTML内容提取(C#)
//1.HTML直接转文本 //使用方法 HtmlToText convert = new HtmlToText(); textBox2.Text = convert.Convert(textBox1 ...
重构19-Extract Factory Class（提取工厂类）
在代码中,通常需要一些复杂的对象创建工作,以使这些对象达到一种可以使用的状态.通常情况下,这种创建不过是新建对象实例,并以我们需要的方式进行工作.但是,有时候这种创建对象的需求会极具增长,并且混淆了创 ...

随机推荐

【BZOJ1861】【splay】Book 书架
Description 小 T有一个很大的书柜.这个书柜的构造有些独特,即书柜里的书是从上至下堆放成一列.她用1到n的正整数给每本书都编了号. 小T在看书的时候,每次取出一本书,看完后放回书柜然后再拿 ...
【随记】解决：VS2010 调试器无法继续继续运行该进程，无法启动调试
今天在调试项目的时候突然出现错误: 按照网上的一些方法弄了后还是同样报错,把本地代码删除后从库上重现拉下来的项目依然报错,到这里就明白不是项目本身问题了,而是VS2010 的问题,经过网上查资料,问同 ...
实例：用jQuery实现垂直和水平下拉菜单
主要是利用jQuery来实现垂直菜单和水平菜单.实现效果如图: 第一步,创建一个HTML文件,如图,包含两个ul.当然把jquery库也引入进去了. <!DOCTYPE html> < ...
http拦截器interceptors
在服务里配置$httpProvider.interceptors的相关参数包含 request请求拦截 response响应拦截 requestError请求错误抛出 responseError响应 ...
【转】HTML5 LocalStorage 本地存储
原文见:http://www.cnblogs.com/xiaowei0705/archive/2011/04/19/2021372.html 说到本地存储,这玩意真是历尽千辛万苦才走到HTML5这一步 ...
fix iis Running slow
为什么写这个文章.因为我现在再找一个站点的访问原因..方法还是老方法.. 1. 站点是否真的挂了 a. 基本上全挂.所有请求非常缓慢或超时. b.大多数请求慢,但最终还是执行了.有可能队列再排队怎 ...
单例模式在Unity中的应用
起因:每个游戏场景中都会有许多的游戏对象,而各个游戏场景之间也是同等的关系.如何去管理它们,是我们要解决的问题. 场景中各脚本间的直接访问,会在各脚本间形成一个巨大而又混乱的网络,这给以后代码的维护带 ...
如何给Qlabel添加clicked属性（覆盖mousePressEvent，处理QMouseEvent消息，反正是软绘制，想怎么样就怎么样）
clickedLabel.h #ifndef CLICKLABEL_H #define CLICKLABEL_H #include <QLabel> #include <QMouse ...
5. repeater图片放大
当把鼠标放在一张小图片上时,图片会自动放大,离开时它变小. 我们在静态页面中可以用jQuery来操作.如下为html中的源码. <!DOCTYPE html PUBLIC "-//W3 ...
maven jetty
父项目: <dependency> <groupId>org.apache.commons</groupId> <artifactId>commons- ...

提取HTML的正文类

提取HTML的正文类的更多相关文章

随机推荐

热门专题