C# HTML帮助类包括补全标签截取HTML字符串包含标签

public static class HtmlHelper

    {

        /// <summary>

        /// 按文本内容长度截取HTML字符串(支持截取带HTML代码样式的字符串)

        /// </summary>

        /// <param name="html">将要截取的字符串参数</param>

        /// <param name="len">截取的字节长度</param>

        /// <param name="endString">字符串末尾补上的字符串</param>

        /// <returns>返回截取后的字符串</returns>

        public static string HTMLSubstring(string html, int len, string endString)

        {

            if (string.IsNullOrEmpty(html) || html.Length <= len) return html;

            MatchCollection mcentiry, mchtmlTag;

            ArrayList inputHTMLTag = new ArrayList();

            string r = "", tmpValue;

            int rWordCount = 0, wordNum = 0, i = 0;

            Regex rxSingle = new Regex("^<(br|hr|img|input|param|meta|link)", RegexOptions.Compiled | RegexOptions.IgnoreCase)//是否单标签正则

                , rxEndTag = new Regex("</[^>]+>", RegexOptions.Compiled)//是否结束标签正则

                , rxTagName = new Regex("<([a-z]+)[^>]*>", RegexOptions.Compiled | RegexOptions.IgnoreCase)//获取标签名正则

                , rxHtmlTag = new Regex("<[^>]+>", RegexOptions.Compiled)//html标签正则

                , rxEntity = new Regex("&[a-z]{1,9};", RegexOptions.Compiled | RegexOptions.IgnoreCase)//实体正则

                , rxEntityReverse = new Regex("§", RegexOptions.Compiled)//反向替换实体正则

                ;

            html = html.Replace("§", "§");//替换字符§为他的实体“§”，以便进行下一步替换

            mcentiry = rxEntity.Matches(html);//收集实体对象到匹配数组中

            html = rxEntity.Replace(html, "§");//替换实体为特殊字符§，这样好控制一个实体占用一个字符

            mchtmlTag = rxHtmlTag.Matches(html);//收集html标签到匹配数组中

            html = rxHtmlTag.Replace(html, "__HTMLTag__");//替换为特殊标签

            string[] arrWord = html.Split(new string[] { "__HTMLTag__" }, StringSplitOptions.None);//通过特殊标签进行拆分

            wordNum = arrWord.Length;

            //获取指定内容长度及HTML标签

            for (; i < wordNum; i++)

            {

                if (rWordCount + arrWord[i].Length >= len) r += arrWord[i].Substring(0, len - rWordCount) + endString;

                else r += arrWord[i];

                rWordCount += arrWord[i].Length;//计算已经获取到的字符长度

                if (rWordCount >= len) break;

                //搜集已经添加的非单标签，以便封闭HTML标签对

                if (i < wordNum - 1)

                {

                    tmpValue = mchtmlTag[i].Value;

                    if (!rxSingle.IsMatch(tmpValue))

                    { //不是单标签

                        if (rxEndTag.IsMatch(tmpValue) && inputHTMLTag.Count > 0) inputHTMLTag.RemoveAt(inputHTMLTag.Count - 1);

                        else inputHTMLTag.Add(tmpValue);

                    }

                    r += tmpValue;

                }

            }

            //替换回实体

            for (i = 0; i < mcentiry.Count; i++) r = rxEntityReverse.Replace(r, mcentiry[i].Value, 1);

            //封闭标签

            for (i = inputHTMLTag.Count - 1; i >= 0; i--) r += "</" + rxTagName.Match(inputHTMLTag[i].ToString()).Groups[1].Value + ">";

            return r;

        }

        /// <summary>

        /// 过滤html格式

        /// </summary>

        /// <param name="Htmlstring"></param>

        /// <returns></returns>

        public static string NoHTML(this string Htmlstring)

        {

            Htmlstring = Regex.Replace(Htmlstring, @"<script[\s\S]*?</script>", "", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"<noscript[\s\S]*?</noscript>", "", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"<style[\s\S]*?</style>", "", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"<.*?>", "", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>", " ", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"([\r\n])[\s]+", " ", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"-->", " ", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"<!--.*", " ", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);", "\"", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);", "&", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);", "<", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);", ">", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);", "", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);", "\xa1", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);", "\xa2", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(pound|#163);", "\xa3", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(copy|#169);", "\xa9", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&#(\d+);", " ", RegexOptions.IgnoreCase);

            return Htmlstring;

        }

        /// <summary>

        /// 去除html标签后并截取字符串

        /// </summary>

        /// <param name="html">源html</param>

        /// <param name="length">截取长度</param>

        /// <returns></returns>

        public static string RemoveHtmlTag(this string html, int length = 0)

        {

            var doc = new HtmlDocument();

            doc.LoadHtml(html);

            var strText = doc.DocumentNode.InnerText;

            if (length > 0 && strText.Length > length)

            {

                return strText.Substring(0, length);

            }

            return strText;

        }

        /// <summary>

        /// 补全HTMl标签

        /// </summary>

        /// <param name="html">源html</param>

        /// <param name="length">截取长度</param>

        /// <returns></returns>

        public static string GetHtmlTag(this string html)

        {

            var doc = new HtmlDocument();

            doc.LoadHtml(html);

            var strText = doc.DocumentNode.InnerHtml;

            return strText;

        }

        /// <summary>

        /// 转换为HtmlDecode

        /// </summary>

        /// <param name="value"></param>

        /// <returns></returns>

        public static string HtmlDecode(this string value)

        {

            return System.Net.WebUtility.HtmlDecode(value);

        }

        /// <summary>

        /// 转换为HtmlEncode

        /// </summary>

        /// <param name="value"></param>

        /// <returns></returns>

        public static string HtmlEncode(this string value)

        {

            return System.Net.WebUtility.HtmlEncode(value);

        }

    }

C# HTML帮助类包括补全标签截取HTML字符串包含标签的更多相关文章

Visual Studio Code快速补全html标签（Sublime同样支持）
1.生成html文件骨架输入"!" 或 "html:5",按tab键注意:编写中文网页,记得把头部语言<html lang="en" ...
QLineEdit拾遗：数据的过滤、验证和补全
QLineEdit是使用频率最高的控件之一,当我们想获取用户输入时自然而然得会用到它. 通常我们会将QLineEdit的信号或其他控件的信号绑定至槽函数,然后获取并处理编辑器内的数据.你会觉得我们拿到 ...
vim之补全2(完全个人定制版)
关于补全的方面要说的的确很多, 这里选择分为两个章叙述. 如果你想学vim, 你需要有很强的耐心, 如果你想锻炼这种耐心, 你可以试着先看完我之前的文章. 好了, 下面继续我们的vim补全吧. vim ...
Linux命令之tab 键补全
tab 键补全 tab 键可以实现命令及路径等补全,提高输入效率,避免出错命令补全用户给定的字符串只有一条惟一对应的命令,直接补全, 两次Tab会给出列表内部命令: 外部命令:bash根据PAT ...
网页内容的html标签补全和过滤的两种方法
网页内容的html标签补全和过滤的两种方法: 假设你的网页内容的html标签显示不全,有些表格标签不完整而导致页面混乱,或者把你的内容之外的局部html页面给包括进去了,我们能够写个函数方法来补全ht ...
Python Beautiful Soup学习之HTML标签补全功能
Beautiful Soup是一个非常流行的Python模块.该模块可以解析网页,并提供定位内容的便捷接口. 使用下面两个命令安装: pip install beautifulsoup4 或者 sud ...
php实现网页标签补全方法(转)
导读:PHP在生成静态文件的时候,有时候会因为一些混编问题让HTML标签不完整或混乱而导致页面混乱.作者分享下面这段小代码可以非常方便解决问题. 如果你的网页内容的html标签显示不全,有些表格标签不 ...
php实现网页HTML标签补全方法
如果你的网页内容的html标签显示不全,有些表格标签不完整而导致页面混乱,或者把你的内容之外的局部html页面给包含进去了,我们可以写个函数方法来补全html标签以及过滤掉无用的html标签. php ...
设置Eclipse的类文件和xml文件代码自动补全
原文:https://blog.csdn.net/erlian1992/article/details/53706736 我们在平常编写代码的时候,不会记住大多数的类和文件的属性,方法等等,这就需要我 ...

随机推荐

【linux】系统调用版串口分析&源码实战
目录前言参考 1. 实战分析 1.1 开发步骤 1.1.1 获取串口设备路径 1.1.2 打开设备文件 1.1.3 配置串口 termios 结构体 1. c_iflag 输入模式标志 2. c_ ...
Bootstrap Blazor 组件介绍 Table （二）自定义模板列功能介绍
Bootstrap Blazor 是一套企业级 UI 组件库,适配移动端支持各种主流浏览器,已经在多个交付项目中使用.通过本套组件可以大大缩短开发周期,节约开发成本.目前已经开发.封装了 70 多个组 ...
Django REST Framework JWT 用户的登录注册
安装配配置 pip install djangorestframework-jwt 配置setting ########### 1.在INSTALLED_APPS中加入'rest_framework. ...
ubantu+nginx+uwsgi+django部署
1.更新ubantu的apt apt-get update 必要时候更新系统: apt-get upgrade 2.远程连接服务器 ssh 用户名@ip 上传代码 : scp ...
第7.11节案例详解：Python类实例变量
上节老猿介绍了实例变量的访问方法,本节结合一个具体案例详细介绍实例变量访问. 本节定义一个Vehicle类(车),它有三个实例变量self.wheelcount(轮子数).self.power(动力) ...
IT人的5G网络架构视点：从网络架构演进的前世今生详解5G各NF网络功能体
一.引言以前从来没关注电信无线上网网络的具体架构(也即PS域架构),现在开始学5G接触这些东西时,理解起来很痛苦,资料也少,于是一方面到处找人咨询,一方面到处查资料,最后发现应该从3G.4G时代的架 ...
PyQt学习随笔：ListView控件增加列表项
ListView控件如果需要增加列表项,就是在对应数据存储中插入项,这又分两种情况,一种是已知列表数据存储,一种是未知数据存储.如果是未知数据存储,可以通过: ListView控件名.model() ...
linux常用快捷键总结
启动器:<super> 显示桌面:<super>D 文件管理器:<super>E 显示工作区:<super>S 打开终端:ctrl+alt+T 关闭窗口 ...
Array的简单使用（Boost和STL通用）
目录目录介绍使用 Boost和STL的区别介绍本来这一次是想简单介绍一下Boost里面的协程库的使用的,但是Boost.Coroutine已经被废弃了,而Boost.Coroutine2目前 ...
Hexo博客框架10分钟搭建个人博客
首先是先给大家打个招呼最近看网上看到了很多的的关于搭建博客的视频,我自己也学着自己搭建了一个博客"我自己的博客链接"(欢迎大家来我的博客跟我深入交♂流),今天我把搭建的过程记录下 ...

C# HTML帮助类 包括补全标签 截取HTML字符串包含标签

C# HTML帮助类 包括补全标签 截取HTML字符串包含标签的更多相关文章

随机推荐

热门专题

C# HTML帮助类包括补全标签截取HTML字符串包含标签

C# HTML帮助类包括补全标签截取HTML字符串包含标签的更多相关文章