c#使用正则表达式抓取a标签的链接和innerhtml

  //读取网页html

            string text = File.ReadAllText(Environment.CurrentDirectory + "//test.txt", Encoding.GetEncoding("gb2312"));

            string prttern = "<a(\\s+(href=\"(?<url>([^\"])*)\"|'([^'])*'|\\w+=\"(([^\"])*)\"|'([^'])*'))+>(?<text>(.*?))</a>";

            var maths = Regex.Matches(text, prttern);

            //抓取出来写入的文件

            using (FileStream w = new FileStream(Environment.CurrentDirectory + "//wirter.txt", FileMode.Create))

            {

                for (int i = ; i < maths.Count; i++)

                {

                    byte[] bs = Encoding.UTF8.GetBytes(string.Format("链接地址:{0},   innerhtml：{1}", maths[i].Groups["url"].Value,

                        maths[i].Groups["text"].Value) + "\r\n");

                    w.Write(bs, , bs.Length);

                    Console.WriteLine();

                }

            }

            Console.ReadKey();

图解正则

朋友需要截取img标签的src 和data-url 跟上面差不多。。顺便附上

string text =File.ReadAllText(Environment.CurrentDirectory + "//test.txt", Encoding.GetEncoding("gb2312"));

           string prttern = "<img(\\s*(src=\"(?<src>[^\"]*?)\"|data-url=\"(?<dataurl>[^\"]*?)\"|[-\\w]+=\"[^\"]*?\"))*\\s*/>";

           var maths = Regex.Matches(text, prttern);

           //抓取出来写入的文件

           using (FileStream w = new FileStream(Environment.CurrentDirectory + "//wirter.txt", FileMode.Create))

           {

               for (int i = 0; i < maths.Count; i++)

               {

                   byte[] bs = Encoding.UTF8.GetBytes(string.Format("图片src:{0},   图片data-url：{1}", maths[i].Groups["src"].Value,

                       maths[i].Groups["dataurl"].Value) + "\r\n");

                   w.Write(bs, 0, bs.Length);

                   Console.WriteLine();

               }

           }

c#使用正则表达式抓取a标签的链接和innerhtml的更多相关文章

Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...
正则表达式抓取文件内容中的http链接地址
import java.io.BufferedReader; import java.io.FileInputStream; import java.io.FileNotFoundException; ...
iOS开发——网络使用技术OC篇&网络爬虫－使用正则表达式抓取网络数据
网络爬虫-使用正则表达式抓取网络数据关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看 ...
python3用BeautifulSoup抓取a标签
# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 from bs4 import Be ...
C#.Net使用正则表达式抓取百度百家文章列表
工作之余,学习了一下正则表达式,鉴于实践是检验真理的唯一标准,于是便写了一个利用正则表达式抓取百度百家文章的例子,具体过程请看下面源码: 一:获取百度百家网页内容 public List<str ...
jmeter从上一个请求使用正则表达式抓取Set-Cookie值，在下一个请求中运用
工作中遇到的问题,登录请求,返回的Response Headers中有个参数Set-Cookie,需要抓取这个参数,运用到下一个请求中,见下图: 通过正则表达式抓取Set-Cookie的值,由于该值存 ...
(转)利用Beautiful Soup去抓取p标签下class=jstest的内容
1.利用Beautiful Soup去抓取p标签下class=jstest的内容 import io import sys import bs4 as bs import urllib.request ...
用正则表达式抓取网页中的ul 和 li标签中最终的值！
获取你要抓取的页面 const string URL = "http://www.hn3ddf.gov.cn/price/GetList.html?pageno=1& ...
Python爬虫之使用正则表达式抓取数据
目录匹配标签匹配title标签 a标签 table标签匹配标签里面的属性匹配a标签里面的URL 匹配img标签里的 src 相关文章:Linux中的正则表达式 Python中的正则表达式实例 ...

随机推荐

IOS RunLoop浅析二
上一篇我们说了runloop 的几种模式,那么我们在模式中又要做些什么呢??? 模式中有三个模块: 事件源(输入源) Source Source: 按照官方文档分类 Port-Based Custom ...
JavaScript的个人学习随手记（一）
JavaScript 简介要学习的人可以到W3School http://www.w3school.com.cn/b.asp JavaScript 是世界上最流行的编程语言. 这门语言可用于 HT ...
python爬虫—爬取百度百科数据
爬虫框架:开发平台 centos6.7 根据慕课网爬虫教程编写代码片区百度百科url,标题,内容分为4个模块:html_downloader.py 下载器 html_outputer.py 爬取数 ...
【ps】裁剪图片的某一块
最近做我趣的专辑学了一点小技巧,我们切图的时候可能需要改变图片上的文字.需要图片某一部分的颜色块进行覆盖等.这时候就需要下面的技巧啦: 第一步:点v,变箭头选中图片第二部:点M,变矩形框,划出需要裁 ...
SQL Server Replication 中关于视图的点滴
在服务器A数据库TEST新建了一个本地发布(Local Publications)RPL_GES_MIS_TEST,在服务器B数据库RPL_TEST上创建了一个本地订阅(Local Subscript ...
【转】document.cookie详解
设置cookie 每个cookie都是一个名/值对,可以把下面这样一个字符串赋值给document.cookie: document.cookie="userId=828"; 如果 ...
Terminate Instance 操作详解 - 每天5分钟玩转 OpenStack（33）
本节通过日志详细分析 Nova Terminate 操作. Terminate 操作就是删除 instance,下面是 terminate instance 的流程图向 nova-api 发送请求 ...
UNIX文件的权限之“设置用户ID位”
用stat函数可以获取一个文件的状态信息,原型是这样的: int stat(const char *path, struct stat *buf); 其中结构体stat的结构: struct stat ...
shell parameter expansitions
type testtype -a test math calculate:echo $((1+2*3)) parameter expansition:bash-4 introduced feature ...
hdfs 通过NFSV3 加载至本地目录
常常会有这种需求,把HDFS的目录MOUNT到本地目录,然后方便使用LINUX下面的命令直接操作. FUSE也可以达到同样的效果,但是配置比较复杂,新的HADOOP版本都建议使用NFS3来完成这个需求 ...

c#使用正则表达式抓取a标签的链接和innerhtml

c#使用正则表达式抓取a标签的链接和innerhtml的更多相关文章

随机推荐

热门专题