asp.net mvc抓取微信文章里面所有的图片
/// <summary>
/// 下载指定URL下的所有图片
/// </summary>
public class WebPageImage
{
/// <summary>
/// 获取网页中全部图片
/// </summary>
/// <param name="url">网页地址</param>
/// <param name="charSet">网页编码,为空自动判断</param>
/// <returns>全部图片显示代码</returns>
public string getImages(string url, string charSet)
{
string s = getHtml(url, charSet);
return getPictures(s, url);
} /// <summary>
/// 获取网页中全部图片
/// </summary>
/// <param name="url">网址</param>
/// <returns>全部图片代码</returns>
public string getImages(string url)
{
return getImages(url, "");
} string doman(string url)
{
Uri u = new Uri(url);
return u.Host;
} /// <summary>
/// 获取网页内容
/// </summary>
/// <param name="url">网站地址</param>
/// <param name="charSet">目标网页的编码,如果传入的是null或者"",那就自动分析网页的编码 </param>
/// <returns></returns>
string getHtml(string url, string charSet)
{
WebClient myWebClient = new WebClient();
//创建WebClient实例myWebClient
// 需要注意的:
//有的网页可能下不下来,有种种原因比如需要cookie,编码问题等等
//这是就要具体问题具体分析比如在头部加入cookie
// webclient.Headers.Add("Cookie", cookie);
//这样可能需要一些重载方法。根据需要写就可以了 //获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。
myWebClient.Credentials = CredentialCache.DefaultCredentials;
//如果服务器要验证用户名,密码
//NetworkCredential mycred = new NetworkCredential(struser, strpassword);
//myWebClient.Credentials = mycred;
//从资源下载数据并返回字节数组。(加@是因为网址中间有"/"符号)
byte[] myDataBuffer = myWebClient.DownloadData(url);
string strWebData = Encoding.Default.GetString(myDataBuffer); //获取网页字符编码描述信息
Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
string webCharSet = charSetMatch.Groups[].Value.Replace("\"", "");
if (charSet == null || charSet == "")
charSet = webCharSet; if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)
strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);
return strWebData;
} string getPictures(string data, string url)
{
MatchCollection ps = Regex.Matches(data, @"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>");
string s = string.Empty;
for (int i = ; i < ps.Count; i++)
{
pictures p = new pictures(ps[i].Value, url);
s += p.GetHtml + "<br />" + Environment.NewLine;
}
return s;
} /// <summary>
/// 图片实体
/// 图片文件属性处理类
/// </summary>
public class pictures
{
public pictures(string strHtml, string baseUrl)
{
_html = strHtml;
Uri u1 = new Uri(baseUrl);
_doman = u1.Host;
_baseUrl = u1.Scheme + "://" + _doman;
setSrc();
} private string _html = string.Empty;
private string _baseUrl = string.Empty;
private string _doman = string.Empty; public string GetHtml
{
get { return _html; }
} public string Alt
{
get
{
return GetAttribute("alt")[];
}
} public string Src
{
get
{
string s = GetAttribute("src")[];
return s;
}
} /// <summary>
/// 根据基路径把相对路径转换成绝对径
/// </summary>
/// <param name="baseUrl">基础路径</param>
/// <param name="u">待转换的相对路径</param>
/// <returns>绝对路径</returns>
public string absUrl(string baseUrl, string u)
{
Uri ub = new Uri(baseUrl);
Uri ua = new Uri(ub, u);
return ua.AbsoluteUri;
} private void setSrc()
{
string strPattern = @"src[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?";
string src = GetAttribute("src")[].ToLower();
if (!(src.IndexOf("http://") == || src.IndexOf("https://") == ) && _baseUrl.Length > )
{
src = absUrl(_baseUrl, src);
string s = "src=\"" + src + "\"";
_html = Regex.Replace(_html, strPattern, s);
}
} /// <summary>
/// 获取HTML代码中标签属性
/// </summary>
/// <param name="strHtml">HTML代码</param>
/// <param name="strAttributeName">属性名称</param>
/// <returns>属性值集合</returns>
private string[] GetAttribute(string strAttributeName)
{
List<string> lstAttribute = new List<string>();
string strPattern = string.Format(
@"{0}[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?",
strAttributeName
);
MatchCollection matchs = Regex.Matches(_html, strPattern, RegexOptions.IgnoreCase);
foreach (Match m in matchs)
{
lstAttribute.Add(m.Value.Split('=')[].Replace("\"", "").Replace("'", ""));
}
if (lstAttribute.Count == ) lstAttribute.Add("");
return lstAttribute.ToArray();
} } /// <summary>
/// 取得HTML中所有图片的 URL。
/// </summary>
/// <param name="sHtmlText">HTML代码</param>
/// <returns>图片的URL列表</returns>
public string[] GetHtmlImageUrlList(string sHtmlText)
{
// 定义正则表达式用来匹配 img 标签
Regex regImg = new Regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase); // 搜索匹配的字符串
MatchCollection matches = regImg.Matches(sHtmlText);
int i = ;
string[] sUrlList = new string[matches.Count]; // 取得匹配项列表
foreach (Match match in matches)
sUrlList[i++] = match.Groups["imgUrl"].Value;
return sUrlList;
} }
调用的自己设定修改
/// <summary>
/// 一键下载
/// </summary>
/// <param name="url">url地址</param>
/// <returns></returns>
[HttpPost]
public ActionResult ImgDow(string url)
{
//System.Drawing.Bitmap img = null;
HttpWebRequest req;
HttpWebResponse res = null;
try
{
Common.WebPageImage model = new WebPageImage();
string v = model.getImages(url, "");
string[] Arrt = model.GetHtmlImageUrlList(v);
foreach (var item in Arrt)
{
string[] file = item.Split('/');
if(file.Count()>)
{
//string name = string.IsNullOrEmpty(System.IO.Path.GetFileName(file[0])) ? DateTime.Now.ToFileTime().ToString() : System.IO.Path.GetFileName(file[0]);
//System.Uri httpUrl = new System.Uri(item);
//req = (HttpWebRequest)(WebRequest.Create(httpUrl));
//req.Timeout = 180000; //设置超时值10秒
//req.Accept = "image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, */*";
//req.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)";
//req.Method = "GET";
//res = (HttpWebResponse)(req.GetResponse());
//Stream strea = res.GetResponseStream();
//img = new Bitmap(strea);//获取图片流
//string[] imgGS = file[3].Split('_');
//switch (imgGS[1])
//{
// case "gif":
// img.Save(@"E:/" + DateTime.Now.ToFileTime().ToString() + ".gif", ImageFormat.Gif);
// break;
// case "jpg":
// img.Save(@"E:/" + DateTime.Now.ToFileTime().ToString() + ".jpg");
// break;
// case "png":
// img.Save(@"E:/" + DateTime.Now.ToFileTime().ToString() + ".png");
// break;
// default:
// img.Save(@"E:/" + DateTime.Now.ToFileTime().ToString() + ".jpg");
// break;
//}
WebClient my = new WebClient();
byte[] mybyte;
mybyte = my.DownloadData(item);
MemoryStream ms = new MemoryStream(mybyte);
System.Drawing.Image img;
img = System.Drawing.Image.FromStream(ms);
img.Save(@"E:/" + DateTime.Now.ToFileTime().ToString() + ".gif", ImageFormat.Gif); //保存
System.Threading.Thread.Sleep();
}
} return WriteSuccess("");
}
catch (Exception ex)
{
return WriteError(ex.Message);
}
finally
{
//res.Close();
}
}
asp.net mvc抓取微信文章里面所有的图片的更多相关文章
- asp.net MVC 抓取微信文章数据(正文)
1.抓微信的正文主要是调用第三方的接口(https://market.aliyun.com/products/56928004/cmapi012134.html) using Newtonsoft.J ...
- asp.net mvc 抓取京东商城分类
555 asp.net mvc 抓取京东商城分类 URL:http://www.jd.com/allSort.aspx 效果: //后台代码 public ActionResult Get ...
- [Python爬虫] 之十五:Selenium +phantomjs根据微信公众号抓取微信文章
借助搜索微信搜索引擎进行抓取 抓取过程 1.首先在搜狗的微信搜索页面测试一下,这样能够让我们的思路更加清晰 在搜索引擎上使用微信公众号英文名进行“搜公众号”操作(因为公众号英文名是公众号唯一的,而中文 ...
- 使用redis所维护的代理池抓取微信文章
搜狗搜索可以直接搜索微信文章,本次就是利用搜狗搜搜出微信文章,获得详细的文章url来得到文章的信息.并把我们感兴趣的内容存入到mongodb中. 因为搜狗搜索微信文章的反爬虫比较强,经常封IP,所以要 ...
- 如何利用Python网络爬虫抓取微信朋友圈的动态(上)
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
- 利用Python网络爬虫抓取微信好友的签名及其可视化展示
前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化,利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所 ...
- 利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化
前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看.今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将 ...
- 如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例
前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...
- Asp.Net 之 抓取网页内容
一.获取网页内容——html ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest.WebResponse.StreamRea ...
随机推荐
- Apache Flink - 数据流容错机制
Apache Flink提供了一种容错机制,可以持续恢复数据流应用程序的状态.该机制确保即使出现故障,程序的状态最终也会反映来自数据流的每条记录(只有一次). 从容错和消息处理的语义上(at leas ...
- jmeter 常用插件
一.下载安装及使用 下载地址:https://jmeter-plugins.org/install/Install/ 安装:下载后文件为plugins-manager.jar格式,将其放入jmeter ...
- 如何计算一个C/C++程序运行时间
前两天要计算一个用C++实现的算法运行时间,就用了clock()这个函数.程序大体上如下: clock_t start,end; start = clock(); /*my code*/ end = ...
- Mininet系列实验(四):基于Mininet测量路径的损耗率
1 实验目的 熟悉Mininet自定义拓扑脚本的编写与损耗率的设定: 熟悉编写POX脚本,测量路径损耗速率 2 实验原理 在SDN环境中,控制器可以通过对交换机下发流表操作来控制交换机的转发行为,此外 ...
- pecl和pear 的区别和联系
Pear:是PHP的扩展代码包,所有的扩展均以PHP代码的形式出现,功能强大,安装简单,甚至可以改改就用.使用的时候,要在代码中进行Include才能够使用. Pecl:是PHP的标准扩展,可以补充实 ...
- 分享一款颜色神器ColorSchemer Studio
ColorSchemer Studio是一款专业配色软件,网页设计或平面设计师必备工具,和ColorPix V1.2 屏幕取色同属一个公司佳作,使用ColorSchemer Studio吸取屏幕任一色 ...
- 【转载】 AutoML总结
原文地址: https://jinxin0924.github.io/2017/12/21/AutoML%E6%80%BB%E7%BB%93/ Posted by JxKing on December ...
- Oracle查看表结构的方法【我】
Oracle查看表结构的方法 方法一: 在命令窗口下输入 DESC table_name; 回车 方法二: 在sql窗口下 SELECT DBMS_METADATA.GET_ ...
- 23Flutter FloatingActionButton实现类似闲鱼App底部导航凸起按钮:
/* 一.Flutter FloatingActionButton介绍 FloatingActionButton简称FAB,可以实现浮动按钮,也可以实现类型闲鱼app的底部凸起导航. child:子视 ...
- myeclipse打开jsp后卡死的问题详解
myeclipse打开jsp后卡死的问题详解 1,打开 Window -> Preferences -> General -> Editors -> File Associ ...