c# 抓取Web网页数据分析

通过程序自动的读取其它网站网页显示的信息，类似于爬虫程序。比方说我们有一个系统，要提取BaiDu网站上歌曲搜索排名。分析系统在根据得到的数据进行数据分析。为业务提供参考数据。

为了完成以上的需求，我们就需要模拟浏览器浏览网页，得到页面的数据在进行分析，最后把分析的结构，即整理好的数据写入数据库。那么我们的思路就是：
　　1、发送HttpRequest请求。
　　2、接收HttpResponse返回的结果。得到特定页面的html源文件。
　　3、取出包含数据的那一部分源码。
　　4、根据html源码生成HtmlDocument，循环取出数据。
　　5、写入数据库。
程序如下：　　

//根据Url地址得到网页的html源码

private string GetWebContent(string Url)

{

string strResult="";

try

{

HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url);

　　　　//声明一个HttpWebRequest请求

request.Timeout = 30000;

//设置连接超时时间

request.Headers.Set("Pragma", "no-cache");

HttpWebResponse response = (HttpWebResponse)request.GetResponse();

Stream streamReceive = response.GetResponseStream();

Encoding encoding = Encoding.GetEncoding("GB2312");

StreamReader streamReader = new StreamReader(streamReceive, encoding);

strResult = streamReader.ReadToEnd();

}

catch

{

MessageBox.Show("出错");

}

return strResult;

}

为了使用HttpWebRequest和HttpWebResponse，需填名字空间引用

　　using System.Net;

以下是程序具体实现过程：

private void button1_Click(object sender, EventArgs e)

{

//要抓取的URL地址

string Url = "http://list.mp3.baidu.com/topso/mp3topsong.html?id=1#top2";

//得到指定Url的源码

　　　string strWebContent = GetWebContent(Url);

richTextBox1.Text = strWebContent;

　　　//取出和数据有关的那段源码

int iBodyStart = strWebContent.IndexOf("<body", 0);

int iStart = strWebContent.IndexOf("歌曲TOP500", iBodyStart);

int iTableStart = strWebContent.IndexOf("<table", iStart);

int iTableEnd = strWebContent.IndexOf("</table>", iTableStart);

string strWeb = strWebContent.Substring(iTableStart, iTableEnd - iTableStart + 8);

//生成HtmlDocument

　　　WebBrowser webb = new WebBrowser();

webb.Navigate("about:blank");

HtmlDocument htmldoc = webb.Document.OpenNew(true);

htmldoc.Write(strWeb);

HtmlElementCollection htmlTR = htmldoc.GetElementsByTagName("TR");

foreach (HtmlElement tr in htmlTR)

{

string strID = tr.GetElementsByTagName("TD")[0].InnerText;

string strName = SplitName(tr.GetElementsByTagName("TD")[1].InnerText, "MusicName");

string strSinger = SplitName(tr.GetElementsByTagName("TD")[1].InnerText, "Singer");

strID = strID.Replace(".", "");

//插入DataTable

AddLine(strID, strName, strSinger,"0");

string strID1 = tr.GetElementsByTagName("TD")[2].InnerText;

string strName1 = SplitName(tr.GetElementsByTagName("TD")[3].InnerText, "MusicName");

string strSinger1 = SplitName(tr.GetElementsByTagName("TD")[3].InnerText, "Singer");

//插入DataTable

strID1 = strID1.Replace(".", "");

AddLine(strID1, strName1, strSinger1,"0");

string strID2 = tr.GetElementsByTagName("TD")[4].InnerText;

string strName2 = SplitName(tr.GetElementsByTagName("TD")[5].InnerText, "MusicName");

string strSinger2 = SplitName(tr.GetElementsByTagName("TD")[5].InnerText, "Singer");

//插入DataTable

strID2 = strID2.Replace(".", "");

AddLine(strID2, strName2, strSinger2,"0");

}

//插入数据库

InsertData(dt);

　　　

dataGridView1.DataSource = dt.DefaultView;

}

c# 抓取Web网页数据分析的更多相关文章

scrapy和selenium结合抓取动态网页
1.安装python (我用的是2.7版本的) 2.安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 ...
抓取https网页时，报错sun.security.validator.ValidatorException: PKIX path building failed 解决办法
抓取https网页时,报错sun.security.validator.ValidatorException: PKIX path building failed 解决办法原因是https证书问题, ...
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题
注意:此方法跟之前保存成json文件的写法有少许不同之处,注意区分情境再现: 使用scrapy抓取中文网页,得到的数据类型是unicode,在控制台输出的话也是显示unicode,如下所示 {'au ...
利用wget 抓取网站网页包括css背景图片
利用wget 抓取网站网页包括css背景图片 wget是一款非常优秀的http/ftp下载工具,它功能强大,而且几乎所有的unix系统上都有.不过用它来dump比较现代的网站会有一个问题:不支持c ...
使用scrapy-selenium, chrome-headless抓取动态网页
在使用scrapy抓取网页时, 如果遇到使用js动态渲染的页面, 将无法提取到在浏览器中看到的内容. 针对这个问题scrapy官方给出的方案是scrapy-selenium, 这是一个把sel ...
python抓取中文网页乱码通用解决方法
注:转载自http://www.cnpythoner.com/ 我们经常通过python做采集网页数据的时候,会碰到一些乱码问题,今天给大家分享一个解决网页乱码,尤其是中文网页的通用方法. 首页我们需 ...

随机推荐

OPTIMIZE TABLE的作用--转载
当您的库中删除了大量的数据后,您可能会发现数据文件尺寸并没有减小.这是因为删除操作后在数据文件中留下碎片所致.Discuz! 在系统数设置界面提供了数据表优化的功能,可以去除删除操作后留下的数据文件 ...
[Appium] 使用Appium过程中遇到的各种坑
以下问题都是以ios为背景: 1. 问题: Case: 在页面S1上,点击元素A后,判读B元素是否出现. Detail:一开始通过Appium Inspector, 可以找到B元素,所以直接取该元素的 ...
VR全景智慧城市-720全景项目行业应用
VR虚拟现实.VR全景概念已成为科技发展热议的焦点.在这样的市场大环境下,全景智慧城市做为一家对大众创新万众创业和用户体验为理念的VR全景城市化信息搜素平台平地而生成为的VR行业领跑者,致力VR全景V ...
树莓派make 360wifi2报错
输入make命令后报错 make: *** /lib/modules/3.10.25+/build: No such file or directory. Stop. 系统缺少编译模块所需要的内核头文 ...
Spring：No bean named 'beanScope' is defined
初学Spring,“No bean named 'beanScope' is defined”这个问题困扰了我好几个小时,查资料无果后,重写好几遍代码后发现问题居然是配置文件不能放在包里...要放在s ...
WampServer服务中MySQL无法正常启动解决方案
打开wampserver->mysql->my.ini,添加或修改innodb_force_recovery = 1 然后重启所有服务就大功告成了!
在HttpClient请求的时候，返回结果解析时出现java.io.IOException: Attempted read from closed stream. 异常，解决
原因是EntityUtils.toString(HttpEntity)方法被使用了多次.所以每个方法内只能使用一次.
dubbox新特性介绍
dubbx是当当网对原阿里dubbo2.x的升级,并且兼容原有的dubbox.其中升级了zookeeper和spring版本,并且支持restfull风格的远程调用. dubbox git地址: h ...
android开发时gen和bin目录的SVN管理(转)
转自:http://www.cnblogs.com/brucenan/archive/2012/02/23/2364702.html android在eclipse下的项目,会生成gen和bin两个目 ...
MySQL日期数据类型、时间类型使用总结
MySQL日期数据类型.时间类型使用总结 MySQL日期数据类型.MySQL时间类型使用总结,需要的朋友可以参考下. MySQL 日期类型:日期格式.所占存储空间.日期范围比较. 日期类型 ...

c# 抓取Web网页数据分析

c# 抓取Web网页数据分析的更多相关文章

随机推荐

热门专题