C#使用xpath简单爬取网站的内容
public static void Get()
{
// string xpathtrI = "//*[@id='classify-list']/dl/dd/a/cite/span/i";
#region 获取首页的分类 ////主页的html地址
//string urlHome = "http://www.qidian.com/";
//HtmlWeb web = new HtmlWeb();
//HtmlAgilityPack.HtmlDocument htmlDoc = web.Load(urlHome);
////创建html的节点
//HtmlNode rootNode1 = htmlDoc.DocumentNode;
//string xpathtrA = "//*[@id='classify-list']/dl/dd";
//HtmlNodeCollection classList = rootNode1.SelectNodes(xpathtrA);
//List<string> listINode = new List<string>();
//foreach (HtmlNode item in classList)
//{
// //获取分类
// string inode = item.SelectSingleNode("//a/cite/span/i").InnerText;
// listINode.Add(inode);
//} #endregion #region 分类及明细 //string urlDetail = "http://xuanhuan.qidian.com/";
//List<string> urlList = new List<string>();
//urlList.Add("http://xuanhuan.qidian.com/");
//urlList.Add("http://qihuan.qidian.com/");
//urlList.Add("http://wuxia.qidian.com/");
//urlList.Add("http://xianxia.qidian.com/");
//urlList.Add("http://dushi.qidian.com/");
//urlList.Add("http://zhichang.qidian.com/");
//urlList.Add("http://junshi.qidian.com/");
//urlList.Add("http://lishi.qidian.com/");
//urlList.Add("http://youxi.qidian.com/");
//urlList.Add("http://tiyu.qidian.com/");
//urlList.Add("http://kehuan.qidian.com/");
//urlList.Add("http://lingyi.qidian.com/");//foreach (string url in urlList)
//{
// HtmlAgilityPack.HtmlDocument htmlDetail = web.Load(url);
// HtmlNode rootNode2 = htmlDetail.DocumentNode;
// string a = "//*[@class='book-info']";
// HtmlNodeCollection classList2 = rootNode2.SelectNodes(a);
// List<string> listINode2 = new List<string>();
// foreach (HtmlNode item in classList2)
// {
// //获取分类
// string inode = item.InnerHtml;
// listINode2.Add(inode);
// }
//} #endregion #region 文章内容 HtmlWeb web = new HtmlWeb();
string u = "http://read.qidian.com/chapter/zOGI9RYmNdFhO--gcH8iFg2/h3iHSEH1cSpMs5iq0oQwLQ2";
HtmlAgilityPack.HtmlDocument htmlDocment = web.Load(u);
//创建html的节点
HtmlNode htmlNode = htmlDocment.DocumentNode;
string x = "//*[@class='read-content j_readContent']";
HtmlNode htmlNodeP = htmlNode.SelectSingleNode(x);
string htmlD = htmlNodeP.InnerText; #endregion }
只是拿一个例子而已。
C#使用xpath简单爬取网站的内容的更多相关文章
- Python入门,以及简单爬取网页文本内容
最近痴迷于Python的逻辑控制,还有爬虫的一方面,原本的目标是拷贝老师上课时U盘的数据.后来发现基础知识掌握的并不是很牢固.便去借了一本Python基础和两本爬虫框架的书.便开始了自己的入坑之旅 言 ...
- Python简单爬取Amazon图片-其他网站相应修改链接和正则
简单爬取Amazon图片信息 这是一个简单的模板,如果需要爬取其他网站图片信息,更改URL和正则表达式即可 1 import requests 2 import re 3 import os 4 de ...
- requests 使用免费的代理ip爬取网站
import requests import queue import threading from lxml import etree #要爬取的URL url = "http://xxx ...
- Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言 介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
- Java - XPath解析爬取内容
code { margin: 0; padding: 0; white-space: pre; border: none; background: transparent; } pre { backg ...
- Golang+chromedp+goquery 简单爬取动态数据
目录 Golang+chromedp+goquery 简单爬取动态数据 Golang的安装 下载golang软件 解压golang 配置golang 重新导入配置 chromedp框架的使用 实际的代 ...
- 使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格. 搜索了一下,python的scrapy是一个不错 ...
- requests+xpath+map爬取百度贴吧
# requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...
- 利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...
随机推荐
- Node_初步了解(4)小爬虫
var http=require('http'); var cheerio=require('cheerio'); var url='http://www.cnblogs.com/Lwd-linux/ ...
- 【动态规划】Column Addition @ICPC2017Tehran/upcexam5434
时间限制: 1 Sec 内存限制: 128 MB 题目描述 A multi-digit column addition is a formula on adding two integers writ ...
- .ipynb格式文件
ipynb,即ipython notebook,需要用ipython notebook打开,IPython Notebook是web based IPython封装,但是可以展现富文本,使得整个工作可 ...
- ASP.NET WebAPI数据传输安全HTTPS实战项目演练
一.课程介绍 HTTPS是互联网 Web 大势所趋,各大网站都已陆续部署了 HTTPS . 全站HTTPS时代,加密用户与网站间的交互访问,在客户端浏览器和Web服务器之间建立安全加密通道,一般情况 ...
- SeaweedFS的配置使用
SeaweedFS是一个简单并且高度可扩展的分布式文件系统,可以存储数十亿的文件并且快速获得文件,特别适合于有效处理小文件,这里我们简称为weed,weed的主节点不管理文件元数据而是仅管理文件卷,这 ...
- linux平台下Tomcat的安装与优化
Tomcat 服务器是一个免费的开放源代码的Web 应用服务器,属于轻量级应用服务器,在中小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试JSP 程序的首选.对于一个初学者来说,可以这样 ...
- Initialize a vector in C++ (5 different ways)
https://www.geeksforgeeks.org/initialize-a-vector-in-cpp-different-ways/ Following are different way ...
- SpringBoot企业级框架
Zebra 微服务框架 springBoot GitHub地址:https://github.com/ae6623/Zebra OSCGit地址:http://git.oschina.net/ae66 ...
- 小程序学习笔记三:页面文件详解之视图层WXML、WXS、WXSS文件
视图层:Pages主要有 wxml页面文件和模板文件.wxs脚本文件.wxss样式文件:component是抽取出来的业务单元,同样拥有wxml页面文件和模板文件.wxs脚本文件.wxss样式文件 ...
- m3u8转码
ffmpeg -i input.mp4 -c:v libx264 -c:a aac -strict -2 -f hls -hls_list_size 0 -hls_time 5 output.m3u8