.net core + headless chrome实现动态网页爬虫

一般的http请求库只能够抓取到网页的静态内容，如果想抓取通过js动态生成的内容可以使用没有gui的browser库，之前许多人会使用phantomjs作为headless browser，不过现在phantomjs团队已经宣布停止更新工作，需要一款替代库，于是这里就采用了headless chrome来进行动态网页内容抓取。

爬虫实现如下:

1.在.net core项目中引用如下nuget包

Selenium.WebDriver
Selenium.WebDriver.ChromeDriver

注意:引用Selenium.WebDriver.ChromeDriver后，会在代码目录中copy出chromedriver.exe文件，exe文件只能运行与windows平台下，所以我们需要去网站(http://chromedriver.storage.googleapis.com/index.html)下载当前最新的chromedriver程序linux版，并将程序添加到项目中，属性设置为复制到输出目录。这样导出的程序才可以在linux和windwos平台下都正常运行。

注意2:爬虫的宿主服务器中需要安装和chromedriver一致版本的chrome版本(两个都安装最新版就可以)

2.爬虫代码

class Program

    {

        static void Main(string[] args)

        {

            ChromeOptions op = new ChromeOptions();

            op.AddArguments("--headless");//开启无gui模式

            op.AddArguments("--no-sandbox");//停用沙箱以在Linux中正常运行

            ChromeDriver cd = new ChromeDriver(Environment.CurrentDirectory, op,TimeSpan.FromSeconds());

            cd.Navigate().GoToUrl("http://chart.icaile.com/sd11x5.php");

            string text = cd.FindElementById("fixedtable").Text;

            cd.Quit();

            Console.WriteLine(text);

            Console.Read();

        }

    }

.net core + headless chrome实现动态网页爬虫的更多相关文章

Python动态网页爬虫-----动态网页真实地址破解原理
参考链接:Python动态网页爬虫-----动态网页真实地址破解原理
在python使用selenium获取动态网页信息并用BeautifulSoup进行解析--动态网页爬虫
爬虫抓取数据时有些数据是动态数据,例如是用js动态加载的,使用普通的urllib2 抓取数据是找不到相关数据的,这是爬虫初学者在使用的过程中,最容易发生的情况,明明在浏览器里有相应的信息,但是在pyt ...
爬虫（三）通过Selenium + Headless Chrome爬取动态网页
一.Selenium Selenium是一个用于Web应用程序测试的工具,它可以在各种浏览器中运行,包括Chrome,Safari,Firefox 等主流界面式浏览器. 我们可以直接用pip inst ...
Selenium及Headless Chrome抓取动态HTML页面
一般的的静态HTML页面可以使用requests等库直接抓取,但还有一部分比较复杂的动态页面,这些页面的DOM是动态生成的,有些还需要用户与其点击互动,这些页面只能使用真实的浏览器引擎动态解析,Sel ...
Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页
1, 引言注释:上一篇<Python爬虫实战(3):安居客房产经纪人信息采集>,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功.本篇是针对动态网页的数据 ...
爬虫入门（三）——动态网页爬取：爬取pexel上的图片
Pexel上有大量精美的图片,没事总想看看有什么好看的自己保存到电脑里可能会很有用但是一个一个保存当然太麻烦了所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的 ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
Python 爬虫修养-处理动态网页
Python 爬虫修养-处理动态网页本文转自:i春秋社区 0x01 前言在进行爬虫开发的过程中,我们会遇到很多的棘手的问题,当然对于普通的问题比如 UA 等修改的问题,我们并不在讨论范围,既然要将 ...
爬虫---selenium动态网页数据抓取
动态网页数据抓取什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页 ...

随机推荐

【计算机网络】TCP的流量控制和拥塞控制
TCP的流量控制 1. 利用滑动窗口实现流量控制如果发送方把数据发送得过快,接收方可能会来不及接收,这就会造成数据的丢失.所谓流量控制就是让发送方的发送速率不要太快,要让接收方来得及接收. 利用滑动 ...
[leetcode]52. N-Queens II N皇后
The n-queens puzzle is the problem of placing n queens on an n×n chessboard such that no two queens ...
[leetcode]47. Permutations全排列(给定序列有重复元素)
Given a collection of numbers that might contain duplicates, return all possible unique permutations ...
游戏脚本编程文本token解析
一个数字的组成由以下几个字符正负号 + - 小数点 . 数字 0-9 比如 3 -3 3.13 -34.2234 但是符号和小数点不会出现多次那么识别流程用图来表示则是整数浮点数一 ...
netty2 案例:数据通信
在实际的项目中应该如何使用netty去通信呢? 一般来说,会有以下三种情况, 1长连接也就是服务器和客户端的通道一直不关闭,如果服务器性能非常好,并且在客户端数量不是很多的情况下,可以选择使用这种方 ...
lamp环境搭建(apache安装,mysql安装,php安装)
1.卸载系统内置的LAMP环境 1)卸载httpd服务(内置Apache) ① 使用rpm指令查询安装的httpd服务 ② 卸载httpd服务如果出现以上提示,代表系统默认不允许我们卸载软件,使用强 ...
Java集合：LinkedList源码解析
Java集合---LinkedList源码解析一.源码解析1. LinkedList类定义2.LinkedList数据结构原理3.私有属性4.构造方法5.元素添加add()及原理6.删除数据re ...
20175316 盛茂淞 2018-2019-2 《Java程序设计》实验一 Java开发环境的熟悉实验报告
20175316 盛茂淞 2018-2019-2 <Java程序设计>实验一 Java开发环境的熟悉实验报告一.实验要求 1.使用JDK编译.运行简单的Java程序: 2.使用IDEA ...
Linux环境部署项目引起Out of Memory Error: PermGen Space的解决方案
1. 背景前几天,在搭建项目时遇到到一些问题,现在整理记录一下. Linux环境:Red Hat Enterprise Linux Server release 6.4: # 查看命令cat /et ...
Unity3D连接本地或局域网MySQL数据库
准备工作: 1.打开 Unity3D 安装目录,到这个路径下 Editor > Data > Mono > lib > mono > 2.0 拷贝出下图的五个动态链接库, ...

.net core + headless chrome实现动态网页爬虫

.net core + headless chrome实现动态网页爬虫的更多相关文章

随机推荐

热门专题