使用selenium爬虫抓取数据

写在前面

本来这篇文章该几个月前写的，后来忙着忙着就给忘记了。
ps:事多有时候反倒会耽误事。
几个月前，记得群里一朋友说想用selenium去爬数据，关于爬数据，一般是模拟访问某些固定网站，将自己关注的信息进行爬取，然后再将爬出的数据进行处理。
他的需求是将文章直接导入到富文本编辑器去发布，其实这也是爬虫中的一种。
其实这也并不难，就是UI自动化的过程，下面让我们开始吧。

准备工具/原料

1、java语言
2、IDEA开发工具
3、jdk1.8
4、selenium-server-standalone（3.0以上版本）

步骤

1、分解需求：

需求重点主要是要保证原文格式样式都保留：
将要爬取文章,全选并复制
将复制后的文本，粘贴到富文本编辑器中即可

2、代码实现思路：

键盘事件模拟CTRL+A全选
键盘事件模拟CTRL+C复制
键盘事件模拟CTRL+V粘贴

3、实例代码

import org.junit.AfterClass;

import org.junit.BeforeClass;

import org.junit.Test;

import org.openqa.selenium.By;

import org.openqa.selenium.WebDriver;

import org.openqa.selenium.chrome.ChromeDriver;

import java.awt.*;

import java.awt.event.KeyEvent;

import java.util.concurrent.TimeUnit;

/**

 * @author rongrong

 * Selenium模拟访问网站爬虫操作代码示例

 */

public class Demo {

    private static WebDriver driver;

    static final int MAX_TIMEOUT_IN_SECONDS = 5;

    @BeforeClass

    public static void setUpBeforeClass() throws Exception {

        driver = new ChromeDriver();

        String url = "https://temai.snssdk.com/article/feed/index?id=6675245569071383053&subscribe=5501679303&source_type=28&content_type=1&create_user_id=34013&adid=__AID__&tt_group_id=6675245569071383053";

        driver.manage().window().maximize();

        driver.manage().timeouts().implicitlyWait(MAX_TIMEOUT_IN_SECONDS, TimeUnit.SECONDS);

        driver.get(url);

    }

    @AfterClass

    public static void tearDownAfterClass() throws Exception {

        if (driver != null) {

            System.out.println("运行结束！");

            driver.quit();

        }

    }

    @Test

    public void test() throws InterruptedException {

        Robot robot = null;

        try {

            robot = new Robot();

        } catch (AWTException e1) {

            e1.printStackTrace();

        }

        robot.keyPress(KeyEvent.VK_CONTROL);

        robot.keyPress(KeyEvent.VK_A);

        robot.keyRelease(KeyEvent.VK_A);

        Thread.sleep(2000);

        robot.keyPress(KeyEvent.VK_C);

        robot.keyRelease(KeyEvent.VK_C);

        robot.keyRelease(KeyEvent.VK_CONTROL);

        driver.get("https://ueditor.baidu.com/website/onlinedemo.html");

        Thread.sleep(2000);

        driver.switchTo().frame(0);

        driver.findElement(By.tagName("body")).click();

        robot.keyPress(KeyEvent.VK_CONTROL);

        robot.keyPress(KeyEvent.VK_V);

        robot.keyRelease(KeyEvent.VK_V);

        robot.keyRelease(KeyEvent.VK_CONTROL);

        Thread.sleep(2000);

    }

}

写在后面

笔者并不是特别建议使用selenium做爬虫，原因如下：

速度慢:

每次运行爬虫都要打开一个浏览器，初始化还需要加载图片、JS渲染等等一大堆东西；

占用资源太多:

有人说，把换成无头浏览器，原理都是一样的，都是打开浏览器，而且很多网站会验证参数，如果对方看到你恶意请求访问，会办了你的请求，然后你又要考虑更换请求头的事情，事情复杂程度不知道多了多少，还得去改代码，麻烦死了。

对网络的要求会更高:

加载了很多可能对您没有价值的补充文件（如css，js和图像文件）。与真正需要的资源（使用单独的HTTP请求）相比，这可能会产生更多的流量。

使用selenium爬虫抓取数据的更多相关文章

C#使用Selenium+PhantomJS抓取数据
本文主要介绍了C#使用Selenium+PhantomJS抓取数据的方法步骤,具有很好的参考价值,下面跟着小编一起来看下吧手头项目需要抓取一个用js渲染出来的网站中的数据.使用常用的httpclie ...
基于Thinkphp5+phpQuery 网络爬虫抓取数据接口,统一输出接口数据api
TP5_Splider 一个基于Thinkphp5+phpQuery 网络爬虫抓取数据接口统一输出接口数据api.适合正在学习Vue,AngularJs框架学习开发demo,需要接口并保证接口不跨 ...
selenium+chrome抓取数据，运行js
某些特殊的网站需要用selenium来抓取数据,比如用js加密的,破解难度大的 selenium支持linux和win,前提是必须安装python3,环境配置好抓取代码: #!/usr/bin/en ...
Node.js爬虫抓取数据 -- HTML 实体编码处理办法
cheerio DOM化并解析的时候 1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现 2.如果使用了 .html()方法,则很多情况下(多数是非英文的时候)都会出现,这时, ...
Java 实现 HttpClients+jsoup，Jsoup，htmlunit，Headless Chrome 爬虫抓取数据
最近整理一下手头上搞过的一些爬虫,有HttpClients+jsoup,Jsoup,htmlunit,HeadlessChrome 一,HttpClients+jsoup,这是第一代比较low,很快就 ...
Nodejs实现爬虫抓取数据
开始之前请先确保自己安装了Node.js环境,还没有安装的的童鞋请自行百度安装教程...... 1.在项目文件夹安装两个必须的依赖包 npm install superagent --save-dev ...
python爬虫抓取数据
URL管理器实现方式:1. 内存python内存待爬取URL集合:set()已爬取URL集合:set() 2. 关系数据库MySQLurls(url, is_crawled) 3. 缓存数据库(高性能 ...
[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据
接着上一遍,在用Selenium+phantomjs 抓取数据过程中发现,有时候抓取不到,所以又测试了用Selenium+浏览器驱动的方式:具体代码如下: #coding=utf-8import os ...
[Python爬虫] 之八：Selenium +phantomjs抓取微博数据
基本思路:在登录状态下,打开首页,利用高级搜索框输入需要查询的条件,点击搜索链接进行搜索.如果数据有多页,每页数据是20条件,读取页数然后循环页数,对每页数据进行抓取数据. 在实践过程中发现一个问题 ...

随机推荐

《细说PHP》第四版样章第18章数据库抽象层PDO 4
18.4 创建PDO对象使用PDO在与不同数据库管理系统之间交互时,PDO对象中的成员的方法是统一各种数据库的访问接口,所以在使用PDO与数据库交互之前,首先要创建一个PDO对象.在通过构造方法创 ...
使用csv模块读写csv格式文件
import csv class HandleCsv: ''' csv文件处理类 ''' def __init__(self, filename): ''' 构造器 :param filename: ...
为何我建议1-3年的Java程序员仔细看看这篇文章
此文的目的是为了督促自己去不断学习,让自己有更明确的方向去提升自己.以技能树为基础,以面试要点为大纲,我觉得比抓住什么看什么要更有目的,更能坚持下去.世界瞬息万变,我们要时刻准备着.时刻提高着自己,才 ...
mysql常用命令杂记
查看版本 mysqladmin -uRootmaster -pRootmaster@777 versionselect version() 查看Log_bin是否开启 show variables l ...
[转]scala和RDD中的占位符"_"
1.通配符.类似Java中的*.如:import scala.math._ 2.作为一个整体.:_*,告诉编译器你希望将某个参数当作参数序列处理!例如val s = sum(1 to 5:_*)就是将 ...
LinqMethod 实现 LeftJoin
LinqMethod 实现 LeftJoin Intro 有时候我们想实现 leftJoin 但是 Linq 提供的 Join 相当于是 INNER JOIN,于是就打算实现一个 LeftJoin 的 ...
一段不错的iframe自适应的代码直接拿来用了
一段不错的iframe自适应的代码直接拿来用了 <?php echo " <!DOCTYPE html> <html lang='en'> <head&g ...
如何利用python爬取网易新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: LSGOGroup PS:如有需要Python学习资料的小伙伴可以 ...
易优CMS：arcview的基础用法
[基础用法] 名称:arcview 功能:获取单条文档数据语法: {eyou:arcview aid='文档ID'} <a href="{$field.arcurl}"&g ...
自学_HTML<一>
HTML HTML(HyperText Markup Language):描述网页长什么样子.有什么内容的一个文本.查看网页的描述内容(HTML)的方式:使用IE浏览器的话,在网页上点击右键,选择&q ...