selenium&phantomjs实战--漫话爬取

为什么直接保存当前网页，而不是找到所有漫话链接，再有针对性的保存图片？

因为防盗链的原因，当直接保存漫话链接图片时，只能保存到防盗链的图片。

#!/usr/bin/env python

# _*_ coding: utf-8 _*_

# __author__ ='kong'

from selenium import webdriver

import os

import time

class GetCartoon(object):

    def __init__(self):

        self.startUrl = "http://www.1kkk.com/ch1-406302/"

        self.browser = self.getBrowser()

        self.saveCartoon()

    def getBrowser(self):

        browser = webdriver.PhantomJS()

        try:

            browser.get(self.startUrl)

            browser.implicitly_wait(5)

            print "url get ok"

        except:

            print "url get failed"

        return browser

    def createDir(self,fileName):

        if os.path.exists(fileName):

            print "dir is exists"

        else:

            os.makedirs(fileName)

            print "dir create ok"

    def saveCartoon(self):

        fileName = self.browser.title.split("_")[0]

        self.createDir(fileName)

        os.chdir(fileName)

        # 总共26页

        sumPage = int(self.browser.find_element_by_xpath("//font[@class='zf40']/span[2]").text)

        i = 1

        while i <= sumPage:

            imgName = str(i)+'.png'

            # html页面保存成图片

            self.bowser.get_screenshot_as_file(imgName)

            i += 1

            # 点击下一页按扭

            NextTag = self.browser.find_element_by_id("next")

            NextTag.click()

            # 3秒后执行保存图片操作

            time.sleep(3)

        self.browser.close()

if __name__ == '__main__':

    GC = GetCartoon()

selenium&phantomjs实战--漫话爬取的更多相关文章

使用Selenium&PhantomJS的方式爬取代理
前面已经爬取了代理,今天我们使用Selenium&PhantomJS的方式爬取快代理 :快代理 - 高速http代理ip每天更新. 首先分析一下快代理,如下使用谷歌浏览器,检查,发现每个代理 ...
使用selenium+phantomJS实现网页爬取
有些网站反爬虫技术设计的非常好,很难采用WebClient等技术进行网页信息爬取,这时可以考虑采用selenium+phantomJS模拟浏览器(其实是真实的浏览器)的方式进行信息爬取.之前一直使用的 ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
针对源代码和检查元素不一致的网页爬虫——利用Selenium、PhantomJS、bs4爬取12306的列车途径站信息
整个程序的核心难点在于上次豆瓣爬虫针对的是静态网页,源代码和检查元素内容相同:而在12306的查找搜索过程中,其网页发生变化(出现了查找到的数据),这个过程是动态的,使得我们在审查元素中能一一对应看到 ...
分布式爬虫系统设计、实现与实战：爬取京东、苏宁易购全网手机商品数据+MySQL、HBase存储
http://blog.51cto.com/xpleaf/2093952 1 概述在不用爬虫框架的情况,经过多方学习,尝试实现了一个分布式爬虫系统,并且可以将数据保存到不同地方,类似MySQL.HB ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
Python实训day07pm【Selenium操作网页、爬取数据-下载歌曲】
练习1-爬取歌曲列表任务:通过两个案例,练习使用Selenium操作网页.爬取数据.使用无头模式,爬取网易云的内容. ''' 任务:通过两个案例,练习使用Selenium操作网页.爬取数据. 使用无 ...
爬虫实例——爬取淘女郎相册（通过selenium、PhantomJS、BeautifulSoup爬取）
环境操作系统:CentOS 6.7 32-bit Python版本:2.6.6 第三方插件 selenium PhantomJS BeautifulSoup 代码 # -*- coding: utf ...
[Python爬虫] 之三十一：Selenium +phantomjs 利用 pyquery抓取消费主张信息
一.介绍本例子用Selenium +phantomjs爬取央视栏目(http://search.cctv.com/search.php?qtext=消费主张&type=video)的信息(标 ...

随机推荐

go语言接受者的选取
何时使用值类型 1.如果接受者是一个 map,func 或者 chan,使用值类型(因为它们本身就是引用类型).2.如果接受者是一个 slice,并且方法不执行 reslice 操作,也不重新分配内存 ...
Beta阶段——Scrum 冲刺博客第四天
一.当天站立式会议照片一张二.每个人的工作 (有work item 的ID),并将其记录在码云项目管理中昨天已完成的工作完成对question界面的制作,完善随机出题界面,能够流畅的切换下一题与 ...
office中把标题之后的空格去掉
调整列表缩进--编号之后不特别标注可以把标题之后的空格去掉
linux命令新建文件
在命令行输入vi filename就创建了一个叫filename的文件了,如果存在就打开了. 进入vi以后,输入内容,最后按一下esc,再按冒号,输入wq就保存退出了. 新建一个文本文件 vi New ...
自己写一个java的mvc框架吧（一）
自己写一个mvc框架吧(一) 目录自己写一个mvc框架吧(一) 自己写一个mvc框架吧(二) 自己写一个mvc框架吧(三) 自己写一个mvc框架吧(四) 写之前的一些废话废话 1 (总是要先随便说 ...
Linux下socket通信和多线程
服务端socket流程:socket() –> bind() –> listen() –> accept() –> 读取.发送信息(recv,send等) 客户端socket流 ...
hdu 1023 卡特兰数《大数》java
Train Problem II Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) ...
IDEA 中edit configurations加号找不到tomcat server
前言:在本机 idea 中搭建 springMVC 项目,正准备配置 Tomcat 时,发现没有 tomcat server 选项,而我的 idea 是有这个插件的,所以解决问题的方案应该是另一个地方 ...
[h5+api]移动app开发用到的微信好友,朋友圈,qq好友,新浪微博分享合集
适用H5+环境,能够使用plus方法的移动app中 /** * Created by HBuilder. * User: tyx * Date: 2018-11-21 * Time: 17:28:51 ...
使用sshkey连接github等服务器
平常使用git时因为用了https的方式,所以经常要输入密码,其实我们是可以通过这个公钥连接github git.oschina.net等服务器,这样可以省去了我们输入用户名密码这么一个步骤了. 1. ...

selenium&phantomjs实战--漫话爬取

selenium&phantomjs实战--漫话爬取的更多相关文章

随机推荐

热门专题