scrapy 爬取斗罗大陆漫画

# -*- coding: utf-8 -*-

import scrapy

import json

import os

import urllib

import time

from scrapy.http import Request

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from selenium.common.exceptions import (

    TimeoutException,

    WebDriverException,

    NoSuchElementException,

    StaleElementReferenceException

)

def gen_browser(driver_path):

    '''实例化一个driver'''

    options = webdriver.ChromeOptions()

    options.add_argument("--headless")

    options.add_argument('--no-sandbox')

    options.add_argument('--disable-gpu')

    options.add_argument('--ignore-certificate-errors')

    options.add_argument('disable-infobars')

    options.add_argument("--disable-plugins-discovery")

    user_agent = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"

    options.add_argument('user-agent="{0}"'.format(user_agent))

    # ############### 专业造假 ***************************

    def send(driver, cmd, params={}):

        '''

        向调试工具发送指令

        from: https://stackoverflow.com/questions/47297877/to-set-mutationobserver-how-to-inject-javascript-before-page-loading-using-sele/47298910#47298910

        '''

        resource = "/session/%s/chromium/send_command_and_get_result" % driver.session_id

        url = driver.command_executor._url + resource

        body = json.dumps({'cmd': cmd, 'params': params})

        response = driver.command_executor._request('POST', url, body)

        if response['status']:

            raise Exception(response.get('value'))

        return response.get('value')

    def add_script(driver, script):

        '''在页面加载前执行js'''

        send(driver, "Page.addScriptToEvaluateOnNewDocument", {"source": script})

    # 给 webdriver.Chrome 添加一个名为 add_script 的方法

    webdriver.Chrome.add_script = add_script  # 这里（webdriver.Chrome）可能需要改，当调用不同的驱动时

    # *************** 专业造假 ###################

    browser = webdriver.Chrome(

        executable_path=driver_path,

        chrome_options=options

    )

    # ################## 辅助调试 *********************

    existed = {

        'executor_url': browser.command_executor._url,  # 浏览器可被远程连接调用的地址

        'session_id': browser.session_id  # 浏览器会话ID

    }

    print(existed)

    # ********************* 辅助调试 ##################

    # ############### 专业造假 ***************************

    browser.add_script("""

    Object.defineProperty(navigator, 'webdriver', {

        get: () => false,

    });

    window.navigator.chrome = {

        runtime: {},

    };

    Object.defineProperty(navigator, 'languages', {

        get: () => ['zh-CN', 'zh']

    });

    Object.defineProperty(navigator, 'plugins', {

        get: () => [0, 1, 2],

    });

    """)

    # *************** 专业造假 ###################

    return browser

class XuexingSpider(scrapy.Spider):

    name = 'xuexing'

    allowed_domains = ['www.manhuatai.com']

    start_urls = ['https://www.mh1234.com/wap/comic/9683/262424.html']

    def parse(self, response):

        driver_path = self.settings.get('DRIVER_PATH')

        # import ipdb; ipdb.set_trace()

        browser = gen_browser(driver_path)

        # 获取当前章节名

        next_url = response.url

        i = 0

        while bool(next_url):

            i += 1

            print(str(i).center(60, '*'))

            next_url = self.get_item(browser, next_url)

    def get_item(self, browser, url=None):

        if url is not None:

            browser.get(url)  # 打开页面

        van1 = browser.find_elements_by_xpath('//a[@class="BarTit"]')

        van = van1[0].text.split('(')[0].strip()

        if '/' in van:

            van = '-'.join(van.split('/'))

        # import ipdb; ipdb.set_trace()

        if not os.path.exists('斗罗大陆'):

            os.mkdir('斗罗大陆')

        if not os.path.exists(van):

            os.mkdir(r'斗罗大陆/{0}'.format(van))

        m = 0

        _url = browser.find_element_by_xpath('//*[@id="qTcms_pic"]')

        img_url = _url.get_attribute('src')

        # 保存图片到指定路径

        if img_url != None:

            m += 1

            #保存图片数据

            data = urllib.request.urlopen(img_url).read()

            f = open('斗罗大陆/{0}/{1}.jpg'.format(van, m), 'wb')

            f.write(data)

            f.close()

        ye = int(browser.find_element_by_xpath('//*[@id="k_total"]').text)

        for yei in range(1, ye):

            time.sleep(0.5)

            browser.find_element_by_xpath('//*[@id="action"]/ul/li[3]/a').click()

            _url = browser.find_element_by_xpath('//*[@id="qTcms_pic"]')

            img_url = _url.get_attribute('src')

            # 保存图片到指定路径

            if img_url != None:

                m += 1

                #保存图片数据

                data = urllib.request.urlopen(img_url).read()

                f = open('斗罗大陆/{0}/{1}.png'.format(van, m), 'wb')

                f.write(data)

                f.close()

        xia = browser.find_element_by_xpath('//*[@id="action"]/ul/li[4]/a').get_attribute('href')

        return xia

scrapy 爬取斗罗大陆漫画的更多相关文章

Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...
scrapy爬取极客学院全部课程
# -*- coding: utf-8 -*- # scrapy爬取极客学院全部课程 import scrapy from pyquery import PyQuery as pq from jike ...
scrapy爬取全部知乎用户信息
# -*- coding: utf-8 -*- # scrapy爬取全部知乎用户信息 # 1:是否遵守robbots_txt协议改为False # 2: 加入爬取所需的headers: user-ag ...
Scrapy爬取Ajax（异步加载）网页实例——简书付费连载
这两天学习了Scrapy爬虫框架的基本使用,练习的例子爬取的都是传统的直接加载完网页的内容,就想试试爬取用Ajax技术加载的网页. 这里以简书里的优选连载网页为例分享一下我的爬取过程. 网址为: ht ...
Scrapy爬取静态页面
Scrapy爬取静态页面安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可终端下: #python2 sudo p ...
用scrapy爬取京东的数据
本文目的是使用scrapy爬取京东上所有的手机数据,并将数据保存到MongoDB中. 一.项目介绍主要目标 1.使用scrapy爬取京东上所有的手机数据 2.将爬取的数据存储到MongoDB 环境 ...

随机推荐

Linux 信号signal处理函数
转自:http://www.cnblogs.com/taobataoma/archive/2007/08/30/875662.html alarm(设置信号传送闹钟) 相关函数 signal,slee ...
[Unity优化]批处理03：静态批处理
原理: 运行时,把需要进行静态批处理的网格合并到一个新的网格中.虽然只进行一次合并操作,但是会占用更多的内存来存储合并后的网格,并且被静态批处理的物体无法移动旋转缩放要使用静态批处理,需要把Stat ...
mongo 高级操作
聚合 aggregate 聚合(aggregate)主要用于计算数据,类似sql中的sum().avg() 语法 db.集合名称.aggregate([{管道:{表达式}}]) 管道管道在Unix和 ...
PostgreSQL函数(存储过程)----笔记
PostgreSQL 函数也称为 PostgreSQL 存储过程. PostgreSQL 函数或存储过程是存储在数据库服务器上并可以使用SQL界面调用的一组SQL和过程语句(声明,分配,循环,控制流程 ...
PHP简单的长文章分页教程附源码
PHP简单的长文章分页教程附源码.本文将content.txt里的内容分割成3页,这样浏览起来用户体验很好. 根据分页参数ipage,获取对应文章内容 include('page.class.php ...
jQuery入门基础（事件、DOM操作）
http://www.w3school.com.cn/b.asp 一.事件 1.常规事件——把js事件前面的on去掉比如:js:onclick——JQuery:click 下面是 jQuery 中事 ...
Delphi TreeView 节点上下移动
调用方法 procedure TfrmDataImport.B_ExcelDownClick(Sender: TObject); begin UpDownTVItem(TV_Import, 2); e ...
javascript基础知识笔记-自用
笔记内容根据个人基础知识不足不明白之处做的记录.主要看的:https://developer.mozilla.org/zh-CN/docs/Web/JavaScript 1.变量,变量的名字又叫标识符 ...
mount.cifs permission denied
[root@dev ~]# mount.cifs //192.168.9.155/APP /mnt/APP/ -o user=administrator,pass=dsff#$TTT 在检查帐号密码权 ...
Dostoevsky: Better Space-Time Trade-Offs for LSM-Tree Based Key-Value Stores via Adaptive Removal of Superfluous Merging 阅读笔记
Introduction 主流的基于LSM树的KV存储都在两方面进行权衡,一方面是写入更新的开销,另一方面是查询和存储空间的开销.但它们都不是最优的,问题在于这些存储系统在LSM树的每一个level上 ...

scrapy 爬取斗罗大陆漫画

scrapy 爬取斗罗大陆漫画的更多相关文章

随机推荐

热门专题