macOS下python3通过scrapy框架重新生成不得姐网站视频采集过程日志

1.搭建虚拟python3环境（Virtualenvwrapper）

参考http://www.cnblogs.com/it-tsz/p/pyhton.html

2.安装scrapy

前提先安装好pip,setuptools，然后安装以下模块

pip install lxml

pip install twisted

pip install pyopenssl

windows下需要安装pywin32(pip install pywin32)

最后安装scrapy

pip install scrapy

3.通过scrapy生成scrapy spider 工程模版

scrapy startproject <project_name> [project_dir]

如：

scrapy startproject budejie

4.生成spider模块

scrapy genspider [options] <name> <domain>

如：

cd budejie

scrapy genspider getbudejievideo budejie.com

5.修改spider模块（getbudejievideo.py）

# -*- coding: utf-8 -*-
import scrapy
import os
import urllib
from lxml import etree

# urlretrieve()的回调函数，显示当前的下载进度
# a为已经下载的数据块
# b为数据块大小
# c为远程文件的大小

def jindu(a, b, c):
    if not a:
        print("连接打开")
    if c < 0:
        print("要下载的文件大小为0")
    else:

        per = 100 * a * b / c

        if per > 100:
            per = 100
        print("\r当前下载进度为：" + '%.2f%%' % per, end='')
    if per == 100:
        return True

''' def __init__(self):
        self.headers = {
        # 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
        # 'Accept-Encoding': 'gzip, deflate',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
        }
   '''

class GetbudejievideoSpider(scrapy.Spider):
    name = 'getbudejievideo'
    allowed_domains = ['budejie.com']
    start_urls = ['http://budejie.com/video']   

    cur_page = 1

    def parse(self, response):
        print('*' * 100)      

        # 创建video文件保持目录
        path = os.path.join(os.path.abspath(os.path.curdir), 'videos')
        if not os.path.exists(path):
            os.mkdir(path)
        # 获取当前页所有video 的url

        try:
            data = etree.HTML(response.text)
            video_urls = data.xpath('//div[@class="j-video-c"]/div[@data-mp4]')

            # <a href="2" class="pagenxt">下一页</a>
            nextpage = data.xpath('//a[@class="pagenxt"]')
            if nextpage:
                nextpage = nextpage[0].get('href')

        except Exception:
            print('lxml parse failed------------------------------')
            return
        if not video_urls:
            return
        # 下载当前页下所有video url对应的视频文件
        for v in video_urls:
            # if v:
            video_url = v.get('data-mp4')
            print('下载：{}'.format(video_url))
            p = os.path.join(path, v.get('data-mp4').split('/')[-1])

            print(p)

            if not os.path.exists(p):
                try:
                    urllib.request.urlretrieve(video_url, p, jindu)
                except Exception:
                    print("\n下载文件：{}失败".format(video_url))

        # 检测是否有下一页
        if nextpage:
            if nextpage == '1':
                return
            nextpage_url = self.start_urls【0】 + '/' + nextpage

            self.cur_page += 1
            print('\n下载第{}页视频数据:{}'.format(self.cur_page, nextpage_url))
            #通过生成器对新生成的url继续回调parse
            yield scrapy.Request(nextpage_url, callback=self.parse)

        else:
            return
4.修改配置文件settings.py以下参数选项
。。。
#以下为模拟浏览器验证

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# USER_AGENT = 'budejie (+http://www.budejie.com)'
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

# Obey robots.txt rules 跳过robots协议验证
ROBOTSTXT_OBEY = False
。。。
5.通过scrapy开启爬虫数据采集
scrapy crawl getbudejievideo
6.测试成功。
通过该案例，进一步学习了scrapy,xpath等相关知识，实践过程中提高了分析问题和解决问题的能力，继续加油！

不使用外部xpath库源代码修改spider模块（getbudejievideo.py）修改如下：

# -*- coding: utf-8 -*-
import scrapy
import os
import urllib
import re

# urlretrieve()的回调函数，显示当前的下载进度
# a为已经下载的数据块
# b为数据块大小
# c为远程文件的大小

def jindu(a, b, c):
    if not a:
        print("连接打开")
    if c < 0:
        print("要下载的文件大小为0")
    else:
        # global myper
        per = 100 * a * b / c

        if per > 100:
            per = 100
        print("\r当前下载进度为：" + '%.2f%%' % per, end='')
    if per == 100:
        return True

class GetbudejievideoSpider(scrapy.Spider):
    name = 'getbudejievideo'
    allowed_domains = ['www.budejie.com']
    start_urls = ['http://www.budejie.com/video']

    cur_page = 1

    def parse(self, response):
        print('下载url:{}'.format(response.url))
        # 创建video文件保持目录
        path = os.path.join(os.path.abspath(os.path.curdir), 'videos')
        if not os.path.exists(path):
            os.mkdir(path)
        # 获取当前页所有video 的url
        print('-' * 100)
        try:
            # data = etree.HTML(response.text)
            video_urls = response.xpath('//div[@class="j-video-c"]/div[@data-mp4]').extract()
            v_urls=[]
            for i in video_urls:
                v= re.findall(r'data-mp4="(.*?)"', i,re.M)
                if v:
                    v_urls.append(v[0])
            # <a href="2" class="pagenxt">下一页</a>
            nextpage = response.xpath('//a[@class="pagenxt"]').extract()
            if nextpage:
                nextpage = re.findall(r'href="(.*?)"', nextpage[0])

        except Exception:
            print('lxml parse failed:')
            return
        if not v_urls:
            return
        # 下载当前页下所有video url对应的视频文件
        for v in v_urls:
            # video_url = v.get('data-mp4')
            print('下载：{}'.format(v))
            p = os.path.join(path, v.split('/')[-1])

            print(p)

            if not os.path.exists(p):
                try:
                    urllib.request.urlretrieve(v, p, jindu)
                except Exception:
                    print("\n下载文件：{}失败".format(v))

        # 检测是否有下一页
        if nextpage:
            if nextpage[0] == '1':
                return

            nextpage_url = self.start_urls[0] + '/' + nextpage[0]
            print(nextpage_url)

            self.cur_page += 1
            print('\n下载第{}页视频数据:{}'.format(self.cur_page, nextpage_url))
            # 通过生成器对新生成的url继续回调parse
            yield scrapy.Request(nextpage_url, callback=self.parse)
        else:
            return

附属调试模块：（debug.py）

from scrapy import cmdline

if __name__ == '__main__':
    cmdline.execute('scrapy crawl getbudejievideo'.split(' '))

from scrapy import cmdline

if __name__ == '__main__':
    cmdline.execute('scrapy crawl getbudejievideo'.split(' '))

macOS下python3通过scrapy框架重新生成不得姐网站视频采集过程日志的更多相关文章

Python3安装scrapy框架步骤
Python3安装scrapy框架步骤 1. 安装wheel a) Pip install wheel 2. 安装lxml Pip install lxml 3. ...
scrapy框架爬取糗妹妹网站妹子图分类的所有图片
爬取所有图片,一个页面的图片建一个文件夹.难点,图片中有不少.gif图片,需要重写下载规则, 创建scrapy项目 scrapy startproject qiumeimei 创建爬虫应用 cd qi ...
windows7下安装python3的scrapy框架
强大的Anaconda和Spyder.不过如何在这个平台上安装Scrapy呢. 打开MS-DOS(win+R输入cmd回车) 然后输入: conda install -c scrapinghub sc ...
ubuntu下python3安装scrapy，OpenSSL
环境:ubuntu 16.04 , python3.5.1+ 安装顺序如下: sudo apt-get install build-essential sudo apt-get install p ...
【解决】MacOS下 Python3.7 使用 pyinstaller 打包后执行报错 Failed to execute script pyi_rth__tkinter
Fix tcl/tk libs inclusion in tkinter with Python3.7 under MacOS 使用 Pyinstaller 打包时候报错 3027 ERROR: Tc ...
Python3.6+Scrapy爬取知名技术文章网站
爬取分析伯乐在线已经提供了所有文章的接口,还有下一页的接口,所有我们可以直接爬取一页,再翻页爬. 环境搭建 Windows下安装Python: http://www.cnblogs.com/0bug ...
python爬虫scrapy框架——爬取伯乐在线网站文章
一.前言 1. scrapy依赖包: 二.创建工程 1. 创建scrapy工程: scrapy staratproject ArticleSpider 2. 开始(创建)新的爬虫: cd Artic ...
scrapy框架来爬取壁纸网站并将图片下载到本地文件中
首先需要确定要爬取的内容,所以第一步就应该是要确定要爬的字段: 首先去items中确定要爬的内容 class MeizhuoItem(scrapy.Item): # define the fields ...
Python爬虫 ---scrapy框架初探及实战
目录 Scrapy框架安装操作环境介绍安装scrapy框架(linux系统下) 检测安装是否成功 Scrapy框架爬取原理 Scrapy框架的主体结构分为五个部分: 它还有两个可以自定义下载功能的 ...

随机推荐

Mysql加密解密随机函数
MD5(str) md5加密 SELECT MD5('hello') 5d41402abc4b2a76b9719d911017c592 sha(str) sha加密 SELECT SHA('hello ...
（译文）掌握JavaScript基础--理解this关键字的新思路
普通函数下面这种就是普通函数 function add(x, y) { return x + y; } 每个普通函数被调用的时候,都相当于有一个this参数传进来. 内部函数this不会是外部函数传 ...
New UWP Community Toolkit - RadialProgressBar
概述 UWP Community Toolkit 中有一个圆形的进度条控件 - RadialProgressBar,本篇我们结合代码详细讲解 RadialProgressBar 的实现. Radi ...
alpha-咸鱼冲刺day6-紫仪
总汇链接一,合照 emmmmm.自然还是没有的. 二,项目燃尽图三,项目进展 !!!QAQ可以做到跟数据库交互了!!!!先来撒花花!(然后继续甲板) (然后就没有进展了.翻车+1s) 四,问题困难 ...
L2 约束的最小二乘学习法
\[ \begin{align*} &J_{LS}{(\theta)} = \frac { 1 }{ 2 } { \left\| \Phi \theta - y \right\| }^{ 2 ...
V7000数据恢复（存储文件系统损坏）案例_北亚数据恢复
我们今天介绍的数据恢复案例是一起 v7000存储文件系统损坏导致的数据丢失,首先简单介绍一下设备基本情况:发生文件系统损坏的是一台挂载在Windows2003服务器上的v7000存储,划分了一个容量为 ...
JAVA_SE基础——35.static修饰成员函数
在Java中适用static关键字修饰的方法称为静态方法. 声明静态方法的语法格式如下: 权限修饰符 static 数据类型方法名(){ 方法体 } 静态方法可以使用类名直接调用类名.方 ...
安装CentOS7，连接mysql提示密码错误
1.grep 'temporary password' /var/log/mysqld.log 如果上面命令没有查看到密码 2.修改my.cnf文件.在mysqld下加入skip-grant-tabl ...
离线Chrome插件安装文件（crx）的安装方法
离线Chrome插件安装文件(crx)的安装方法一.正常安装方法 1.开发谷歌浏览器,设置->扩展程序在打开的谷歌浏览器的扩展管理器中用户可以看到一些已经安装程序的Chrome插件,或者一个 ...
python 网络爬虫与信息提取学习笔记day4
正则表达式简介: 简洁表示一组字符串的特征或者模式,在文本处理中十分常用,主要应用于字符串匹配中 1．通用的字符串表达框架 2．简洁表达一组字符串的表达式 3．针对字符串表达简洁和特征思想 ...

macOS下python3通过scrapy框架重新生成不得姐网站视频采集过程日志

macOS下python3通过scrapy框架重新生成不得姐网站视频采集过程日志的更多相关文章

随机推荐

热门专题