在python3下使用requests,xpath，urllib爬取不得姐网站相关视频爬虫源代码

#coding=utf-8

from lxml import etree
import requests
import urllib
import os

# 获取url的html等内容
def getHtml(url):
    try:
        kv = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
        r = requests.get(url, headers=kv, timeout=30)
        r.encoding = 'utf-8'
        return r.text

    except requests.URLError as e:
        print('get html urlerror:{}'.format(e))
        return ''

    except requests.HTTPError as e:
        # code / reason / headers 异常
        print('get html httperror:{}'.format(e))
        return ''

# 获取视频当前页视频url列表
def getVideoList(html):
    try:
        data = etree.HTML(html)
        video_urls = data.xpath('//div[@class="j-video-c"]/div[@data-mp4]')
        # print(type(video_urls[0]))
        # print(dir(video_urls[0]))
        # <a href="2" class="pagenxt">下一页</a>
        next_page = data.xpath('//a[@class="pagenxt"]')
        if next_page:
            next_page = next_page[0].get('href')

        # videos[0].get('data-mp4')
        return video_urls, next_page
        # t(video_urls[0].get('data-mp4'))
    except Exception:
        print('lxml parse failed')
        return None, None

# urlretrieve()的回调函数，显示当前的下载进度
# a为已经下载的数据块
# b为数据块大小
# c为远程文件的大小
global myper

def jindu(a, b, c):
    if not a:
        print("连接打开")
    if c < 0:
        print("要下载的文件大小为0")
    else:
        global myper
        per = 100 * a * b / c

        if per > 100:
            per = 100
        myper = per
        print("\r当前下载进度为：" + '%.2f%%' % per, end='')
    if per == 100:
        return True

if __name__ == '__main__':

    path = os.path.join(os.path.abspath(os.path.curdir), 'videos')
    if not os.path.exists(path):
        os.mkdir(path)
    url = "http://www.budejie.com/video"
    next_url = url
    n = 0
    while True:
        html = getHtml(next_url)
        # print(html)

        videos, nextpage = getVideoList(html)
        print('\n下载第{}页视频数据:{}'.format(n + 1, next_url))
        # print(videos[0].get('data-mp4'))
        if not videos:
            break
        for v in videos:
            # if v:
            video_url = v.get('data-mp4')
            print('下载：{}'.format(video_url))
            p = os.path.join(path, v.get('data-mp4').split('/')[-1])

            if not os.path.exists(p):
                try:  #
                    # 使用request.build_opener 添加head可解决用urllib提示403错误                                                                                                                  #
                    # myheaders = [('User - Agent', 'Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebK# it/525.17'\
                    #                               '#  (KHTML, like Gecko) Version/3.1 Safari/525.17'),]
                    # opener = urllib.request.build_opener# ()
                    # opener.addheaders = myheaders #
                    # urllib.request.install_opener(opener)
                    urllib.request.urlretrieve(video_url, p, jindu)
                except Exception:
                    print("\n下载文件：{}失败".format(video_url))

        # 检测是否有下一页
        if nextpage:
            if nextpage == '1':
                break
            next_url = url + '/' + nextpage
        else:
            break
        n = n + 1

    print('所有数据抓取完毕！')

参考资料

在python3下使用requests,xpath，urllib爬取不得姐网站相关视频爬虫源代码的更多相关文章

requests+xpath+map爬取百度贴吧
# requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...
python3通过Beautif和XPath分别爬取“小猪短租-北京”租房信息，并对比时间效率（附源代码）
爬虫思路分析: 1. 观察小猪短租(北京)的网页首页:http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term ...
python3下BeautifulSoup练习一（爬取小说）
上次写博客还是两个月以前的事,今天闲来无事,决定把以前刚接触python爬虫时的一个想法付诸行动:就是从网站上爬取小说,这样可以省下好多流量(^_^). 因为只是闲暇之余写的,还望各位看官海涵:不足之 ...
python3.6 利用requests和正则表达式爬取猫眼电影TOP100
import requests from requests.exceptions import RequestException from multiprocessing import Pool im ...
Python 网络爬虫 005 (编程) 如何编写一个可以下载（或叫：爬取）一个网页的网络爬虫
如何编写一个可以下载(或叫:爬取)一个网页的网络爬虫使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:P ...
Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
Scrapy中用xpath/css爬取豆瓣电影Top250：解决403HTTP status code is not handled or not allowed
好吧,我又开始折腾豆瓣电影top250了,只是想试试各种方法,看看哪一种的方法效率是最好的,一直进行到这一步才知道 scrapy的强大,尤其是和selector结合之后,速度飞起.... 下面我就采用 ...
整理requests和正则表达式爬取猫眼Top100中遇到的问题及解决方案
最近看崔庆才老师的爬虫课程,第一个实战课程是requests和正则表达式爬取猫眼电影Top100榜单.虽然理解崔老师每一步代码的实现过程,但自己敲代码的时候还是遇到了不少问题: 问题1:获取respo ...

随机推荐

Python之Eclipse环境下安装与配置
奔着对python的好奇,今天又是周末,欲小试Python.那么首先避不开的问题就是python的环境搭建.而我之前已经在学习Java的过程中安装了Eclipse,不想再安装更多的IDE了,就那Ecl ...
虚拟树研究-CheckBox初步判断只能在第一列
//虚拟树研究-CheckBox初步判断只能在第一列 procedure TWindowsXPForm.XPTreeInitNode(Sender: TBaseVirtualTree; ParentN ...
Keil MDK忽略警告：文件末尾空白行警告
使用Keil MDK调试程序的时候,没有习惯在每个文件的末尾增加一个空白行,结果文件一多,编译时产生的警告就一大堆,排错都得用滚轮滚好久,就一个空白行还得出警告,烦死了,烦死了,烦死了!实在受不了了, ...
avloadingindicatorview 使用解析
官方文档:https://github.com/81813780/AVLoadingIndicatorView 中文文档:https://www.helplib.com/GitHub/article_ ...
argv[1] 路径问题
在看<学习opencv>一书时遇到一个小问题:函数只是通过argv传递参数来读取图片并显示,但是却一直弹出画布,没有图像. 如下:test.c # include<stdio.h&g ...
git获取内核源码的方法
[转]http://www.360doc.com/content/17/0410/16/23107068_644444795.shtml 1. 前言本文主要讲述ubuntu下通过git下载linux ...
RMAN-06059（转）
change archivelog all crosscheck;
路由器中继（repeater）模式和 AP+WDS模式区别？
理论上的中继(repeater)模式, 只有连接的最后一个才会有信号发出,中间的连接节点是没有信号发出的. AP+WDS模式:就是每一个路由都有信号发出,可以进行信号的全方位覆盖.
sqlyog通过跳板机ssh连接mysql数据库
方法一: 方法二: 在跳板机上启动sh脚本做ssh端口转发,客户端配置连接 10.0.0.1的8306端口即可 jdbc:mysql://10.0.0.1:8306/testdb?useUnicode ...
Android判断网络是否打开,并打开设置网络界面
由于Android的SDK版本不同所以里面的API和设置方式也是有少量变化的,尤其是在Android 3.0 及后面的版本,UI和显示方式也发生了变化,现在就以打开网络设置为例,同大家分享一下: 1. ...

在python3下使用requests,xpath，urllib爬取不得姐网站相关视频爬虫源代码

在python3下使用requests,xpath，urllib爬取不得姐网站相关视频爬虫源代码的更多相关文章

随机推荐

热门专题