python爬虫--爬取某网站电影下载地址

前言：因为自己还是python世界的一名小学生，还有很多路要走，所以本文以目的为向导，达到目的即可，对于那些我自己都没弄懂的原理，不做去做过多解释，以免误人子弟，大家可以网上搜索。

友情提示：本代码用到的网址仅供交流学习使用，如有不妥，请联系删除。

背景：自己有台电脑要给老爸用，老爷子喜欢看一些大片，但是家里网络环境不好，就想批量下载一些存到电脑里。但是目前大部分的网站都是这样的，

需要一个个地点进去，才能看到下载地址

如果我要下载100部电影，那肯定手都要点断了，于是便想把这些地址给爬取出来，迅雷批量下载。

工具：python（版本3.x）

爬虫原理：网页源代码中含有下载地址，把这些零散的地址批量保存到文件中，方便使用。

干货：首先上代码，迫不及待的你可以先运行一下，再看详细介绍。

import requests
import re
 
#changepage用来产生不同页数的链接
def changepage(url,total_page):
    page_group = ['https://www.dygod.net/html/gndy/jddy/index.html']
    for i in range(2,total_page+1):
        link = re.sub('jddy/index','jddy/index_'+str(i),url,re.S)
        page_group.append(link)
    return page_group
#pagelink用来产生页面内的视频链接页面
def pagelink(url):
    base_url = 'https://www.dygod.net/html/gndy/jddy/'
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}
    req = requests.get(url , headers = headers)
    req.encoding = 'gbk'#指定编码，否则会乱码
    pat = re.compile('<a href="/html/gndy/jddy/(.*?)" class="ulink" title=(.*?)/a>',re.S)#获取电影列表网址
    reslist = re.findall(pat, req.text)
 
    finalurl = []
    for i in range(1,25):
        xurl = reslist[i][0]
        finalurl.append(base_url + xurl)
    return finalurl #返回该页面内所有的视频网页地址
 
#getdownurl获取页面的视频地址
def getdownurl(url):
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}
    req = requests.get(url , headers = headers)
    req.encoding = 'gbk'#指定编码，否则会乱码
    pat = re.compile('<a href="ftp(.*?)">ftp',re.S)#获取下载地址
    reslist = re.findall(pat, req.text)
    furl = 'ftp'+reslist[0]
    return furl
 
if __name__ == "__main__" :
    html = "https://www.dygod.net/html/gndy/jddy/index.html"
    print('你即将爬取的网站是：https://www.dygod.net/html/gndy/jddy/index.html')
    pages = input('请输入需要爬取的页数：')
    p1 = changepage(html,int(pages))
    with open ('电影天堂下载地址.lst','w') as f :
        j = 0
        for p1i in p1 :
            j = j + 1
            print('正在爬取第%d页,网址是 %s ...'%(j,p1i))
            p2 = pagelink(p1i)
            for p2i in p2 :
                p3 = getdownurl(p2i)
                if len(p3) == 0 :
                    pass
                else :
                    finalurl = p3
                    f.write(finalurl + '\n')
    print('所有页面地址爬取完毕!')

核心模块getdownurl函数：通过requests来获取页面信息，可以认为这个信息的text就是页面源代码（几乎任何一款浏览器右键都有查看网页源代码的选项），再通过re.compile正则表达式匹配的方式来匹配到网页源代码中的网址部分，可以看下图

这部分怎么提取呢？通过正则表达式匹配。怎么写这个正则表达式呢？这里用到一个简单粗暴的方法：

<a href="ftp(.*?)">ftp

爬虫中经常用到.*?来做非贪婪匹配（专业名词请百度），你可以简单认为这个(.*?)就代表你想要爬取出来的东西，这样的东西在每个网页源码中都是夹在<a href="ftp和">ftp之间的。有人可能会问，那这个匹配出来的不是网址啊，比如上图中出来的就是://d:d@dygodj8.com:12311/[电影天堂www.dy2018.com]请以你的名字呼唤我BD中英双字.mp4，前面少了个ftp啊？

是的，不过这是故意为之，如果正则表达式写成<a href="(.*?)">ftp，可能夹在<a href="和">ftp之间的东西就太多了，二次处理的成本还不如先用你觉得最快最直接的方式抽取有用信息，然后再进行拼接来得快。

代码详解：

一、getdownurl

#getdownurl获取页面的视频地址
def getdownurl(url):
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}
    req = requests.get(url , headers = headers)
    req.encoding = 'gbk'#指定编码，否则会乱码
    pat = re.compile('<a href="ftp(.*?)">ftp',re.S)#获取下载地址
    reslist = re.findall(pat, req.text)
    furl = 'ftp'+reslist[0]
    return furl

其中headers是用来将你的脚本访问网址伪装成浏览器访问，以防有些网站进行了反爬虫的措施。这个headers在很多浏览器中也可以很容易得到，以Firefox为例，直接F12或查看元素，在网络标签，右侧的消息头中右下角即可看到。

requests模块：requests.get(url , headers = headers)是用伪装成firefox的形式获取该网页的信息。
re模块：可以参考python正则表达式的一些东西，这里用re.complile来写出匹配的模式，re.findall根据模式在网页源代码中找到相应的东西。
二、pagelink

#pagelink用来产生页面内的视频链接页面
def pagelink(url):
    base_url = 'https://www.dygod.net/html/gndy/jddy/'
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}
    req = requests.get(url , headers = headers)
    req.encoding = 'gbk'#指定编码，否则会乱码
    pat = re.compile('<a href="/html/gndy/jddy/(.*?)" class="ulink" title=(.*?)/a>',re.S)#获取电影列表网址
    reslist = re.findall(pat, req.text)
 
    finalurl = []
    for i in range(1,25):
        xurl = reslist[i][0]
        finalurl.append(base_url + xurl)
    return finalurl #返回该页面内所有的视频网页地址

第一步getdownurl是用于爬取一个网页的网址，这一步用于获取同一页面内所有网页的网址，像下面的网页包含很多电影链接

源码是这样的：

聪明的你一看就知道需要哪些信息，这个页面正文有25个电影链接，我这里用到一个list来存放这些网址，其实range（1,25）不包含25，也就是说我只存放了24个网址，原因是我的正则表达式写的不好，爬出来的第一个网址有问题，如果有兴趣可以研究下怎么完善。

需要一提的是这个正则表达式用到了两处.*?，所以匹配到的reslist是二维的。

三、changepage

#changepage用来产生不同页数的链接
def changepage(url,total_page):
    page_group = ['https://www.dygod.net/html/gndy/jddy/index.html']
    for i in range(2,total_page+1):
        link = re.sub('jddy/index','jddy/index_'+str(i),url,re.S)
        page_group.append(link)
    return page_group

这里也比较简单，点击下一页，抬头看看网址栏的网址是什么，这里是index/index_2/index_3...很容易拼接

四、main

if __name__ == "__main__" :
    html = "https://www.dygod.net/html/gndy/jddy/index.html"
    print('你即将爬取的网站是：https://www.dygod.net/html/gndy/jddy/index.html')
    pages = input('请输入需要爬取的页数：')
    p1 = changepage(html,int(pages))
    with open ('电影天堂下载地址.lst','w') as f :
        j = 0
        for p1i in p1 :
            j = j + 1
            print('正在爬取第%d页,网址是 %s ...'%(j,p1i))
            p2 = pagelink(p1i)
            for p2i in p2 :
                p3 = getdownurl(p2i)
                if len(p3) == 0 :
                    pass
                else :
                    finalurl = p3
                    f.write(finalurl + '\n')
    print('所有页面地址爬取完毕!')

main里面几乎没什么好说的，反正就是循环读取，再往文件里写进行了。

五、运行及结果

然后迅雷就可以直接导入了。（后缀为downlist或lst迅雷可以直接导入）

后记：有些可能会觉得这样一股脑的把电影都下载下来，可能有些电影太烂，下载下来就是浪费时间和资源，而手工筛选又太费事，后续会通过数据库的方式来存储影片的信息，从而筛选出需要的地址。

python爬虫--爬取某网站电影下载地址的更多相关文章

python爬虫--爬取某网站电影信息并写入mysql数据库
书接上文,前文最后提到将爬取的电影信息写入数据库,以方便查看,今天就具体实现. 首先还是上代码: # -*- coding:utf-8 -*- import requests import re im ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...

随机推荐

BZOJ 1770: [Usaco2009 Nov]lights 燈 [高斯消元XOR 搜索]
题意: 经典灯问题,求最少次数本题数据不水,必须要暴搜自由元的取值啦想了好久然而我看到网上的程序都没有用记录now的做法,那样做遇到自由元应该可能会丢解吧...? 我的做法是把自由元保存下来,枚 ...
POJ1269 Intersecting Lines[线段相交交点]
Intersecting Lines Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 15145 Accepted: 66 ...
pandas中的分组技术
目录 1 分组操作 1.1 按照列进行分组 1.2 按照字典进行分组 1.3 根据函数进行分组 1.4 按照list组合 1.5 按照索引级别进行分组 2 分组运算 2.1 agg 2 ...
OpenCV角点检测goodFeaturesToTrack（）源代码分析
上面一篇博客分析了HARRIS和ShiTomasi角点检测的源代码.而为了提取更准确的角点,OpenCV中提供了goodFeaturesToTrack()这个API函数,来获取更加准确的角点位置.这篇 ...
通过读取配置文件，启动mongodb
在实际的项目中,经常利用mongodb数据库做缓存,mongodb的并发性比较高,所以对于快速存储.读取信息有很多优点.在项目中对于第一次的数据请求会直接访问数据库,而对于获得的信息通常都会在此时刻存 ...
JMeter性能测试入门--偏重工具的使用
1.JMeter整体简介 Apache JMeter是Apache组织开发的基于Java的压力测试工具.用于对软件做压力测试,它最初被设计用于Web应用测试,但后来扩展到其他测试领域. 它可以用于测试 ...
python并发编程之线程(一)：线程&守护线程&全局解释器锁
一 threading模块介绍 multiprocess模块的完全模仿了threading模块的接口,二者在使用层面,有很大的相似性,因而不再详细介绍官网链接:https://docs.pyth ...
maven指定部署的服务器类型
 <plugins> <!-- <plugin> <groupId>org.apache.tomcat.ma ...
百度前端技术学院js任务三
任务地址:http://ife.baidu.com/course/detail/id/98 代码: <!DOCTYPE> <html> <head> <met ...
HDU - 4496 City 逆向并查集
思路:逆向并查集,逆向加入每一条边即可.在获取联通块数量的时候,直接判断新加入的边是否合并了两个集合,如果合并了说明联通块会减少一个,否则不变. AC代码 #include <cstdio> ...

python爬虫--爬取某网站电影下载地址

python爬虫--爬取某网站电影下载地址的更多相关文章

随机推荐

热门专题