python爬虫下载小视频和小说(基础)

下载视频：

 1 from bs4 import BeautifulSoup
 2 import requests
 3 import re
 4 import urllib
 5
 6
 7 def callbackfunc(blocknum, blocksize, totalsize):
 8     '''回调函数
 9     @blocknum: 已经下载的数据块
10     @blocksize: 数据块的大小
11     @totalsize: 远程文件的大小
12     '''
13     percent = 100.0 * blocknum * blocksize / totalsize
14     if percent > 100:
15         percent = 100
16     print ("%.2f%%"% percent)
17
18
19
20 ur = 'http://www.budejie.com/video/'
21
22 def get_htmls(url):
23     headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
24     html = requests.get(url,headers=headers)
25     #print(type(html.text))
26     soup =BeautifulSoup(html.text,'html.parser')
27     result1 = soup.find(attrs={'class':'j-video-c','data-title':True})
28     result2 = soup.find(attrs={'class': 'j-video', 'data-mp4': True})
29     nam = result1.get('data-title')
30     url = result2.get('data-mp4')
31     local = 'e:\\'+str(nam)+'.mp4'
32     urllib.request.urlretrieve(url, local, callbackfunc)
33
34 if __name__ == '__main__':
35     get_htmls(ur)

下载小说：

 1 from bs4 import BeautifulSoup
 2 import requests
 3 import re
 4 from openpyxl import load_workbook
 5 from openpyxl.utils import get_column_letter
 6
 7 #这一部分是存链接的
 8 '''
 9 # 设置文件 mingc
10 addr = "1.xlsx"
11 # 打开文件
12 wb = load_workbook(addr)
13 # 创建一张新表
14 ws = wb.create_sheet()
15 # 第一行输入
16 #ws.append(['TIME', 'TITLE', 'A-Z'])
17 ws['A1'] = '章节'
18 ws['B1'] = '链接
19 '''
20 links = []
21 ur = 'https://www.qb5200.tw/xiaoshuo/2/2155/'
22 def get_one_page(url,ok):
23     headers = {
24
25    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763'}
26
27     html = requests.get(url,headers=headers)
28     html.encoding = 'gbk'
29     #print(html.content)
30     if ok == True:
31         get_parsing(html)
32     else :
33         return html
34
35 def get_parsing(html):
36     soup = BeautifulSoup(html.content,'html.parser')
37     dd = soup.findAll(['dt',['dd']])
38     result = False
39
40     #counts =2
41     co = 0
42     for one in dd:
43         #print(type(one))
44         if one.string=='《龙王传说》正文卷':
45             #ws.title = one.string
46             result = True
47         if result == True and one.name == 'dd':
48             link = one.a.get('href')
49             links.append(link)   #注意这里是传入元组、列表、字典
50 '''
51             st = one.a.string
52             data = [++co,ur+link]
53             ws.append(data)
54 '''
55
56 def get_htmls():
57     i=1000
58     results = links[1000:]
59     for link in results:
60         i+=1
61         url = ur+link
62         path='龙3.txt'
63         html = get_one_page(url,False)
64         soup = BeautifulSoup(html.content, 'html.parser')
65         name = soup.find(attrs={'class':'content','id':False})
66         names = name.h1.string
67         div = soup.find('div',attrs={'class':'showtxt'})
68         with open(path,'a',encoding='utf8') as f:
69             f.write(names + '\n')
70             for string in div.stripped_strings:
71                 f.write(string+'\n')
72
73         if i%10 == 0:
74             print(i)
75             if i==1300:
76                 break
77
78
79
80 if __name__ == '__main__':
81     get_one_page('https://www.qb5200.tw/xiaoshuo/2/2155/',True)
82     #wb.save(addr)
83     get_htmls()

python爬虫下载小视频和小说(基础)的更多相关文章

（Python基础教程之二十二）爬虫下载网页视频(video blob)
Python基础教程在SublimeEditor中配置Python环境 Python代码中添加注释 Python中的变量的使用 Python中的数据类型 Python中的关键字 Python字符串操 ...
小白学 Python 爬虫（17）：Requests 基础使用
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（8）：网页基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
python爬虫下载文件
python爬虫下载文件下载东西和访问网页差不多,这里以下载我以前做的一个安卓小游戏为例地址为:http://hjwachhy.site/game/only_v1.1.1.apk 首先下载到内存 ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
小白学 Python 爬虫（11）：urllib 基础使用（一）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（12）：urllib 基础使用（二）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（13）：urllib 基础使用（三）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（14）：urllib 基础使用（四）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

CSS 奇思妙想边框动画
今天逛博客网站 -- shoptalkshow,看到这样一个界面,非常有意思: 觉得它的风格很独特,尤其是其中一些边框. 嘿嘿,所以来一篇边框特辑,看看运用 CSS,可以在边框上整些什么花样. bor ...
【Linux】CentOS7中yumbackend.py进程的结束方法
环境: CentOS Linux release 7.3.1611 (Core) 今天启动这个不怎么用的机器,才启动,就发现后台的yum无法进行安装,持续报这个错误 Loaded plugins: f ...
转发：[服务器]SSL安装证书教程
[服务器]SSL安装证书教程来自阿里云教程 Tomcat服务器安装SSL证书安装PFX格式证书 https://help.aliyun.com/document_detail/98576.ht ...
YYDS: Webpack Plugin开发
目录导读一.cdn常规使用二.开发一个webpack plugin 三.cdn优化插件实现 1.创建一个具名 JavaScript 函数(使用ES6的class实现) 2.在它的原型上定义 ap ...
CTFshow-萌新赛逆向_签退
查看题目信息下载re3.pyc文件使用uncompyle把re3.pyc反编译为re3.py uncompyle6 re3.pyc > re3.py 查看re3.py文件 # uncompy ...
service代理模式及负载均衡
[root@k8s-master ~]# vim service.yaml apiVersion: v1 kind: Service metadata: name: my-service spec: ...
Nacos集成学习入门
微服务注册中心nacos学习:先尝试使用它,然后撸它源码搞懂它. 在这里整理一下自己之前集成nacos的内容. 我的github地址:https://github.com/mrxiaobai-wen/ ...
浅入深出了解XXE漏洞
环境搭建 https://github.com/c0ny1/xxe-lab 为了更深入的理解,我准备理论和实际相结合的了解XXE! 浅谈XML 初识XML 一个好的代码基础能帮助你更好理解一类漏洞,所 ...
Nginx和Tomcat配置SSL实现https访问
环境:CentOS 7 Nginx版本: nginx/1.18.0 1. 安装nginx 详细步骤可以参考如下官网:http://nginx.org/en/linux_packages.html#RH ...
欢迎来到 ZooKeeper 动物世界
本文作者:HelloGitHub-老荀 Hi,这里是 HelloGitHub 推出的 HelloZooKeeper 系列,免费有趣.入门级的 ZooKeeper 开源教程,面向有编程基础的新手. Zo ...

python爬虫下载小视频和小说(基础)

python爬虫下载小视频和小说(基础)的更多相关文章

随机推荐

热门专题