python爬虫下载小视频和小说(基础)
下载视频:
- 1 from bs4 import BeautifulSoup
- 2 import requests
- 3 import re
- 4 import urllib
- 5
- 6
- 7 def callbackfunc(blocknum, blocksize, totalsize):
- 8 '''回调函数
- 9 @blocknum: 已经下载的数据块
- 10 @blocksize: 数据块的大小
- 11 @totalsize: 远程文件的大小
- 12 '''
- 13 percent = 100.0 * blocknum * blocksize / totalsize
- 14 if percent > 100:
- 15 percent = 100
- 16 print ("%.2f%%"% percent)
- 17
- 18
- 19
- 20 ur = 'http://www.budejie.com/video/'
- 21
- 22 def get_htmls(url):
- 23 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
- 24 html = requests.get(url,headers=headers)
- 25 #print(type(html.text))
- 26 soup =BeautifulSoup(html.text,'html.parser')
- 27 result1 = soup.find(attrs={'class':'j-video-c','data-title':True})
- 28 result2 = soup.find(attrs={'class': 'j-video', 'data-mp4': True})
- 29 nam = result1.get('data-title')
- 30 url = result2.get('data-mp4')
- 31 local = 'e:\\'+str(nam)+'.mp4'
- 32 urllib.request.urlretrieve(url, local, callbackfunc)
- 33
- 34 if __name__ == '__main__':
- 35 get_htmls(ur)
下载小说:
- 1 from bs4 import BeautifulSoup
- 2 import requests
- 3 import re
- 4 from openpyxl import load_workbook
- 5 from openpyxl.utils import get_column_letter
- 6
- 7 #这一部分是存链接的
- 8 '''
- 9 # 设置文件 mingc
- 10 addr = "1.xlsx"
- 11 # 打开文件
- 12 wb = load_workbook(addr)
- 13 # 创建一张新表
- 14 ws = wb.create_sheet()
- 15 # 第一行输入
- 16 #ws.append(['TIME', 'TITLE', 'A-Z'])
- 17 ws['A1'] = '章节'
- 18 ws['B1'] = '链接
- 19 '''
- 20 links = []
- 21 ur = 'https://www.qb5200.tw/xiaoshuo/2/2155/'
- 22 def get_one_page(url,ok):
- 23 headers = {
- 24
- 25 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763'}
- 26
- 27 html = requests.get(url,headers=headers)
- 28 html.encoding = 'gbk'
- 29 #print(html.content)
- 30 if ok == True:
- 31 get_parsing(html)
- 32 else :
- 33 return html
- 34
- 35 def get_parsing(html):
- 36 soup = BeautifulSoup(html.content,'html.parser')
- 37 dd = soup.findAll(['dt',['dd']])
- 38 result = False
- 39
- 40 #counts =2
- 41 co = 0
- 42 for one in dd:
- 43 #print(type(one))
- 44 if one.string=='《龙王传说》正文卷':
- 45 #ws.title = one.string
- 46 result = True
- 47 if result == True and one.name == 'dd':
- 48 link = one.a.get('href')
- 49 links.append(link) #注意这里是传入元组、列表、字典
- 50 '''
- 51 st = one.a.string
- 52 data = [++co,ur+link]
- 53 ws.append(data)
- 54 '''
- 55
- 56 def get_htmls():
- 57 i=1000
- 58 results = links[1000:]
- 59 for link in results:
- 60 i+=1
- 61 url = ur+link
- 62 path='龙3.txt'
- 63 html = get_one_page(url,False)
- 64 soup = BeautifulSoup(html.content, 'html.parser')
- 65 name = soup.find(attrs={'class':'content','id':False})
- 66 names = name.h1.string
- 67 div = soup.find('div',attrs={'class':'showtxt'})
- 68 with open(path,'a',encoding='utf8') as f:
- 69 f.write(names + '\n')
- 70 for string in div.stripped_strings:
- 71 f.write(string+'\n')
- 72
- 73 if i%10 == 0:
- 74 print(i)
- 75 if i==1300:
- 76 break
- 77
- 78
- 79
- 80 if __name__ == '__main__':
- 81 get_one_page('https://www.qb5200.tw/xiaoshuo/2/2155/',True)
- 82 #wb.save(addr)
- 83 get_htmls()
python爬虫下载小视频和小说(基础)的更多相关文章
- (Python基础教程之二十二)爬虫下载网页视频(video blob)
Python基础教程 在SublimeEditor中配置Python环境 Python代码中添加注释 Python中的变量的使用 Python中的数据类型 Python中的关键字 Python字符串操 ...
- 小白学 Python 爬虫(17):Requests 基础使用
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(8):网页基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- python爬虫下载文件
python爬虫下载文件 下载东西和访问网页差不多,这里以下载我以前做的一个安卓小游戏为例 地址为:http://hjwachhy.site/game/only_v1.1.1.apk 首先下载到内存 ...
- Python爬虫爬取全书网小说,程序源码+程序详细分析
Python爬虫爬取全书网小说教程 第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下 点击Network之后出现如下 ...
- 小白学 Python 爬虫(11):urllib 基础使用(一)
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(12):urllib 基础使用(二)
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(13):urllib 基础使用(三)
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(14):urllib 基础使用(四)
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
随机推荐
- CSS 奇思妙想边框动画
今天逛博客网站 -- shoptalkshow,看到这样一个界面,非常有意思: 觉得它的风格很独特,尤其是其中一些边框. 嘿嘿,所以来一篇边框特辑,看看运用 CSS,可以在边框上整些什么花样. bor ...
- 【Linux】CentOS7中yumbackend.py进程的结束方法
环境: CentOS Linux release 7.3.1611 (Core) 今天启动这个不怎么用的机器,才启动,就发现后台的yum无法进行安装,持续报这个错误 Loaded plugins: f ...
- 转发:[服务器]SSL安装证书教程
[服务器]SSL安装证书教程 来自阿里云教程 Tomcat服务器安装SSL证书 安装PFX格式证书 https://help.aliyun.com/document_detail/98576.ht ...
- YYDS: Webpack Plugin开发
目录 导读 一.cdn常规使用 二.开发一个webpack plugin 三.cdn优化插件实现 1.创建一个具名 JavaScript 函数(使用ES6的class实现) 2.在它的原型上定义 ap ...
- CTFshow-萌新赛逆向_签退
查看题目信息 下载re3.pyc文件 使用uncompyle把re3.pyc反编译为re3.py uncompyle6 re3.pyc > re3.py 查看re3.py文件 # uncompy ...
- service代理模式及负载均衡
[root@k8s-master ~]# vim service.yaml apiVersion: v1 kind: Service metadata: name: my-service spec: ...
- Nacos集成学习入门
微服务注册中心nacos学习:先尝试使用它,然后撸它源码搞懂它. 在这里整理一下自己之前集成nacos的内容. 我的github地址:https://github.com/mrxiaobai-wen/ ...
- 浅入深出了解XXE漏洞
环境搭建 https://github.com/c0ny1/xxe-lab 为了更深入的理解,我准备理论和实际相结合的了解XXE! 浅谈XML 初识XML 一个好的代码基础能帮助你更好理解一类漏洞,所 ...
- Nginx和Tomcat配置SSL实现https访问
环境:CentOS 7 Nginx版本: nginx/1.18.0 1. 安装nginx 详细步骤可以参考如下官网:http://nginx.org/en/linux_packages.html#RH ...
- 欢迎来到 ZooKeeper 动物世界
本文作者:HelloGitHub-老荀 Hi,这里是 HelloGitHub 推出的 HelloZooKeeper 系列,免费有趣.入门级的 ZooKeeper 开源教程,面向有编程基础的新手. Zo ...