下载视频:

  1. 1 from bs4 import BeautifulSoup
  2. 2 import requests
  3. 3 import re
  4. 4 import urllib
  5. 5
  6. 6
  7. 7 def callbackfunc(blocknum, blocksize, totalsize):
  8. 8 '''回调函数
  9. 9 @blocknum: 已经下载的数据块
  10. 10 @blocksize: 数据块的大小
  11. 11 @totalsize: 远程文件的大小
  12. 12 '''
  13. 13 percent = 100.0 * blocknum * blocksize / totalsize
  14. 14 if percent > 100:
  15. 15 percent = 100
  16. 16 print ("%.2f%%"% percent)
  17. 17
  18. 18
  19. 19
  20. 20 ur = 'http://www.budejie.com/video/'
  21. 21
  22. 22 def get_htmls(url):
  23. 23 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
  24. 24 html = requests.get(url,headers=headers)
  25. 25 #print(type(html.text))
  26. 26 soup =BeautifulSoup(html.text,'html.parser')
  27. 27 result1 = soup.find(attrs={'class':'j-video-c','data-title':True})
  28. 28 result2 = soup.find(attrs={'class': 'j-video', 'data-mp4': True})
  29. 29 nam = result1.get('data-title')
  30. 30 url = result2.get('data-mp4')
  31. 31 local = 'e:\\'+str(nam)+'.mp4'
  32. 32 urllib.request.urlretrieve(url, local, callbackfunc)
  33. 33
  34. 34 if __name__ == '__main__':
  35. 35 get_htmls(ur)

下载小说:

  1. 1 from bs4 import BeautifulSoup
  2. 2 import requests
  3. 3 import re
  4. 4 from openpyxl import load_workbook
  5. 5 from openpyxl.utils import get_column_letter
  6. 6
  7. 7 #这一部分是存链接的
  8. 8 '''
  9. 9 # 设置文件 mingc
  10. 10 addr = "1.xlsx"
  11. 11 # 打开文件
  12. 12 wb = load_workbook(addr)
  13. 13 # 创建一张新表
  14. 14 ws = wb.create_sheet()
  15. 15 # 第一行输入
  16. 16 #ws.append(['TIME', 'TITLE', 'A-Z'])
  17. 17 ws['A1'] = '章节'
  18. 18 ws['B1'] = '链接
  19. 19 '''
  20. 20 links = []
  21. 21 ur = 'https://www.qb5200.tw/xiaoshuo/2/2155/'
  22. 22 def get_one_page(url,ok):
  23. 23 headers = {
  24. 24
  25. 25 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763'}
  26. 26
  27. 27 html = requests.get(url,headers=headers)
  28. 28 html.encoding = 'gbk'
  29. 29 #print(html.content)
  30. 30 if ok == True:
  31. 31 get_parsing(html)
  32. 32 else :
  33. 33 return html
  34. 34
  35. 35 def get_parsing(html):
  36. 36 soup = BeautifulSoup(html.content,'html.parser')
  37. 37 dd = soup.findAll(['dt',['dd']])
  38. 38 result = False
  39. 39
  40. 40 #counts =2
  41. 41 co = 0
  42. 42 for one in dd:
  43. 43 #print(type(one))
  44. 44 if one.string=='《龙王传说》正文卷':
  45. 45 #ws.title = one.string
  46. 46 result = True
  47. 47 if result == True and one.name == 'dd':
  48. 48 link = one.a.get('href')
  49. 49 links.append(link) #注意这里是传入元组、列表、字典
  50. 50 '''
  51. 51 st = one.a.string
  52. 52 data = [++co,ur+link]
  53. 53 ws.append(data)
  54. 54 '''
  55. 55
  56. 56 def get_htmls():
  57. 57 i=1000
  58. 58 results = links[1000:]
  59. 59 for link in results:
  60. 60 i+=1
  61. 61 url = ur+link
  62. 62 path='龙3.txt'
  63. 63 html = get_one_page(url,False)
  64. 64 soup = BeautifulSoup(html.content, 'html.parser')
  65. 65 name = soup.find(attrs={'class':'content','id':False})
  66. 66 names = name.h1.string
  67. 67 div = soup.find('div',attrs={'class':'showtxt'})
  68. 68 with open(path,'a',encoding='utf8') as f:
  69. 69 f.write(names + '\n')
  70. 70 for string in div.stripped_strings:
  71. 71 f.write(string+'\n')
  72. 72
  73. 73 if i%10 == 0:
  74. 74 print(i)
  75. 75 if i==1300:
  76. 76 break
  77. 77
  78. 78
  79. 79
  80. 80 if __name__ == '__main__':
  81. 81 get_one_page('https://www.qb5200.tw/xiaoshuo/2/2155/',True)
  82. 82 #wb.save(addr)
  83. 83 get_htmls()

python爬虫下载小视频和小说(基础)的更多相关文章

  1. (Python基础教程之二十二)爬虫下载网页视频(video blob)

    Python基础教程 在SublimeEditor中配置Python环境 Python代码中添加注释 Python中的变量的使用 Python中的数据类型 Python中的关键字 Python字符串操 ...

  2. 小白学 Python 爬虫(17):Requests 基础使用

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  3. 小白学 Python 爬虫(8):网页基础

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  4. python爬虫下载文件

    python爬虫下载文件 下载东西和访问网页差不多,这里以下载我以前做的一个安卓小游戏为例 地址为:http://hjwachhy.site/game/only_v1.1.1.apk 首先下载到内存 ...

  5. Python爬虫爬取全书网小说,程序源码+程序详细分析

    Python爬虫爬取全书网小说教程 第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下 点击Network之后出现如下 ...

  6. 小白学 Python 爬虫(11):urllib 基础使用(一)

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  7. 小白学 Python 爬虫(12):urllib 基础使用(二)

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  8. 小白学 Python 爬虫(13):urllib 基础使用(三)

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  9. 小白学 Python 爬虫(14):urllib 基础使用(四)

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

  1. CSS 奇思妙想边框动画

    今天逛博客网站 -- shoptalkshow,看到这样一个界面,非常有意思: 觉得它的风格很独特,尤其是其中一些边框. 嘿嘿,所以来一篇边框特辑,看看运用 CSS,可以在边框上整些什么花样. bor ...

  2. 【Linux】CentOS7中yumbackend.py进程的结束方法

    环境: CentOS Linux release 7.3.1611 (Core) 今天启动这个不怎么用的机器,才启动,就发现后台的yum无法进行安装,持续报这个错误 Loaded plugins: f ...

  3. 转发:[服务器]SSL安装证书教程

    [服务器]SSL安装证书教程   来自阿里云教程 Tomcat服务器安装SSL证书 安装PFX格式证书 https://help.aliyun.com/document_detail/98576.ht ...

  4. YYDS: Webpack Plugin开发

    目录 导读 一.cdn常规使用 二.开发一个webpack plugin 三.cdn优化插件实现 1.创建一个具名 JavaScript 函数(使用ES6的class实现) 2.在它的原型上定义 ap ...

  5. CTFshow-萌新赛逆向_签退

    查看题目信息 下载re3.pyc文件 使用uncompyle把re3.pyc反编译为re3.py uncompyle6 re3.pyc > re3.py 查看re3.py文件 # uncompy ...

  6. service代理模式及负载均衡

    [root@k8s-master ~]# vim service.yaml apiVersion: v1 kind: Service metadata: name: my-service spec: ...

  7. Nacos集成学习入门

    微服务注册中心nacos学习:先尝试使用它,然后撸它源码搞懂它. 在这里整理一下自己之前集成nacos的内容. 我的github地址:https://github.com/mrxiaobai-wen/ ...

  8. 浅入深出了解XXE漏洞

    环境搭建 https://github.com/c0ny1/xxe-lab 为了更深入的理解,我准备理论和实际相结合的了解XXE! 浅谈XML 初识XML 一个好的代码基础能帮助你更好理解一类漏洞,所 ...

  9. Nginx和Tomcat配置SSL实现https访问

    环境:CentOS 7 Nginx版本: nginx/1.18.0 1. 安装nginx 详细步骤可以参考如下官网:http://nginx.org/en/linux_packages.html#RH ...

  10. 欢迎来到 ZooKeeper 动物世界

    本文作者:HelloGitHub-老荀 Hi,这里是 HelloGitHub 推出的 HelloZooKeeper 系列,免费有趣.入门级的 ZooKeeper 开源教程,面向有编程基础的新手. Zo ...