python 爬起点目录

 #目标：书名，简介，作者,字数

 #首先确定源代码的列表

 import urllib.request

 import re

 from bs4 import BeautifulSoup

 import random

 import time

 load=input("路径:")

 num=input("输入页数：")

 def gethtml(url):                     #获取页面源代码html

     page=urllib.request.urlopen(url)

     html=page.read().decode('utf-8')  #html是一个列表

     soup=BeautifulSoup(html,'html.parser')

     return soup

 def getbook(soup,load):

     for i in range(1,21):

         xl=soup.find_all("li",{"data-rid":str(i)})

         sm = re.compile(r'<h4><a .*?>(.*?)</a></h4>')    #匹配书名

         sm1=sm.findall(str(xl))

         a="《"+sm1[0]+"》"

         ze = re.compile(r'<a class="name" .*?>(.*?)</a>')

         ze1 = ze.findall(str(xl))                        #匹配作者名

         b=ze1[0]

         jj=re.compile(r'<p class="intro">([\s\S]*?)</p>')

         jj1=jj.findall(str(xl))                          #匹配简介

         c=jj1[0]

         zs=re.compile(r'<span>(.*?)</span>')

         zs1=zs.findall(str(xl))

         d=zs1[1]

         content=[a,b,c,d]

         for j in range(0,4):

             with open(load, 'a') as f:

                 if j == 3:

                     f.write(content[3])

                 else:

                     f.write(content[j]+"\n")

         with open(load, 'a') as f:

             f.write("\n\n----------------------------------------------------------------------\n\n")

 def geturl(num):

     for page in range(1,int(num)+1):

         url="http://fin.qidian.com/?size=-1&sign=-1&tag=-1&chanId=-1&subCateId=-1&orderId=&update=-1&page=%d&month=-1&style=1&vip=0" % page

         soup=gethtml(url)

         getbook(soup,load)

         time.sleep(2.5)

 geturl(num)

实现

python 爬起点目录的更多相关文章

爬起点小说 day01
先介绍下我自己爬起点小说的思路: 1.爬取所有的类型列表 a.链接存redis中类型表:novel_list 具体每一种类型:bnovel_all_list(把novel_list和bnovel_l ...
python学习笔记目录
人生苦短,我学python学习笔记目录: week1 python入门week2 python基础week3 python进阶week4 python模块week5 python高阶week6 数据结 ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
代码地址如下:http://www.demodashi.com/demo/13257.html 1. 需求说明本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件. ...
用Python爬E站本
用Python爬E站本一.前言参考并改进自 OverJerry 大佬的教你怎么用Python爬取E站的本子_OverJerry. 本文为技术学习记录,不提供访问无存在网站的任何方法,也不包含不和 ...
Python 爬取热词并进行分类数据分析-[解释修复+热词引用]
日期:2020.02.02 博客期:141 星期日 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python爬取网易云音乐歌手歌曲和歌单
仅供学习参考 Python爬取网易云音乐网易云音乐歌手歌曲和歌单,并下载到本地很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做 ...
老猿Python博文汇总目录--按标题排序
☞ ░ 前往老猿Python博文目录 ░ 本部分为老猿CSDN全部博文的汇总(含转载部分),所有文章在此未进行归类,仅按文章标题排序,方便关键字查找.本部分内容将至少以周为单位定期更新,可能不包含发布 ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...

随机推荐

[qemu][kvm] 在一个vmware虚拟机里安装qemu-kvm虚拟机
说起来这个需求,简直是傻傻的.但却实实在在的摆在我的面前.... VM无外乎就是为了模拟场景:我现在要的场景就是一台很多个core的linux主机.但是我只有一个装了windows的笔记本.上边有一个 ...
[development][libconfig] 配置文件库
以前,一直用ini的配置文件. 简单清晰但是不灵活. 换一个: 试试libconfig 主页: http://www.hyperrealm.com/oss_libconfig.shtml githu ...
Altium Designer 绘图流程及快捷键
1.Shift+Ctrl+g 设置栅格捕捉大小 2.Q 切换单位 3.E+N +点击字体改变字体大小 4.自动布线前需在Mechanical 层和keepout层添加一个边框 5.打过孔实现双面走线 ...
unity 2d游戏按y坐标排序子对象
List<Transform> objs = new List<Transform>(); for (int i = 0; i < transform.childCoun ...
sharepoint webapp 部署注意点
只有在配置文件或 Page 指令中将 enableSessionState 设置为 true 时,才能使用会话状态.还请确保在应用程序配置的 // 节中包括 System.Web.SessionSta ...
myeclipse项目导入到eclipse， HttpServletRequest报红现象
eclipse项目中关于导入的项目里提示HttpServletRequest 不能引用的解决办法当使用eclipse导入外部的web工程时,有时会提示HttpServletRequest, Serv ...
pycharm换行
Pycharm自动换行只对当前文件有效的操作是菜单栏->View -> Active Editor -> Use Soft Wraps. 要是想对所有文件都起到效果,就要在sett ...
微信即将支持App直接打开小程序
“今年,微信将更快速地支持各APP直接打开小程序.”微信开放平台基础部高级产品经理林兴表示.对于官方即将支持的App直接打开小程序,林兴解释说,正如大家都喜欢微信钱包里的各种便捷服务,以后一个旅游攻略 ...
OC仿QQ侧滑
之前做侧滑用的控件的DDMenu,总感觉好像差了点什么,自己尝试写了一个,三层叠加,感觉效果不理想,偶然间看到了一篇博客,与大家分享,再次申明,该代码不是我写的,只是为了给自己留一个查找资料的机会下 ...
react-native-image-picker iOS设置
效果图,因为我用的是模拟器,所以拍照功能没有效果,不过可从相册选择,下面是具体的效果图把react-native-image-picker添加到项目 yarn add react-native-im ...

python 爬起点目录

python 爬起点目录的更多相关文章

随机推荐

热门专题