python网络爬虫之四简单爬取豆瓣图书项目

一.爬虫项目一：

豆瓣图书网站图书的爬取：

import requests

import re

content = requests.get("https://book.douban.com/").text

#注：此时我们打印输出结果，可以看到输出我们的网页字符串：

# print(content)

#然后我们编辑匹配豆瓣图书网站抓取图书所用到的正则表达式。

pattern = re.compile(r'<li.*?class="cover".*?href="(.*?)".title.*?class="info".*?class="more-meta".*?class="title">(.*?)</h4>.*?class="author">(.*?)</span>.*?class="year">(.*?)</span>.*?class="publisher">(.*?)</span>.*?</li>',re.S)

#注意，经过测试，我们可以使用.代表空格，然后匹配的元组(.*?)后面最好不要再加.*?，要不然这样容易报错，

#容易匹配不出结果。

results = re.findall(pattern,content)

#然后我们通过re.findall函数就可以匹配出我们想要的结果了。

print(results)

#注，经过测试，我们发现，通过re.findall返回的结果也就是我们获取的结果是一个列表，而每一个列表

#里面的数据都是一个元组，此时我们就可以先通过循环便利的方式先获取到列表里面的个每个元组

for result in results:

    print(result)

#注，通过循环遍历的方式，我们就可以获取到列表里面的每个元组，从打印出来的每个元组的信息来看，每个元组

#都有五个元素，他们分别是url,name,author,date,publisher

获取元组里面的数据，我们可以通过位置符号来指定：

如，result[0],result[1],result[2],result[3],result[4]，我们也可以直接打印输出：

如：print(result[0],result[1],result[2],result[3],result[4])

我们也可以通过一一对应的方式，将元组中的各个元素分别赋值给每个变量：

如下所示：

    url,name,author,date,publisher = result

然后打印输出：

    print(url,name,author,date,publisher)

#但是经过测试我们可以发现，其实每个元组里面的值后面都带了一个换行符，导致元组里面的数据取出来的时候

#不是在一行里面显示的，此时我们可以将这些换行符去掉，这里我们有两种方式，可以实现目的：

第一种方式：

#使用strip()的方法，去除字符串周围的空格元素，即可得到我们想要的结果

    url = url.strip()

    name = name.strip()

    author = author.strip()

    date = date.strip()
    publisher = publisher.strip()

#此时打印输出，就可以得到我们想要的值。

    print(url,name,author,date,publisher)

第二种方式：使用re.sub的方法：

#用空字符串来替换我们字符串中的换行符，此时我们用\s来代表换行符，用一个空字符串来替代他，格式如下：

    url = re.sub('\s', "", url)

    name = re.sub('\s', "", name)

    author = re.sub('\s', "", author)

    date = re.sub('\s', "", date)

    publisher = re.sub('\s', "", publisher)

#此时打印输出，也可以得到我们想要的值。

    print(url,name,author,date,publisher)

python网络爬虫之四简单爬取豆瓣图书项目的更多相关文章

Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识
网站站点的背景调研 1. 检查 robots.txt 网站都会定义robots.txt 文件,这个文件就是给网络爬虫来了解爬取该网站时存在哪些限制.当然了,这个限制仅仅只是一个建议,你可以遵守,也 ...
Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
爬虫实战_爬取豆瓣图书利用csv库存储
读取csv文件通过csv.reader()和DictReader()两个函数 reader()函数返回一个迭代器会包含表头通过next函数可以跳过,但是它只能通过下标访问数据: DictRead ...
【Python网络爬虫三】爬取网页新闻
学弟又一个自然语言处理的项目,需要在网上爬一些文章,然后进行分词,刚好牛客这周的是从一个html中找到正文,就实践了一下.写了一个爬门户网站新闻的程序需求: 从门户网站爬取新闻,将新闻标题,作者,时 ...
精通python网络爬虫之自动爬取网页的爬虫代码记录
items的编写 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentati ...
Python 网络爬虫实战：爬取 B站《全职高手》20万条评论数据
本周我们的目标是:B站(哔哩哔哩弹幕网 https://www.bilibili.com )视频评论数据. 我们都知道,B站有很多号称“镇站之宝”的视频,拥有着数量极其恐怖的评论和弹幕.所以这次我们的 ...
python系列之（3）爬取豆瓣图书数据
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...
Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129
大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...
requests+正则爬取豆瓣图书
#requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 ...

随机推荐

SQL2008安装时，“provider: 命名管道提供程序, error: 40 - 无法打开到 SQL Server 的连接) (.Net SqlClient Data Provider)” 错误的解决方案
错误提示: 在与 SQL Server 建立连接时出现与网络相关的或特定于实例的错误.未找到或无法访问服务器.请验证实例名称是否正确并且 SQL Server 已配置为允许远程连接. (provide ...
深信服：Weblogic集群负载均衡技术解决方案
深信服应用交付产品替换集群中的Master节点,以双机模式部署接入,为Cluster 内的服务器提供应用交换服务,结合健康检查和业务特点,提供十几种负载均衡算法组合,满足多种生产环境下的业务需求. ...
SecureCRT5 中文乱码
SecureCRT5 中文乱码 secureCRT7已经不用这样设置了: 学习了:http://www.iitshare.com/securecrt-chinese-garbled-solution. ...
Office WORD里插入图片，嵌入型只能显示一半怎么办
如下图所示,公式编辑器插入的图片如果用嵌入型只能显示一半,但是改成其他方式即可全部显示选中有问题的段落,点击设置为单倍行距即可
Redis 入门指南
就是DBIdx
【Mongodb教程第六课】MongoDB 插入文档
insert() 方法要插入数据到 MongoDB 集合,需要使用 MongoDB 的 insert() 或 save() 方法. 语法 insert() 命令的基本语法如下: >db.CO ...
HTTP协议漫谈 C#实现图（Graph) C#实现二叉查找树浅谈进程同步和互斥的概念 C#实现平衡多路查找树(B树)
HTTP协议漫谈简介园子里已经有不少介绍HTTP的的好文章.对HTTP的一些细节介绍的比较好,所以本篇文章不会对HTTP的细节进行深究,而是从够高和更结构化的角度将HTTP协议的元素进行分类讲 ...
深度学习笔记之CNN（卷积神经网络）基础
不多说,直接上干货! 卷积神经网络(ConvolutionalNeural Networks,简称CNN)提出于20世纪60年代,由Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经 ...
发现个delphi调用vc写的Dll中包括pchar參数报错奇怪现象
发现个delphi调用vc写的Dll中包括pchar參数奇怪现象 procedure中的第一行语句不能直接调用DLL的函数,否则会执行报错,在之前随意加上条语句就不报错了奇怪! vc的DLL源代码地址 ...
xcode10的那些事
前言这里主要介绍一下Xcode10 版本主要更新的内容.随着iOS12的发布,Xcode10已经可以从Mac App Store下载.Xcode10包含了iOS12.watchOS 5.macOS1 ...

python网络爬虫之四简单爬取豆瓣图书项目

python网络爬虫之四简单爬取豆瓣图书项目的更多相关文章

随机推荐

热门专题