网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格

通过上一篇随笔的处理，我们已经拿到了书的书名和ISBN码。(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码)

接下来将通过ISBN码去amazon.com获取每本书对应的价格。

一、了解需要和分析网站

通过分析amazon.com得知，以ISBN码作为搜索关键字可查找到对应的书。

结果页码就有这本书的价格，既然价格是以$符号开头，那就可以通过正则表达式得到价格。

通过正则表达式匹配价格代码：

def get_price_amazon(isbn):

    base_url = "https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords="

    url = base_url + str(isbn)

    page = urlopen(url)

    soup = BeautifulSoup(page, 'lxml')

    page.close()

    price_regexp = re.compile("\$[0-9]+(\.[0-9]{2})?")

    price = soup.find(text=price_regexp)

    return [isbn, price]

上一篇随笔中已经得到了所有书籍的ISBN码，遍历所有的ISBN码传入get_price_amazon()方法即可获取所有书籍的价格，运行结果：

二、将两部分结果数据合并

前两天刚学过数据处理(利用Python进行数据分析基础系列随笔汇总)，为了练练手，这里通过pandas将两部分数据合并起来：

book_info_data = pd.read_csv('books.csv')

price_data = pd.read_csv('prices.csv')

result = pd.merge(book_info_data, price_data, on='isbn')

result.to_csv('result.csv', index=False, header=True, columns=['isbn', 'title', 'price'])

result.csv文件结果：

完整代码请移步github：https://github.com/backslash112/book_scraper_python

Beautiful Soup基础知识：网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup

我们处于大数据时代，对数据处理感兴趣的朋友欢迎查看另一个系列随笔：利用Python进行数据分析基础系列随笔汇总

接下来打算学习Scrapy库，Scrapy是一个采集工具，它可以帮你大幅降低网页查找和识别工作，轻松采集一个或多个域名的信息。有兴趣的朋友欢迎关注本博客，也欢迎大家留言进行讨论。

大数据，大数据分析、BeautifulSoup，Beautiful Soup入门，数据挖掘，数据分析，数据处理，pandas，网络爬虫，web scraper，python excel，python写入excel数据，python处理csv文件 python操作Excel，excel读写通过上一篇随笔的处理，我们已经拿到了书的书名和ISBN码。(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码)
接下来将通过ISBN码去amazon.com获取每本书对应的价格。

一、了解需要和分析网站

通过分析amazon.com得知，以ISBN码作为搜索关键字可查找到对应的书。
结果页码就有这本书的价格，既然价格是以$符号开头，那就可以通过正则表达式得到价格。通过上一篇随笔的处理，我们已经拿到了书的书名和ISBN码。(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码)
接下来将通过ISBN码去amazon.com获取每本书对应的价格。

一、了解需要和分析网站

通过分析amazon.com得知，以ISBN码作为搜索关键字可查找到对应的书。
结果页码就有这本书的价格，既然价格是以$符号开头，那就可以通过正则表达式得到价格。

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格的更多相关文章

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...
Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包(免费赠送)+崔庆才
Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包+崔庆才下载: 链接:https://pan.baidu.com/s/1H-VrvrT7wE9-CW2Dy2p0qA 提取码:35go ...
Python简单网络爬虫实战—下载论文名称，作者信息（下）
在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup
开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful ...
网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务
上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...
java之网络爬虫介绍
文章大纲一.网络爬虫基本介绍二.java常见爬虫框架介绍三.WebCollector实战四.项目源码下载五.参考文章一.网络爬虫基本介绍 1. 什么是网络爬虫网络爬虫(又被称为网页蜘蛛, ...
Java网络爬虫 HttpClient
简介 : HttpClient是Apache Jakarta Common下的子项目,用于提供高效的,功能丰富的支持HTTP协议的客户编程工具包,其主要功能如下: 实现了所有HTTP的方法 : GET ...
《精通Python网络爬虫》|百度网盘免费下载|Python爬虫实战
<精通Python网络爬虫>|百度网盘免费下载|Python爬虫实战提取码:7wr5 内容简介为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引 ...
Day01_WebCrawler(网络爬虫)
学于黑马和传智播客联合做的教学项目感谢黑马官网传智播客官网微信搜索"艺术行者",关注并回复关键词"webcrawler"获取视频和教程资料! b站在线视 ...

随机推荐

[Java 缓存] Java Cache之 DCache的简单应用.
前言上次总结了下本地缓存Guava Cache的简单应用, 这次来继续说下项目中使用的DCache的简单使用. 这里分为几部分进行总结, 1)DCache介绍; 2)DCache配置及使用; 3)使 ...
SDWebImage源码解读之SDWebImageCache(上)
第五篇前言本篇主要讲解图片缓存类的知识,虽然只涉及了图片方面的缓存的设计,但思想同样适用于别的方面的设计.在架构上来说,缓存算是存储设计的一部分.我们把各种不同的存储内容按照功能进行切割后,图片缓 ...
HTML5笔记2——HTML5音/视频标签详解
音视频的发展史早期:<embed>+<object>+文件问题:不是所有浏览器都支持,而且embed不是标准. 现状:Realplay.window media.Quick ...
笔记：Memory Notification: Library Cache Object loaded into SGA
笔记:Memory Notification: Library Cache Object loaded into SGA在警告日志中发现一些这样的警告信息:Mon Nov 21 14:24:22 20 ...
SQL数据类型
1.Character 字符串: 数据类型描述存储 char(n) 固定长度的字符串.最多8,000个字符. n varchar(n) 可变长度的字符串.最多8,000个字符. varchar ...
图解Spark API
初识spark,需要对其API有熟悉的了解才能方便开发上层应用.本文用图形的方式直观表达相关API的工作特点,并提供了解新的API接口使用的方法.例子代码全部使用python实现. 1. 数据源准备 ...
分享一个php的启动关闭脚本（原）
自己简单写的一个php服务的启动脚本和大家分享思路(实现的原理): 1:function模块+case语句多分支判断 2:通过添加# chkconfig: 2345 43 89注释实现开机自启动(前 ...
JavaScript 写计算器改进版
<html><head><style> .short{height:50px;width:55px;float:left;}</style></h ...
在Mac OS X上安装ASP.NET 5（译文）
ASP.NET 5 运行在包括OS X的可用于多个平台的.NET Execution Environment(DNX)上.本文介绍如何在OS X上通过HomeBrew安装DNX和ASP.NET 5. ...
NodeJs 开发微信公众号（三）微信事件交互
微信公众号有个规则,一旦开启了开发者模式,其他的常规功能就都必须通过接口调用完成.比如说自定义菜单功能,必须通过发送post请求的方式生成.本章就通过关注到取消关注的整个过程来谈一谈nodejs是怎么 ...

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格的更多相关文章

随机推荐

热门专题