Python爬虫-爬取京东商品信息-按给定关键词

目的：按给定关键词爬取京东商品信息，并保存至mongodb。

字段：title、url、store、store_url、item_id、price、comments_count、comments

工具：requests、lxml、pymongo、concurrent

分析：

1. https://search.jd.com/Search?keyword=耳机&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=er%27ji&page=1&s=56&click=0，这是京东搜索耳机的跳转url，其中关键参数为：

　keyword：关键词

　enc：字符串编码

　page：页码，需要注意的是，这里的数值均为奇数

　所以简化后的 url 为 https://search.jd.com/Search?keyword=耳机&enc=utf-8&page=1

2. 分析各字段的 xpath，发现在搜索页面只能匹配到 title、url、store、store_url、item_id、price。至于 comments_count、comments 需要单独发出请求。

3. 打开某一商品详情页，点击商品评价，打开开发者工具。点击评论区的下一页，发现在新的请求中，除去响应为媒体格式外，仅多出一个 js 响应，故猜测评论内容包含其中。

4. 分析上述请求的 url，简化后为 https://sclub.jd.com/comment/productPageComments.action?productId=100004325476&score=0&sortType=5&page=0&pageSize=10，其中：

　productId：商品的Id，可简单的从详情页的 url 中获取

　page：评论页码

5. 由以上可以得出，我们需要先从搜索页面中获取的商品 id，通过 id 信息再去获取评论信息。爬取评论时需要注意，服务器会判断请求头中的 Referer，即只有通过商品详情页访问才能得到评论，所以我们每次都根据 item_id 构造请求头。

6. 先将基础信息插入至数据库，在得到评论信息后，根据索引 item_id 将其补充完整。

代码:

 import requests

 from lxml import etree

 import pymongo

 from concurrent import futures

 class CrawlDog:

     def __init__(self, keyword):

         """

         初始化

         :param keyword: 搜索的关键词

         """

         self.keyword = keyword

         self.mongo_client = pymongo.MongoClient(host='localhost')

         self.mongo_collection = self.mongo_client['spiders']['jd']

         self.mongo_collection.create_index([('item_id', pymongo.ASCENDING)])

     def get_index(self, page):

         """

         从搜索页获取相应信息并存入数据库

         :param page: 搜索页的页码

         :return: 商品的id

         """

         url = 'https://search.jd.com/Search?keyword=%s&enc=utf-8&page=%d' % (self.keyword, page)

         index_headers = {

             'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,'

                       'application/signed-exchange;v=b3',

             'accept-encoding': 'gzip, deflate, br',

             'Accept-Charset': 'utf-8',

             'accept-language': 'zh,en-US;q=0.9,en;q=0.8,zh-TW;q=0.7,zh-CN;q=0.6',

             'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '

                           'Chrome/74.0.3729.169 Safari/537.36'

         }

         rsp = requests.get(url=url, headers=index_headers).content.decode()

         rsp = etree.HTML(rsp)

         items = rsp.xpath('//li[contains(@class, "gl-item")]')

         for item in items:

             try:

                 info = dict()

                 info['title'] = ''.join(item.xpath('.//div[@class="p-name p-name-type-2"]//em//text()'))

                 info['url'] = 'https:' + item.xpath('.//div[@class="p-name p-name-type-2"]/a/@href')[0]

                 info['store'] = item.xpath('.//div[@class="p-shop"]/span/a/text()')[0]

                 info['store_url'] = 'https' + item.xpath('.//div[@class="p-shop"]/span/a/@href')[0]

                 info['item_id'] = info.get('url').split('/')[-1][:-5]

                 info['price'] = item.xpath('.//div[@class="p-price"]//i/text()')[0]

                 info['comments'] = []

                 self.mongo_collection.insert_one(info)

                 yield info['item_id']

             # 实际爬取过程中有一些广告, 其中的一些上述字段为空

             except IndexError:

                 print('item信息不全, drop!')

                 continue

     def get_comment(self, params):

         """

         获取对应商品id的评论

         :param params: 字典形式, 其中item_id为商品id, page为评论页码

         :return:

         """

         url = 'https://sclub.jd.com/comment/productPageComments.action?productId=%s&score=0&sortType=5&page=%d&' \

               'pageSize=10' % (params['item_id'], params['page'])

         comment_headers = {

             'Referer': 'https://item.jd.com/%s.html' % params['item_id'],

             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '

                           'Chrome/74.0.3729.169 Safari/537.36'

         }

         rsp = requests.get(url=url, headers=comment_headers).json()

         comments_count = rsp.get('productCommentSummary').get('commentCountStr')

         comments = rsp.get('comments')

         comments = [comment.get('content') for comment in comments]

         self.mongo_collection.update_one(

             # 定位至相应数据

             {'item_id': params['item_id']},

             {

                 '$set': {'comments_count': comments_count},  # 添加comments_count字段

                 '$addToSet': {'comments': {'$each': comments}}  # 将comments中的每一项添加至comments字段中

             }, True)

     def main(self, index_pn, comment_pn):

         """

         实现爬取的函数

         :param index_pn: 爬取搜索页的页码总数

         :param comment_pn: 爬取评论页的页码总数

         :return:

         """

         # 爬取搜索页函数的参数列表

         il = [i * 2 + 1 for i in range(index_pn)]

         # 创建一定数量的线程执行爬取

         with futures.ThreadPoolExecutor(15) as executor:

             res = executor.map(self.get_index, il)

         for item_ids in res:

             # 爬取评论页函数的参数列表

             cl = [{'item_id': item_id, 'page': page} for item_id in item_ids for page in range(comment_pn)]

             with futures.ThreadPoolExecutor(15) as executor:

                 executor.map(self.get_comment, cl)

 if __name__ == '__main__':

     # 测试, 只爬取两页搜索页与两页评论

     test = CrawlDog('耳机')

     test.main(2, 2)

总结：爬取的过程中可能会被封 IP，测试时评论页面的获取被封锁，使用代理可以解决该问题，后面会来主要说一下代理的使用。

Python爬虫-爬取京东商品信息-按给定关键词的更多相关文章

Java爬虫爬取京东商品信息
以下内容转载于<https://www.cnblogs.com/zhuangbiing/p/9194994.html>,在此仅供学习借鉴只用. Maven地址 <dependency ...
selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装
今日内容概要 selenium的使用打码平台使用 xpath使用爬取京东商品信息 scrapy 介绍和安装内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...
selenium+phantomjs爬取京东商品信息
selenium+phantomjs爬取京东商品信息今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...
python制作爬虫爬取京东商品评论教程
作者:蓝鲸类型:转载本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下 ...
python爬虫爬取京东、淘宝、苏宁上华为P20购买评论
爬虫爬取京东.淘宝.苏宁上华为P20购买评论 1.使用软件 Anaconda3 2.代码截图三个网站代码大同小异,因此只展示一个 3.结果(部分) 京东淘宝苏宁 4.分析这三个网站上的评论数据 ...
简单的python爬虫--爬取Taobao淘女郎信息
最近在学Python的爬虫,顺便就练习了一下爬取淘宝上的淘女郎信息:手法简单,由于淘宝网站本上做了很多的防爬措施,应此效果不太好! 爬虫的入口:https://mm.taobao.com/json/r ...
八个commit让你学会爬取京东商品信息
我发现现在不用标题党的套路还真不好吸引人,最近在做相关的事情,从而稍微总结出了一些文字.我一贯的想法吧,虽然才疏学浅,但是还是希望能帮助需要的人.博客园实在不适合这种章回体的文章.这里,我贴出正文的前 ...
利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
正则爬取京东商品信息并打包成.exe可执行程序。
本文爬取内容,输入要搜索的关键字可自动爬取京东网站上相关商品的店铺名称,商品名称,价格,爬取100页(共100页) 代码如下: import requests import re # 请求头 head ...

随机推荐

项目中java异常处理
一.java异常类介绍. Throwable: 有两个重要的子类:Exception(异常)和 Error(错误),二者都是 Java 异常处理的重要子类,各自都包含大量子类. 有一篇比较好的blog ...
htm5 + ajax 文件上传
好文 http://www.cnblogs.com/morlin/p/4930822.html 后台接收 FormData 的参数一直为空,将jquery改为最高版本,问题解决.测试发现IE10以上才 ...
SpringBoot | contrller的使用
@Controller 处理http请求 @RestController Spring4之后新加的注解,原来返回json需要@ResponseBody配合@Controller @RequestMap ...
_bzoj1257 [CQOI2007]余数之和sum【小技巧】
传送门:http://www.lydsy.com/JudgeOnline/problem.php?id=1257 最近刚做了一道莫比乌斯的题,需要用到这种方法. 应该让k / i相等的一连串k % i ...
Throwing Dice LightOJ - 1064 || （勉强能用的）分数类
Throwing Dice LightOJ - 1064 方法: 设ans[i][j]表示i个骰子点数恰好为j的概率.那么ans[1][1]到ans[1][6]都为1/6. 显然,$ans[i][j] ...
素数+map BestCoder Round #54 (div.2) 1002 The Factor
题目传送门题意:给出一个数列,问数列的乘积的一个满足条件的最小因子是什么,没有输出-1.条件是不是素数分析:官方题解:对于每一个数字,它有用的部分其实只有它的所有质因子(包括相等的).求出所有数的 ...
474 Ones and Zeroes 一和零
在计算机界中,我们总是追求用有限的资源获取最大的收益.现在,假设你分别支配着 m 个 0 和 n 个 1.另外,还有一个仅包含 0 和 1 字符串的数组.你的任务是使用给定的 m 个 0 和 n 个 ...
131 Palindrome Partitioning 分割回文串
给定一个字符串 s,将 s 分割成一些子串,使每个子串都是回文串.返回 s 所有可能的分割方案.例如,给出 s = "aab",返回[ ["aa"," ...
Ansj分词的使用
jar包下载地址:http://download.csdn.net/download/jj12345jj198999/6020541 博客地址:http://blog.csdn.net/a822631 ...
canvas基础绘制-绚丽时钟
效果图: 与canvas基础绘制-绚丽倒计时的代码差异: // var endTime = new Date();//const声明变量,不可修改,必须声明时赋值: // endTime.setTim ...

Python爬虫-爬取京东商品信息-按给定关键词

Python爬虫-爬取京东商品信息-按给定关键词的更多相关文章

随机推荐

热门专题