目的:按给定关键词爬取京东商品信息,并保存至mongodb。

字段:title、url、store、store_url、item_id、price、comments_count、comments

工具:requests、lxml、pymongo、concurrent

分析:

1.  https://search.jd.com/Search?keyword=耳机&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=er%27ji&page=1&s=56&click=0,这是京东搜索耳机的跳转url,其中关键参数为:

 keyword:关键词

 enc:字符串编码

 page:页码,需要注意的是,这里的数值均为奇数

 所以简化后的 url 为 https://search.jd.com/Search?keyword=耳机&enc=utf-8&page=1

2.  分析各字段的 xpath,发现在搜索页面只能匹配到 title、url、store、store_url、item_id、price。至于 comments_count、comments 需要单独发出请求。

3.  打开某一商品详情页,点击商品评价,打开开发者工具。点击评论区的下一页,发现在新的请求中,除去响应为媒体格式外,仅多出一个 js 响应,故猜测评论内容包含其中。

4.  分析上述请求的 url,简化后为 https://sclub.jd.com/comment/productPageComments.action?productId=100004325476&score=0&sortType=5&page=0&pageSize=10,其中:

 productId:商品的Id,可简单的从详情页的 url 中获取

 page:评论页码

5.  由以上可以得出,我们需要先从搜索页面中获取的商品 id,通过 id 信息再去获取评论信息。爬取评论时需要注意,服务器会判断请求头中的 Referer,即只有通过商品详情页访问才能得到评论,所以我们每次都根据 item_id 构造请求头。

6.  先将基础信息插入至数据库,在得到评论信息后,根据索引 item_id 将其补充完整。

代码:

 import requests
from lxml import etree
import pymongo
from concurrent import futures class CrawlDog:
def __init__(self, keyword):
"""
初始化
:param keyword: 搜索的关键词
"""
self.keyword = keyword
self.mongo_client = pymongo.MongoClient(host='localhost')
self.mongo_collection = self.mongo_client['spiders']['jd']
self.mongo_collection.create_index([('item_id', pymongo.ASCENDING)]) def get_index(self, page):
"""
从搜索页获取相应信息并存入数据库
:param page: 搜索页的页码
:return: 商品的id
"""
url = 'https://search.jd.com/Search?keyword=%s&enc=utf-8&page=%d' % (self.keyword, page)
index_headers = {
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,'
'application/signed-exchange;v=b3',
'accept-encoding': 'gzip, deflate, br',
'Accept-Charset': 'utf-8',
'accept-language': 'zh,en-US;q=0.9,en;q=0.8,zh-TW;q=0.7,zh-CN;q=0.6',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/74.0.3729.169 Safari/537.36'
}
rsp = requests.get(url=url, headers=index_headers).content.decode()
rsp = etree.HTML(rsp)
items = rsp.xpath('//li[contains(@class, "gl-item")]')
for item in items:
try:
info = dict()
info['title'] = ''.join(item.xpath('.//div[@class="p-name p-name-type-2"]//em//text()'))
info['url'] = 'https:' + item.xpath('.//div[@class="p-name p-name-type-2"]/a/@href')[0]
info['store'] = item.xpath('.//div[@class="p-shop"]/span/a/text()')[0]
info['store_url'] = 'https' + item.xpath('.//div[@class="p-shop"]/span/a/@href')[0]
info['item_id'] = info.get('url').split('/')[-1][:-5]
info['price'] = item.xpath('.//div[@class="p-price"]//i/text()')[0]
info['comments'] = []
self.mongo_collection.insert_one(info)
yield info['item_id']
# 实际爬取过程中有一些广告, 其中的一些上述字段为空
except IndexError:
print('item信息不全, drop!')
continue def get_comment(self, params):
"""
获取对应商品id的评论
:param params: 字典形式, 其中item_id为商品id, page为评论页码
:return:
"""
url = 'https://sclub.jd.com/comment/productPageComments.action?productId=%s&score=0&sortType=5&page=%d&' \
'pageSize=10' % (params['item_id'], params['page'])
comment_headers = {
'Referer': 'https://item.jd.com/%s.html' % params['item_id'],
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/74.0.3729.169 Safari/537.36'
}
rsp = requests.get(url=url, headers=comment_headers).json()
comments_count = rsp.get('productCommentSummary').get('commentCountStr')
comments = rsp.get('comments')
comments = [comment.get('content') for comment in comments]
self.mongo_collection.update_one(
# 定位至相应数据
{'item_id': params['item_id']},
{
'$set': {'comments_count': comments_count}, # 添加comments_count字段
'$addToSet': {'comments': {'$each': comments}} # 将comments中的每一项添加至comments字段中
}, True) def main(self, index_pn, comment_pn):
"""
实现爬取的函数
:param index_pn: 爬取搜索页的页码总数
:param comment_pn: 爬取评论页的页码总数
:return:
"""
# 爬取搜索页函数的参数列表
il = [i * 2 + 1 for i in range(index_pn)]
# 创建一定数量的线程执行爬取
with futures.ThreadPoolExecutor(15) as executor:
res = executor.map(self.get_index, il)
for item_ids in res:
# 爬取评论页函数的参数列表
cl = [{'item_id': item_id, 'page': page} for item_id in item_ids for page in range(comment_pn)]
with futures.ThreadPoolExecutor(15) as executor:
executor.map(self.get_comment, cl) if __name__ == '__main__':
# 测试, 只爬取两页搜索页与两页评论
test = CrawlDog('耳机')
test.main(2, 2)

总结:爬取的过程中可能会被封 IP,测试时评论页面的获取被封锁,使用代理可以解决该问题,后面会来主要说一下代理的使用。

Python爬虫-爬取京东商品信息-按给定关键词的更多相关文章

  1. Java爬虫爬取京东商品信息

    以下内容转载于<https://www.cnblogs.com/zhuangbiing/p/9194994.html>,在此仅供学习借鉴只用. Maven地址 <dependency ...

  2. selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装

    今日内容概要 selenium的使用 打码平台使用 xpath使用 爬取京东商品信息 scrapy 介绍和安装 内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...

  3. selenium+phantomjs爬取京东商品信息

    selenium+phantomjs爬取京东商品信息 今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...

  4. python制作爬虫爬取京东商品评论教程

    作者:蓝鲸 类型:转载 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下 ...

  5. python爬虫爬取京东、淘宝、苏宁上华为P20购买评论

    爬虫爬取京东.淘宝.苏宁上华为P20购买评论 1.使用软件 Anaconda3 2.代码截图 三个网站代码大同小异,因此只展示一个 3.结果(部分) 京东 淘宝 苏宁 4.分析 这三个网站上的评论数据 ...

  6. 简单的python爬虫--爬取Taobao淘女郎信息

    最近在学Python的爬虫,顺便就练习了一下爬取淘宝上的淘女郎信息:手法简单,由于淘宝网站本上做了很多的防爬措施,应此效果不太好! 爬虫的入口:https://mm.taobao.com/json/r ...

  7. 八个commit让你学会爬取京东商品信息

    我发现现在不用标题党的套路还真不好吸引人,最近在做相关的事情,从而稍微总结出了一些文字.我一贯的想法吧,虽然才疏学浅,但是还是希望能帮助需要的人.博客园实在不适合这种章回体的文章.这里,我贴出正文的前 ...

  8. 利用selenium爬取京东商品信息存放到mongodb

    利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...

  9. 正则爬取京东商品信息并打包成.exe可执行程序。

    本文爬取内容,输入要搜索的关键字可自动爬取京东网站上相关商品的店铺名称,商品名称,价格,爬取100页(共100页) 代码如下: import requests import re # 请求头 head ...

随机推荐

  1. PJzhang:漏洞渗透测试框架“天使之剑(AngelSword)”

    猫宁!!! 参考链接: www.phpinfo.cc/?post=42 https://www.freebuf.com/sectool/149883.html 同事介绍了一款渗透测试框架AngelSw ...

  2. hive的使用 + hive的常用语法

    本博文的主要内容有: .hive的常用语法 .内部表 .外部表 .内部表,被drop掉,会发生什么? .外部表,被drop掉,会发生什么? .内部表和外部表的,保存的路径在哪? .用于创建一些临时表存 ...

  3. scikit-learning API

    API参考 这是scikit学习的类和函数参考.有关详细信息,请参阅完整的用户指南,因为类和功能原始规格可能不足以给出其使用的完整指导. sklearn.base:基类和效用函数 所有估计器的基类. ...

  4. Linux下mysql新建账号及权限设置各种方式总结

    来自:http://justcoding.iteye.com/blog/1941116 1.权限赋予 说明:mysql部署在服务器A上,内网上主机B通过客户端工具连接服务器A以进行数据库操作,需要服务 ...

  5. NIO服务端主要创建过程

    NIO服务端主要创建过程:   步骤一:打开ServerSocketChannel,用于监听客户端的连接,它是所有客户端连接的副管道,示例代码如下:      ServerSocketChannel ...

  6. IOS 根据身份证号码获取 年龄 生日 性别

    /** 从身份证上获取年龄 18位身份证 */ -(NSString *)getIdentityCardAge:(NSString *)numberStr { NSDateFormatter *for ...

  7. linux php扩展安装gettext

    php解压后的文件路径为/usr/local/src/php-5.2.6 php 的安装路径为/usr/local/php [root@localhost# cd  /usr/local/src/ph ...

  8. Javaweb学习笔记4—Reuest&Response

    今天来讲javaweb的第四段学习. Request和Response还是比较重要的 老规矩,首先先用一张思维导图来展现今天的博客内容. ps:我的思维是用的xMind画的,如果你对我的思维导图感兴趣 ...

  9. Java遍历HashMap并修改(remove)

    遍历HashMap的方法有多种,比如通过获取map的keySet, entrySet, iterator之后,都可以实现遍历,然而如果在遍历过程中对map进行读取之外的操作则需要注意使用的遍历方式和操 ...

  10. vue+element ui项目总结点(一)select、Cascader级联选择器、encodeURI、decodeURI转码解码、mockjs用法、路由懒加载三种方式

    不多说上代码: <template> <div class="hello"> <h1>{{ msg }}</h1> <p> ...