作为一个资深吃货，网购各种零食是很频繁的，但是能否在浩瀚的商品库中找到合适的东西，就只能参考评论了！今天给大家分享用python做个抓取淘宝商品评论的小爬虫！

思路

我们就拿“德州扒鸡”做为参考目标吧~！如果想抓其他商品的话，自行更换目标即可！打开淘宝，搜索目标，随便点击一个商品进入,在点击累计评论，打开F12开发者工具——网络，先清除现有的所有内容，然后点击下一页评论，在弹出的内容中查找文件中开头为list_detail_rate.htm的html类型，如下图所示

这个html中就含有我们需要的内容，左键点击然后选择响应，就可以看到具体响应内容了！

这里面是一大串包含我们需要的内容在内的源代码，如果大家有兴趣可以提取内容做成json数据，而我们这里只需要评论数据，所以，用正则匹配评论部分就可以了！

开始写代码

具体过程就不赘述了，新建一个函数，接受店铺ID（唯一）作为参数，做一个无限循环来翻页，并以评论时间为判断是否重复，如果重复则跳出循环（return可以直接跳出循环），整个函数部分代码如下

# -*- coding=utf-8 -*-

#qq群:542110741

import requests

import re

import time

def get_comment(itemid):

    i = 1#开始页码

    d = []#构建一个列表用于判断是否继续循环

    lis = []#放置抓取到的内容

    while i:

        #构建循环用的url

        url = 'https://rate.tmall.com/list_detail_rate.htm?itemId={}&order=3&sellerId=1914459560&currentPage={}'.format(itemid,str(i))

        html = requests.get(url).text#获取相关内容的源代码

        pl = re.findall(r'"rateContent":"(.*?)","rateDate"',html)#评论抓取

        dat = re.findall(r'"rateDate":"(.*?)","reply"',html)#评论时间抓取

        if dat == d or pl ==[]:#判断是否重复或者是否存在评论

            print('==============================')

            return lis #跳出循环并返回值

        else:

            try:

                d = dat#没有重复则将评论时间赋值给d，用于下次循环判断

            except IndexError as e:

                continue#出现该错误则跳出循环，进行下一次

        print("第%d页评论"%i,pl)#打印评论内容

        lis.append(pl)

        i += 1

        time.sleep(2)#访问间隔

加入try是因为代码一直在抽风的跳出index错误,后续还可以改进！

作为一个爬虫爱好者，必然要加深抓取的广度的，试着将整个页面的店铺ID抓取出来！这次简单，直接抓到json数据，然后用正则匹配，返回列表，因为时间有限，没有研究出url翻页的依据，就只抓取了一页！

def get_id(kw='德州扒鸡'):

    '''

    只抓了首页44家店铺的，没有抓后面页面，后续需改进

    '''

    url = 'https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&' \

          '_ksTS=1529811793535_1018&callback=jsonp1019&q={}&imgfile=&js=1&' \

          'stats_click=search_radio_all:1&initiative_id=staobaoz_20180624&' \

          'ie=utf8&bcoffset=4&p4ppushleft=1,48'.format(kw)

    html = requests.get(url).text

    id_list = re.findall(r',"auctionNids":\[(.*?)\],"ifDoufuAuction"',html,re.S)[0]

    return id_list.replace('"','').split(',')

然后开始写主函数，保存到文档！运行结果如下

emmm，看评论是可以入手的！哈哈！

最后

想说几点，一个是自己写个小爬虫玩玩可以，做分析也行，但是务必切记不要外传扩散，很容易进坑！二是淘宝的反爬其实也不是很难，比如上面的爬虫，并没有做反爬措施，大家可以拿这个来练练手，记得加入sleep就可以，不要给对方服务器造成压力为最好！

代码写的不好，各路高手请见谅!欢迎大家来一起交流、学习！

Python爬虫，抓取淘宝商品评论内容!的更多相关文章

python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
Python实例之抓取淘宝商品数据（json型数据）并保存为TXT
本实例实现了抓取淘宝网中以‘python’为关键字的搜索结果,经详细查看数据存储于html文档中的js脚本中,数据类型为JSON 具体实现代码如下: import requests import re ...
python(27) 抓取淘宝买家秀
selenium 是Web应用测试工具,可以利用selenium和python,以及chromedriver等工具实现一些动态加密网站的抓取.本文利用这些工具抓取淘宝内衣评价买家秀图片. 准备工作下 ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
Python爬虫 -- 抓取电影天堂8分以上电影
看了几天的python语法,还是应该写个东西练练手.刚好假期里面看电影,找不到很好的影片,于是有个想法,何不搞个爬虫把电影天堂里面8分以上的电影爬出来.做完花了两三个小时,撸了这么一个程序.反正蛮简单 ...
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...

随机推荐

Docket 容器引擎
Docker 是世界领先的软件容器平台.是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中, 然后发布到任何流行的Linux或Windows机器上,可以实现虚拟化(软件 ...
Epicor support overview支持服务
提供以下服务项目: •Support services 支持服务•Implementations 实施•Epicor software upgrades 软件升级•Database support & ...
MyBatis（一）：第一个MyBatis程序
本文是按照狂神说的教学视频学习的笔记,强力推荐,教学深入浅出1便就懂!b站搜索狂神说即可 https://space.bilibili.com/95256449?spm_id_from=333.788 ...
家庭记账本app实现登录注册界面以及仿微信操作界面（共4个实现一个）遇到了麻烦
今天学习了数据的创建,以及关于数据库的相关操作. 今天主要是实现了对于数据库的增加和查找. 具体的代码如下: 首先是数据库的创建: DBOpenMessage.java package com.exa ...
操作文件-取出一个60s内log日志中ip访问次数超过100次的ip
import timea=0while True: d={} f = open(r"/Users/**juan/Downloads/access.log",encoding=&qu ...
10.1 io流--ASCII码表
day2.8中提到 /* * +: * 做加法运算 * * 字符参与加法运算,其实是拿字符在计算机中存储的数据值来参与运算的 * 'A' 65(B 66...) * 'a' 97(b 98...) * ...
python3（二十八）manyExten
""" 多重继承 """ __author__ = 'shaozhiqi' # start ------------------------ ...
scrapy版本爬取某网站，加入了ua池，ip池，不限速不封号，100个线程爬崩网站
目录 scrapy版本爬取妹子图关键所在下载图片前期准备代理ip池 UserAgent池 middlewares中间件(破解反爬) settings配置正题爬虫保存下载图片 scrapy版 ...
新手必须知道的13个Xcode小技巧
当谈论到iOS开发工具时,有一个肯定是所有iOS开发者都熟悉的,那就是Xcode.Xcode是使所有令人赞叹的iOS app成为可能的驱动力. Xcode能帮助我们完成非常多的事情,但是这也有点让人头 ...
stand up meeting 12/9/2015
part 组员今日工作工作耗时/h 明日计划工作耗时/h UI 冯晓云 -------------- -- ----------- -- PDF Reader 朱玉影 SDK终于差不 ...

Python爬虫，抓取淘宝商品评论内容!

开始写代码

Python爬虫，抓取淘宝商品评论内容!的更多相关文章

随机推荐

热门专题