Spider--补充--jsonpath的使用

# 知识点参见：https://blog.csdn.net/muzico425/article/details/102763176

# 示例：爬取示例网站的首页的评论：

# 解析得到的字符串r.text(即 json字符串)可以使用json库来完成解析：

import json

import requests

url = """https://api-zero.livere.com/v1/comments/list?callback=jQuery112406954584941688864_1592120544800&limit=10&repSeq=4547710&requestPath=%2Fv1%2Fcomments%2Flist&consumerSeq=1020&livereSeq=28583&smartloginSeq=5154&code=1afecb1fc5912d454d80ffc6&_=1592120544802"""

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362'}

r = requests.get(url, headers= headers)

json_data_dict=json.loads(r.text[r.text.find('{'):-2])

# 将从左大括号开始至倒数第三个字符（即将字符串末尾的括号和分号去除掉）load反序列化成字典。

# json_data_dict是一个字典嵌套字典的数据结构（字典的value是字典）。

# 其中外部字典的results键对应一个字典，该字典的parents键对应一个值是列表（列表的元素又是字典）。

comments_list=json_data_dict['results']['parents']

for comment_dict in comments_list:

    print(comment_dict['content'])

# 或 ：

import json

import requests

import jsonpath

url = """https://api-zero.livere.com/v1/comments/list?callback=jQuery112406954584941688864_1592120544800&limit=10&repSeq=4547710&requestPath=%2Fv1%2Fcomments%2Flist&consumerSeq=1020&livereSeq=28583&smartloginSeq=5154&code=1afecb1fc5912d454d80ffc6&_=1592120544802"""

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362'}

r = requests.get(url, headers= headers)

json_data_dict=json.loads(r.text[r.text.find('{'):-2])  

comments_list=jsonpath.jsonpath(json_data_dict,'$.results.parents[*].content')  # 使用 jsonpath替代复杂的数据结构的索引

for comment in comments_list:

    print(comment)

Spider--补充--jsonpath的使用的更多相关文章

scrapy知识补充--scrapy shell 及Spider
什么是scrapy shell? Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试xpath或css表达是,来查看他们的工作方式,方便爬取页面中的数据 ...
什么是网络爬虫(Spider) 程序
Spider又叫WebCrawler或者Robot,是一个沿着链接漫游Web 文档集合的程序.它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访 ...
让Scrapy的Spider更通用
1,引言 <Scrapy的架构初探>一文所讲的Spider是整个架构中最定制化的一个部件,Spider负责把网页内容提取出来,而不同数据采集目标的内容结构不一样,几乎需要为每一类网页都做定 ...
一.HttpClient、JsonPath、JsonObject运用
HttpClient详细应用请参考官方api文档:http://hc.apache.org/httpcomponents-client-4.5.x/httpclient/apidocs/index.h ...
爬虫之案列1补充（pipelines优化）
1. 先打开settings.py文件将 'ITEM_PIPELINES'启动(取消注释即可) 2. spider代码 # -*- coding: utf-8 -*- import scrapy im ...
【Spider】学习使用XMLFeedSpider
前面写了学习CrawlSpider遇到的问题后,今天学XMLFeedSpider又出现了启动后没爬取到数据,但又不报错的情况经过排查,发现又是一个粗心大意的错误: class SpiderUserX ...
python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(2)
上半部分内容链接 : https://www.cnblogs.com/lowmanisbusy/p/9069330.html 四.json和jsonpath的使用 JSON(JavaScript Ob ...
4-5 Scrapy知识补充
FormRequest FormRequest类是专门用来处理HTML表单的,同时对隐藏的表单处理也很方便.适合用来完成登录操作. 类原型:class scrapy.http.FormRequest( ...
scrapy补充-分布式爬虫
spiders 介绍:在项目中是创建爬虫程序的py文件 #1.Spiders是由一系列类(定义了一个网址或一组网址将被爬取)组成,具体包括如何执行爬取任务并且如何从页面中提取结构化的数据. #2.换句 ...
MVC Core 网站开发（Ninesky） 2.1、栏目的前台显示（补充）
在2.1.栏目的前台显示中因右键没有添加视图把微软给鄙视了一下,后来有仔细研究了一下发现应该鄙视自己,其实这个功能是有的,是自己没搞清楚乱吐糟. 其实只要在NuGet中安装两个包(Microsoft. ...

随机推荐

2016年实验三 B2C模拟实验
实验三 B2C模拟实验 [实验目的] 掌握网上购物的基本流程和B2C平台的运营 [实验条件] ⑴.个人计算机一台 ⑵.计算机通过局域网形式接入互联网. (3).奥派电子商务应用软件 [知识准备] 本实 ...
多测师讲解接口测试 _windows中搭建环境cms_高级讲师肖sir
eclipse集成开发环境搭建开发环境需要安装的工具如下 jdk-8u60-windows-x64.exe jdk eclipse.rar 集成开发框架 mysql-inst ...
【源码项目+解析】C语言/C++开发，打造一个小项目扫雷小游戏！
一直说写个几百行的小项目,于是我写了一个控制台的扫雷,没有想到精简完了代码才200行左右,不过考虑到这是我精简过后的,浓缩才是精华嘛,我就发出来大家一起学习啦,看到程序跑起来能玩,感觉还是蛮有成就感的 ...
Codeforces Educational Round 92 赛后解题报告（A-G）
Codeforces Educational Round 92 赛后解题报告惨 huayucaiji 惨 A. LCM Problem 赛前:A题嘛,总归简单的咯赛后:A题这种**题居然想了20m ...
如何使用性能分析工具定位SQL执行慢的原因？
但实际上 SQL 执行起来可能还是很慢,那么到底从哪里定位 SQL 查询慢的问题呢?是索引设计的问题?服务器参数配置的问题?还是需要增加缓存的问题呢?性能分析来入手分析,定位导致 SQL 执行慢的原因 ...
如果只推荐一本 Python 书，我要 Pick 它！
今年二月初,我偶然看到了一条推特: <流畅的Python>一书的作者发布了一条激动人心的消息:他正在写作第二版! 如果要票选最佳的 Python 进阶类书目,这本书肯定会是得票率最高的书籍 ...
接收某项课程id，通过axios发起get请求，由于携带params出现的问题（已解决）
问题:在最新课程页面(NewBook.vue)点击某一项课程,通过传递该课程的 id 跳转至课程详情页(Bookdetail.vue),采取的跳转方式是声明式导航,即 <router-link ...
Hibernate注解实体类
Hibernate注解1.@Entity(name="EntityName")必须,name为可选,对应数据库中一的个表2.@Table(name="",cat ...
Luogu P4208 [JSOI2008]最小生成树计数
题意给定一个 \(n\) 个点 \(m\) 条边的图,求最小生成树的个数. \(\texttt{Data Range:}1\leq n\leq 100,1\leq m\leq 10^4\) 题解一 ...
Python使用协程进行爬虫
详情点我跳转关注公众号"轻松学编程"了解更多. 1.协程协程,又称微线程,纤程.英文名Coroutine. 协程是啥 ?? 首先我们得知道协程是啥?协程其实可以认为是比线程更小 ...

Spider--补充--jsonpath的使用

Spider--补充--jsonpath的使用的更多相关文章

随机推荐

热门专题