python爬虫-淘宝商品密码（图文教程附源码）

今天闲着没事，不想像书上介绍的那样，我相信所有的数据都是有规律可以寻找的，然后去分析了一下淘宝的商品数据的规律和加密方式，用了最简单的知识去解析了需要的数据。

这个也让我学到了，解决问题的方法不止一个，我们要常常学会去思考，学会去学习，相信我们爬虫还是可以拿到我们想要的一切需要的数据。

我也对数据感兴趣，就是感觉，世间万物都是有规律可寻的，就看我们能不能去发现其中的秘密。

当我们去解决一个问题的时候，那一种成就感是别人难以体会的。只有我们去亲身体验才会感到真正的幸福。

所用模块：

re+requests+json

所用环境：

windows10 + pycharm

实战分析：

第一步：根据url来在google chrome中分析数据

分析的结果是：数据就是通过json来存储的

第二步：

得到网页的源码

第三步把得到的数据进行解析

第四步：对数据进行解密

第五步：就可以把json的数据拿到并分析得到相应的数据

以下是源码：

 import json

 import re

 import requests

 # 在搜索框中输入美食得到的数据q=%E7%BE%8E%E9%A3%9F

 url = 'https://s.taobao.com/search?q=%E7%BE%8E%E9%A3%9F'

 response = requests.get(url)

 # print(response.text)

 # 用正则对html源码进行解析到一个json数据

 pattern = re.compile('g_page_config =(.*?});', re.S)

 result = re.search(pattern, response.text)

 # print(result.group(1))

 try:

     # 发现并不是那么简单而是加密的数据并是有规律可寻的，以下是加密的几个数据段

     json_data = re.sub('(\\\\u003d)|(\\\\u0026)|(\\\\u003c)|(\\\\u003e)', '', result.group(1))

     print('数据解密成功')

     # print(json_data)

 except Exception as e:

     print('数据解密失败，原因是：',e)

 # json_dumps = json.dumps(json_data)

 # print(json_dumps)

 data_count = 1

 data = json.loads(json_data)

 # 分析json的数据并把需要的数据给读取出来

 for good in data['mods']['itemlist']['data']['auctions']:

     print('商店名：{},商品标题:{},\n商品图片：{},\n商品产地：{},商品价格：{},付款人数：{},\n'.format(good['nick'], good['title'], good['pic_url'], good['item_loc'], good['view_price'],good['view_sales']))

     data_count += 1

 print(data_count)

python爬虫-淘宝商品密码（图文教程附源码）的更多相关文章

淘宝数据库OceanBase SQL编译器部分源码阅读--生成物理查询计划
淘宝数据库OceanBase SQL编译器部分源码阅读--生成物理查询计划 SQL编译解析三部曲分为:构建语法树,制定逻辑计划,生成物理执行计划.前两个步骤请参见我的博客<<淘宝数据库O ...
淘宝数据库OceanBase SQL编译器部分源码阅读--生成逻辑计划
body, td { font-family: tahoma; font-size: 10pt; } 淘宝数据库OceanBase SQL编译器部分源码阅读--生成逻辑计划 SQL编译解析三部曲分为 ...
《淘宝数据库OceanBase SQL编译器部分源码阅读--解析SQL语法树》
淘宝数据库OceanBase SQL编译器部分源码阅读--解析SQL语法树曾经的学渣 2014-06-05 18:38:00 浏览1455 云数据库Oceanbase OceanBase是 ...
PHP简单的长文章分页教程附源码
PHP简单的长文章分页教程附源码.本文将content.txt里的内容分割成3页,这样浏览起来用户体验很好. 根据分页参数ipage,获取对应文章内容 include('page.class.php ...
python 获取淘宝商品信息
python cookie 获取淘宝商品信息 # //get_goods_from_taobao import requests import re import xlsxwriter cok='' ...
Python爬虫--淘宝“泸州老窖”
爬虫淘宝--"泸州老窖" 爬去淘宝"泸州老窖" 相关信息: import requests import re import json import panda ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
安卓sdk webview获取淘宝个人信息100项，源码。
1.贴出主要代码.这个不是python,python只涉及了服务端对信息提取结果的接受.主体是java + android + js.由于淘宝各模块都是二级子域名,不能只在一个页面完成所有请求,aj ...
Python爬虫一爬取B站小视频源码
如果要爬取多页的话在最下方循环中填写好循环的次数就可以了项目源码 from fake_useragent import UserAgent import requests import time ...

随机推荐

前端-----html（1）
基本结构 Doctype Doctype告诉浏览器使用什么样的html或xhtml规范来解析html文档 <!DOCTYPE html> bead标签 Meta 提供有关页面的元信息,例: ...
OsWatcher 使用详解
软件下载地址: https://support.oracle.com/epmos/faces/DocumentDisplay?_afrLoop=520996062954556&id=30113 ...
P4126 [AHOI2009]最小割
题目地址:P4126 [AHOI2009]最小割最小割的可行边与必须边首先求最大流,那么最小割的可行边与必须边都必须是满流. 可行边:在残量网络中不存在 \(x\) 到 \(y\) 的路径(强连通 ...
Zynq-Linux移植学习笔记之27UIO机制响应外部中断实现【转】
转自:https://blog.csdn.net/zhaoxinfan/article/details/80285150 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog ...
for循环查找元素怎么跳出for循环
应用场景: 当我们通过for循环来循环对象或者数组时,当找到符合条件的数据时,想要跳出这个循环,不在执行循环继续往后面查找. 解决方法: for循环里面使用return没有效果,于是,我们回到最初控制 ...
java.lang.StackOverflowError 解决方法
♦ java.lang.StackOverflowError : 由于深度递归,抛出此错误以指示应用程序的堆栈已耗尽. 在递归中,一个方法在执行期间调用自己.递归被认为是一种强大的通用编程技术,但必须 ...
空串、null串和isEmpty方法
空串空串""是长度为0的字符串.可以调用以下代码检查字符串是否为空: if(str.length() == 0) 或 if(str.equals("")) 空 ...
hibernate框架学习之数据抓取(加载)策略helloworld
package cn.itcast.h3.query.hql; import java.util.List; import org.hibernate.Query; import org.hibern ...
四重解法---P1047 校门外的树
题目描述某校大门外长度为L的马路上有一排树,每两棵相邻的树之间的间隔都是1米.我们可以把马路看成一个数轴,马路的一端在数轴0的位置,另一端在L的位置:数轴上的每个整数点,即0,1,2,--,L,都种 ...
增加一台web机注意事项
2017年4月18日 15:23:57 星期二增加一台web机时, 先不要挂载进lb 1. 需要将此机器的ip加入到其它服务的白名单内: 数据库, 缓存, 第三方接口等 2. 绑定hosts, 点点 ...

python爬虫-淘宝商品密码（图文教程附源码）

python爬虫-淘宝商品密码（图文教程附源码）的更多相关文章

随机推荐

热门专题