python-淘宝信息定向爬取
S是类似产品页数 bcoffset直流偏移。
有人在将偏移量:http://www.cnblogs.com/defineconst/p/6185396.html
item.taobao.com/item.htm?参数。常见参数如下
&spm 流量来源
&id 淘宝id
&ali_trackid 阿里妈妈id
&ali_refid
--------官方解析文档-----------
淘宝开放平台 - 文档中心
http://open.taobao.com/docs/doc.htm?articleId=959&docType=1&treeId=null
-----for instance----
SPM编码:用来跟踪页面模块位置的编码,标准spm编码由4段组成,采用a.b.c.d的格式(建议全部使用数字),其中,
- a代表站点类型,对于xTao合作伙伴(外站),a为固定值,a=2014
- b代表外站ID(即外站所使用的TOP appkey),比如您的站点使用的TOP appkey=123456789,则b=123456789
- c代表b站点上的频道ID,比如是外站某个团购频道,某个逛街频道,某个试用频道 等
- d代表c频道上的页面ID,比如是某个团购详情页,某个宝贝详情页,某个试用详情页 等
-淘宝课程不错哎╮( ̄▽ ̄")╭---
开放平台学院
http://xue.open.taobao.com/video/list.htm?spm=a219a.8199539.2232181.2.nD4HG7
-------------------------------
改日再测,,,网速渣。。。
原文:淘宝网有哪些鲜为人知的使用技巧
http://www.zhifuwang.cn/news/zhaoshangzhengce/79293.html
操作链接:
http://www.alimama.com/index.htm?spm=a2320.7874452.a31ci.1.LD83zb
扫码登录账号-》营销平台-》 淘宝客
-------------------------------------------------------
目标软件:
网络信息采集大师
http://www.onlinedown.net/soft/39355.htm
NetGet
http://www.jb51.net/softs/237543.html
-----------------------------------
Q:
1去掉一些无用的参数不会影响最终到达的网页
--------------
2.
通过对象属性不明觉厉
>>> class website:
def __init__(self,name,type):
self.name,self.type = name,type
def __str__(self):
return 'Website name: {self.name}, Website type: {self.type} '.format(self=self)
>>> print (str(website('pythontab', 'python')))
Website name: pythontab.com, Website type: python
>>> print website('pythontab', 'python')
Website name: pythontab, Website type: python
全文参考python强大的字符串格式化函数 (为什么要折一下啊,为什么呢,不然不给通过啊)
http://www.pytho
ntab.com/html/2016/pythonjichu_0722/1049.html
PyFormat: Using % and .format() for great good!
https://pyformat.info/
-----------------re--
Python3 正则表达式 | 菜鸟教程:
http://www.runoob.com/python3/python3-reg-expressions.html
pythonsplit 切片规则:
http://www.runoob.com/python/att-string-split.html
实例
以下实例展示了split()函数的使用方法:
#!/usr/bin/python str = "Line1-abcdef \nLine2-abc \nLine4-abcd";
print str.split( );
print str.split(' ', 1 );
以上实例输出结果如下:
['Line1-abcdef', 'Line2-abc', 'Line4-abcd']
['Line1-abcdef', '\nLine2-abc \nLine4-abcd'] ----找错版------------
# -*- coding: utf-8 -*-
"""
Created on Mon Apr 3 23:51:17 2017
@author: Administrator
"""
import requests
import re
def getHtmlText(url):
try:
r = requests.get(url, timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def parseHtml(html):
plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"'.split(':')[1])
tlt = re.findall(r'\"raw_title\"\:\".*?\"'.split(':')[1])
for i in len(plt):
ulist.append([plt[i],tlt[i]])
def printHtml(html,list):
flt = "{:10}\t{:10}\t{:10}"
count = 0
for g in list:
count = count +1
print(flt.format("序号","价格","商品名称"))
print(count,ulist.plt[i],ulist.tlt[i])
def main():
goods="商品"
depth = 2
start_url = "http://s.taobao.com/search?q="+ goods
ulist = []
r = getHtmlText(url)
for i in depth:
url = start_url + '&s=' + str( 44 * i)
parseHtml(url)
printHtml(html,ulist)
main()
-------最后一遍显然还是有毛病----1.渣速只有晚上跑得动 2.明明是书包,却跑出了屎3.以后再解决吧,毕竟无能为力--------
# -*- coding: utf-8 -*-
"""
Created on Tue Apr 4 00:35:49 2017
@author: Administrator
"""
import re
import requests
def getHtml(url):
try:
r = requests.get(url, timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def parseHtml(uinfolist,html):
try:
plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)
tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
for i in range(len(plt)):
price = eval(plt[i].split(':')[1])
title = eval(tlt[i].split(':')[1])
uinfolist.append([price,title])
except:
print("")
def printHtml(uinfolist):
ptlt = '{:10}\t{:10}\t{:15}'
print(ptlt.format("序号","价格","商品名称"))
count = 0
for g in uinfolist:
count = count + 1
print(ptlt.format(count,g[0],g[1]))
def main():
print('----------------------')
goods = '书包'
start_url = "http://s.taobao.com/search?="+goods
depth = 2
ulist = []
for g in range(depth):
try:
url = start_url + '&q=' + str (44 * g)
m = getHtml(url)
parseHtml(ulist,m)
except:
continue
printHtml(ulist)
main()
-----
----------------------
序号 价格 商品名称
1 99.00 【订金】斯柯达 Yeti 2016款 2年0利率 整车订金
2 99.00 【订金】斯柯达 全新晶锐车享定制版 2年0利率 整车订金
3 39.00 德国美耐特®游标卡尺0-150mm-200mm-300mm卡尺高精度非不锈钢包邮
4 27.65 春秋新男女宝宝鞋婴儿软底防滑学步鞋休闲鞋0-1岁运动鞋幼儿鞋子
5 16.80 正品秒杀塑料电子数显0-100150mm迷你小卡尺文玩珠宝测量游标卡尺
6 98.00 广陆量具0-150mm电子数显卡尺 原点不锈钢游标卡尺高精度测量工具
7 38.00 春季男女宝宝鞋子0-1岁学步鞋软底婴儿鞋新生幼儿单鞋真皮羊皮
8 55.00 锦丰五金 电子数显卡尺 游标卡尺不锈钢0-150-200-300mm
9 28.00 0-6-12个月春秋婴儿鞋子新生幼儿不掉鞋男女宝宝鞋袜软底学步鞋
10 29.90 宝宝学步鞋春夏季婴儿鞋子软底防滑男童女童0-1岁步前鞋幼儿布鞋
11 49.00 婴儿鞋子0-6-12个月男女宝宝学步鞋春秋1-3岁新生儿软底步前布鞋
12 42.00 0-6-12个月3学步鞋7女宝宝1岁5春秋冬9婴儿鞋子8软底春鞋春季棉鞋
13 69.50 卡茨格儿学步鞋女宝宝 凉鞋男婴儿凉鞋包头0-1-2岁软底防滑幼儿鞋
14 89.00 泰兰尼斯婴儿学步鞋软底宝宝叫叫鞋卡通幼儿不掉鞋子0-1-3岁春秋
15 68.00 卡特兔母婴旗舰店婴儿鞋子0-6个月软底防滑新生儿男女宝宝学前鞋
16 27.00 婴儿步前鞋春秋新款宝宝室内地板鞋0-2家居婴儿鞋防滑软底学步鞋
17 36.00 宝宝鞋子1-3岁鞋男软底婴儿鞋布鞋春秋学步鞋2岁女宝宝0-1叫叫鞋
18 22.00 运动款0-12个月婴儿鞋软底宝宝学步鞋格子0-1岁男女婴幼鞋子
19 19.90 2017学步鞋幼儿软底女宝宝鞋0-1-3岁男童鞋单鞋网面鞋子2婴儿春款
20 59.00 2016秋季新款宝宝学步鞋女0-6岁软底小白鞋时尚韩版男童婴儿单鞋
21 45.00 2017春0-1岁真皮婴儿单鞋学步鞋 2岁女宝宝幼儿公主单鞋软底鞋子
22 19.90 婴儿鞋子0-1-2岁女宝宝单鞋2017春季新款软底学步鞋女童公主皮鞋
23 39.00 春秋款女宝宝防滑公主鞋0-3岁婴儿软底学步鞋幼儿礼服鞋儿童单鞋
24 39.50 天天特价春季宝宝鞋学步鞋婴儿鞋软底0-1岁3小白鞋男女童运动单鞋
25 28.80 春秋冬季女宝宝学步布鞋单鞋0-1周岁男婴儿春鞋6软底小鞋子12个月
26 28.80 3四45-6七7八8九9-12个月男婴儿春秋装鞋子0-1岁女宝宝软底不掉鞋
27 29.00 婴儿秋冬季纯手工毛线宝宝软底鞋加绒加厚前步前鞋0-3-6-9-12个月
28 21.77 0-6-12个月学步鞋春秋新生幼儿男女1岁宝宝鞋袜单鞋婴儿鞋子软底
29 39.80 叮当小猪2017春季新款童鞋真皮儿童单鞋0-1-2-3岁男女宝宝学步鞋
30 57.82 0-1岁半女婴儿鞋子软底防掉学步鞋男宝宝9春秋款透气7九8十个月11
31 26.90 婴儿鞋子软底 学步鞋0-1岁宝宝鞋子男女宝春秋透气防脱布鞋薄
32 29.90 0-1岁新生婴幼儿软底鞋 男女宝宝魔术贴时尚运动学步鞋
33 149.00 玛乔宝宝机能鞋男童软底防滑婴儿学步鞋女童凉鞋0-1-3岁1612
34 27.09 皮鞋小童单鞋软底鞋女童学步女宝婴幼鞋子公主春季0-1-2-3岁儿
35 45.00 2017春款宝宝鞋真皮学步鞋0-1-2-3岁男女婴儿鞋子软底单鞋儿童鞋
36 91.00 0-1-2-3岁小女孩鞋单鞋春秋季 一周岁半女宝宝软底公主皮鞋学步鞋
37 4.00 stc89c52rc 40i lqfp lqfp44 89c52 lqfp44g
38 19.98 乐呵呵红米note2电池1S正品2A手机note小米2S原装BM20 44 42 45
39 239.00 【天猫超市】日本进口 花王妙而舒纸尿裤XL44片2包装通用型尿不湿
40 28.00 山地自行车44mm直管培林碗组44/56 42/52 椎管50.6小锥管轴承碗组
41 50.00 多省包邮大号麻将牌 中大号40 42 44家用麻将 手搓麻将 四川麻将
42 25.00 MEROCA 超轻轴承 培林碗组 山地自行车车头 44mm内置 直管碗组
43 99.80 家用特一级中大号高档手搓麻将牌送麻将布 无瑕疵38 40 42 44MM
44 84.98 正品38--44MM晶玉 玉石色耐磨中号大号家用手搓麻将牌送麻将桌布
45 89.00 正品38-44MM卡通竹丝双层大号加厚家用手搓麻将牌 送麻将桌布
46 35.00 华硕X44H K42D X43S A43S X42J X84H A42JC K42J笔记本键盘A83S
47 2.40 贴片 全新原装 STC89C52RC-40I-LQFP44 串口编程(程序下载)单片机
48 40.00 多省包邮大号麻将牌 中大号40 42 44家用麻将 手搓麻将 四川麻将
49 105.00 彩色玉石麻将40中 42大号 44高档家用麻将牌 手搓麻将 无瑕疵包邮
50 68.20 棋牌室全自动四口机专用40麻将机麻将牌中号42正磁38mm44大号4648
51 69.30 捷安特ATX770 777 XTC800 820小锥管转换直管44-50.6mm双培林碗组
52 40.00 景晔44mm直管内置隐藏式双培林轴承碗组山地车自行车腕组28.6前叉
53 16.00 shimano浩盟中空牙盘修补盘片22T 32T 44T牙盘修补齿片 盘片
54 95.00 包邮全自动四口麻将机专用机用麻将牌正磁正品40mm42mm44大号46mm
55 10.90 护盘 牙盘罩山地公路自行车万能大齿盘保护罩42/44齿链罩牙盘护罩
56 6.40 Risym STC12C5A60S2-35I-LQFP44G 12C5A60S2 单片机
57 125.00 全国包邮 送桌布筹码 特一级家用中大号手打麻将38-44MM正品麻将
58 3.80 Risym STC89C52 STC89C52RC-40I-LQFP44G 单片机LQFP44 工业级
59 19.80 死飞牙盘死飞自行车单车44T铁牙盘齿盘700C死飞轮盘含左右曲柄
60 60.00 四口机专用机用自动麻将牌正磁一级40mm42mm一级品46大号麻将44号
61 55.00 ATX770d培林XTC碗组750轴承44-50.6锥管758转777直管790腕组44-56
62 8.00 步进电机驱动板 A3967 EasyDriver Stepper Motor Driver V44
63 38.00 包邮 一级家用麻将牌 特大号手搓108张四川麻将 40 42 44中号
64 11.20 ATMEGA32U4-AU QFP44 全新原装担保 进口现货 单片机 可直接拍下
65 93.50 SHIMANO喜玛诺ACERA FC-M391牙盘 9速27速山地车方孔M390牙盘 44T
66 18.80 死飞牙盘死飞自行车单车44T铁牙盘齿盘700C死飞轮盘含左右曲柄
67 89.00 家用手搓仿玉石40 42 44MM彩色高档麻将牌 中号 大号麻将送桌布垫
68 65.00 全自动四口麻将机专用麻将牌 家用麻将牌中号 40 42mm44 46可手搓
69 3.78 单片机 AT89S52-24AU AT89S52 TQFP44 原装正品现货
70 80.00 原装V3正品 TL866A TL866CS通用编程器专用TSOP48-SOP44适配器座
71 8988.00 E5 2696V4正式版 22/44 2.2G满载2.8G
72 40.00 17款SWTXO直管44mm内置隐藏式培林轴承碗组死飞碗组山地自行车
>>>
python-淘宝信息定向爬取的更多相关文章
- Python淘宝商品比价定向爬虫
1.项目基本信息 目标: 获取淘宝搜索页面的信息,提取其中的商品名称和价格理解: 淘宝的搜索接口.翻页的处理 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道 ...
- python 简单实现淘宝关键字商品爬取
本文有2个文件 1:taobao_re_xpath 2:taobao_re_xpath_setting # 1:taobao_re_xpath # -*- coding:utf-8 -*- # aut ...
- selenium实现淘宝的商品爬取
一.问题 本次利用selenium自动化测试,完成对淘宝的爬取,这样可以避免一些反爬的措施,也是一种爬虫常用的手段.本次实战的难点: 1.如何利用selenium绕过淘宝的登录界面 2.获取淘宝的页面 ...
- [python爬虫] Selenium定向爬取PubMed生物医学摘要信息
本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容. PubMed是一个免费的搜寻引擎,提供生物医学方 ...
- [python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 ...
- Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
- Python_记一次网站数据定向爬取实现
记一次网站数据定向爬取实现 by:授客 QQ:1033553122 测试环境: Python版本:Python 3.4 Win7 请勿用于商业及非法用途,仅供学习研究用,否则后果自负 数据爬取场景 如 ...
- Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
- Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
随机推荐
- Django中更新多个对象数据与删除对象的方法
更新多个对象 例如说我们现在想要将Apress Publisher的名称由原来的”Apress”更改为”Apress Publishing”.若使用save()方法,如: ? 1 2 3 >&g ...
- java 环境变量与安装目录
JDK安装完成后有如下文件夹 bin:存放JDK的各种工具命令,如javac.java等命令. jre:运行java程序所必须的JRE环境 lib:JDK工具命令的实际执行程序,如tools.jar中 ...
- js原生态函数中使用jQuery中的 $(this)无效的解决方法
原文地址:http://www.jb51.net/article/27238.htm 今天遇到一个听郁闷的问题,正如title所说 js中原生态函数在jQuery 中使用 $(this) 被解析成un ...
- PHP 弹出文件下载 原理 代码
/** * @author default7<default7@zbphp.com> * @description 演示PHP弹出下载的原理 * * @param $file_n ...
- javascript创建对象之函数构造模式和原型模式结合使用(四)
创建自定义类型的常见方式就是组合使用构造函数模式与原型模式一起使用. 构造函数模式用于定义实例对象的特有的部分(属性和方法),原型模式用于定义共享的部分. 这样最大限度的节省了内存的开销. funct ...
- dbms_xplan之display_cursor函数的使用
DBMS_XPLAN包中display_cursor函数不同于display函数,display_cursor用于显示SQL语句的真实的执行计划,在大多数情况下,显示真实的执行计划有助于更好的分析SQ ...
- PHP使用FPDF pdf添加水印中文乱码问题 pdf合并版本问题
---恢复内容开始--- require_once('../fpdf/fpdf.php');require_once('../fpdi/fpdi.php'); 使用此插件 pdf 合并 并添加水印 期 ...
- PHP流程控制 - if 语句
PHP - if 语句 if 语句用于仅当指定条件成立时执行代码. 语法 if (条件) { 条件成立时要执行的代码; } 如果当前时间小于 20,下面的实例将输出 "Have a good ...
- 转化Excel表格为php配置文件
<?php //建立reader对象 ,分别用两个不同的类对象读取2007和2003版本的excel文件 require("PHPExcel/Reader/Excel20 ...
- Python - Django - 使用 Pycharm 连接 MySQL 数据库
在 Pycharm 的右上方找到 Database 点击 依次点击,选择 MySQL 数据库 点击 Download 下载驱动文件 下载完成后对数据库的相关信息进行填写 填写完成后点击“Test Co ...