Python 爬取淘宝商品信息和相应价格

！只用于学习用途！

plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)

：获得商品价格和view_price字段，并保存在plt中

tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)

：获得商品名称和raw_price字段，并保存在tlt中　

price = eval(plt[i].split(':')[1])

：使用冒号分隔键值对，去掉前面的view_price字段，只获取其中价格部分

tplt = "{:4}\t{:8}\t{:16}"

：第一个位置给出大小为4，第二个位置大小为8，第三个位置大小为16

import requests

import re

def getHTMLText(url):

    try:

        r = requests.get(url, timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return ""

def parsePage(ilt, html):

    try:

        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)

        tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)

        for i in range(len(plt)):

            price = eval(plt[i].split(':')[1])

            title = eval(tlt[i].split(':')[1])

            ilt.append([price , title])

    except:

        print("")

def printGoodsList(ilt):

    tplt = "{:4}\t{:8}\t{:16}"

    print(tplt.format("序号", "价格", "商品名称"))

    count = 0

    for g in ilt:

        count = count + 1

        print(tplt.format(count, g[0], g[1]))

def main():

    goods = '书包'

    depth = 3

    start_url = 'https://s.taobao.com/search?q=' + goods

    infoList = []

    for i in range(depth):

        try:

            url = start_url + '&s=' + str(44*i)

            html = getHTMLText(url)

            parsePage(infoList, html)

        except:

            continue

    printGoodsList(infoList)

main()

Python 爬取淘宝商品信息和相应价格的更多相关文章

利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...
爬取淘宝商品信息，放到html页面展示
爬取淘宝商品信息 import pymysql import requests import re def getHTMLText(url): kv = {'cookie':'thw=cn; hng= ...
selenium＋pyquery爬取淘宝商品信息
import re from selenium import webdriver from selenium.common.exceptions import TimeoutException fro ...
selenium+phantomjs+pyquery 爬取淘宝商品信息
from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium ...
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...

随机推荐

lvm创建卷组和格式化
* 前提条件:/dev/sdb为一块空的硬盘 * 创建物理卷:pvcreate /dev/sdb * 创建卷组:vgcreate vol_name /dev/sdb (vol_name 为卷组名字) ...
route路由的顺序问题了数据包的转发流程
2018-02-28 15:29:26 [root@linux ~]# routeKernel IP routing tableDestination Gateway ...
Mysql5.7动态修改innodb_buffer_pool_size
SELECT @@innodb_buffer_pool_size,@@innodb_buffer_pool_chunk_size,@@innodb_buffer_pool_instances; SET ...
笔记：Eclipse 安装 m2eclipse 插件
M2eclipse 插件 Eclipse 下一款十分强大的 Maven 插件,可以访问 http://m2eclipse.sonatype.org 了解更多该项目的信息,如果需要安装该插件可以按照如下 ...
POJ 1979 DFS
题目链接:http://poj.org/problem?id=1979 #include<cstring> #include<iostream> using namespace ...
Spring AOP: 织入的顺序
spring AOP 采用和 AspectJ 一样的优先顺序来织入增强处理:在进入连接点时,高优先级的增强处理将先被织入:在退出连接点时,高优先级的增强处理会后被织入. 当不同的切面里的两个增强处理需 ...
智齿客服网页端接入文档V2.3
产品介绍智齿客服网页端接入提供以下两种部署方式. 一.网页组件(推荐) 通过智齿客服网站咨询组件,企业的用户可快捷联系到企业客服获取帮助.智齿客服网页组件提供强大的用户行为采集能力和系统对接能力,支 ...
STL --> queue单向队列
queue单向队列 queue 模板类的定义在<queue>头文件中.与stack 模板类很相似,queue 模板类也需要两个模板参数,一个是元素类型,一个容器类型,元素类型是必要的,容器 ...
关于Mysql DATE_FORMAT() 日期格式
定义和用法 DATE_FORMAT() 函数用于以不同的格式显示日期/时间数据. 语法 DATE_FORMAT(date,format) date 参数是合法的日期.format 规定日期/时间的输出 ...
Python第二话初识复杂数据类型（list、dictionary、tuple）
上一篇我们简单认识了数据类型:数字number和字符串string,这篇我们就来隆重介绍一下重量级的数据类型:列表list.字典dictionary和元组tuple. 一.列表List: ①列表是什么 ...

Python 爬取淘宝商品信息和相应价格

Python 爬取淘宝商品信息和相应价格的更多相关文章

随机推荐

热门专题