简单的python爬虫--爬取Taobao淘女郎信息

最近在学Python的爬虫，顺便就练习了一下爬取淘宝上的淘女郎信息：手法简单，由于淘宝网站本上做了很多的防爬措施，应此效果不太好！

爬虫的入口：https://mm.taobao.com/json/request_top_list.htm?type=0&page=0

本人代码如下：请各位高人多指教，请留言，不胜感激！！

#_*_coding:utf-8_*_

import unicodedata

import urllib.request

import re

import os

root_url="https://mm.taobao.com/json/request_top_list.htm?type=0&page="

def HexStr2Unicode(Hex_Str):

    Unicde_Str = ""

    for i in range(0,len(Hex_Str)//4):

        chr(int(Hex_Str[i*4:i*4+4], 16))

        Unicde_Str += chr(int(Hex_Str[i*4:i*4+4], 16))

    return Unicde_Str

def getSiteSet(url):

    '''根据传入的roo_url获取到每个淘女郎的个人网址,以及每个淘女郎的名字'''

    page=urllib.request.urlopen(url)

    cont=page.read()

    cont=cont.decode(encoding="gbk")#很关键，原网页淘宝的是gbk编码

    # print(cont)

    pattern1=r'href=".{1,35}\.htm" target='#匹配个人网址的正则表达式

    pattern2=r'class="lady-name" href=".{1,100}<\/a>'#匹配个人名字的表达式

    # print(cont)

    SiteSet={}

    i=1

    try:

        while len(cont)>5:

            matchObj=re.search(pattern1,cont,re.M).group()

            nameObj=re.search(pattern2,cont,re.M).group()

            # print("------->",matchObj)

            if matchObj:

                site='https:'+(matchObj[6:-9])

                id1=nameObj.find(">")

                id2=nameObj.find("<")

                # print(name)

                name=nameObj[id1+1:id2]

                # print("网站地址%d: "%i,site)

                # print("淘女郎名字:",name)

                SiteSet[name]=site

                index=cont.find(nameObj)

                i+=1

            else:

                print("没有匹配上")

            cont=cont[index+2:]

    except:

        # import traceback

        # traceback.print_exc()

        print("*********Match error****************")

    return SiteSet

# SiteSet=getSiteSet("https://mm.taobao.com/json/request_top_list.htm?type=0&page=0")

def getImgSet(site_url):

    '''根据某个具体的网址，获取该网址中所有图片的路径'''

    page=urllib.request.urlopen(site_url)

    cont=page.read().decode("gbk").encode("utf-8")

    cont=str(cont,encoding="utf-8")

    pattern=r'src=\"\/\/.{0,150}(.jpg|.png)\"'

    ImgSet=[]

    index=0

    i=1

    try:

        while len(cont)>100:

            matchObj=re.search(pattern,cont,re.M).group()

            # print("------->",matchObj)

            if matchObj:

                img='https:'+(matchObj[5:-1])

                # print("图片地址%d: "%i,img)

                ImgSet.append(img)

                index=cont.find(matchObj)

                i+=1

            else:

                print("没有匹配上")

            cont=cont[index+len(matchObj[5:-1]):]

    except:

        print("-----------------------")

    return ImgSet

# ImgSet=getImgSet("https://mm.taobao.com/434479822.htm")

# ImgSet=set(list(ImgSet))#集合元素去重

def getIconSet(url):

    '''根据roo_url，获取每个淘女郎的头像icon图片'''

    page=urllib.request.urlopen(url)

    cont=page.read()

    cont=str(cont)

    head="<img src="

    tail=".jpg"

    k=1

    IconSet=[]

    while k!=0:

        id1=cont.find(head)

        id2=cont.find(tail,id1)

        if id1==-1 or id2==-1:

            k=0

            break

        else:

            icon="https:"+cont[id1+len(head)+1:id2+len(tail)]

            cont=cont[id2:]

            IconSet.append(icon)

            print(icon)

    return IconSet

#我们可以使用自己定义的auto_down()来代替python的urllib.urlretrieve()函数，实现我们自动重新下载的目标。

#    tips:新下载的文件会覆盖原来下载不完全的文件。

def auto_down(url,filename):

    '''使用自定义的方法进行下载文件，如果下载失败，还可以继续下载覆盖原来的文件'''

    try:

        # 添加头部信息，模仿浏览器,但是淘宝对于爬虫的爬取，做了很多防爬的措施，因此，及时添加了header头部信息，效果也并不好

        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}

        req = urllib.request.Request(url=url, headers=headers)

        urllib.request.urlretrieve(url,filename)

    except urllib.request.ContentTooShortError:

        print('Network conditions is not good.Reloading.')

        auto_down(url,filename)

# urllib.request.urlopen(req).read()

base =r"C:\Users\wujian\Desktop\python学习\TaobaoGirlImg\\"

for i in range(1,6):

    url=root_url+str(i)

    SiteSet=getSiteSet(url)

    for site in SiteSet.keys():

        i=1

        filename=base+site

        os.mkdir(filename)# 创建文件夹

        print(filename)

        ImgSet=getImgSet(SiteSet[site])

        ImgSet=set(list(ImgSet))

        for imgurl in ImgSet:

            # print(imgurl)

            file_name=filename+"\\"+str(i)+".jpg"

            auto_down(imgurl,file_name)

            i+=1

爬虫--爬取淘宝信息

简单的python爬虫--爬取Taobao淘女郎信息的更多相关文章

一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
Python爬虫-爬取京东商品信息-按给定关键词
目的:按给定关键词爬取京东商品信息,并保存至mongodb. 字段:title.url.store.store_url.item_id.price.comments_count.comments 工具 ...
python爬虫爬取汽车页面信息，并附带分析（静态爬虫）
环境: windows,python3.4 参考链接: https://blog.csdn.net/weixin_36604953/article/details/78156605 代码:(亲测可以运 ...
python爬虫爬取全球机场信息
--2013年10月10日23:54:43 今天需要获取机场信息,发现一个网站有数据,用爬虫趴下来了所有数据: 目标网址:http://www.feeyo.com/airport_code.asp?p ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...

随机推荐

kafka java API的使用
Kafka包含四种核心的API: 1.Producer API支持应用将数据流发送到Kafka集群的主题 2.Consumer API支持应用从Kafka集群的主题中读取数据流 3.Streams A ...
Fiddler使用三（Fiddler内置命令）
参考:http://blog.csdn.net/ohmygirl/article/details/17855031 一． Fiddler内置命令. 上一节使用Fiddler进行抓包分析中,介绍到,在w ...
IE11在使用get方式提交没有进行请求的bug问题
在做iemsc项目的时候,测试提交了一个bug问题,在发布新闻成功后,自动刷新列表的时候,不进行刷新,但是在谷歌上面又不会出现这种问题, 原因: 发现请求的时候用的get请求,因为不同的浏览器的请求机 ...
【wordpress】wordpress自定义主题
wordpress每个主题至少要有这两个文件 – style.css 和 index.php. index.php 告诉主题中所有的元素如何布局; style.css 则告诉主题中所有的元素该如何展示 ...
EntityFramework6 版本更变产生的错误
LINQ to Entities does not recognize the method 'System.Nullable`1[System.Int32] DiffMinutes(System.N ...
MariaDB10.2修改默认密码
1.修改 my.ini,在 [mysqld] 小节下添加一行:skip-grant-tables=1 这一行配置让 mysqld 启动时不对密码进行验证 2.重启 mysqld 服务 3.使用 roo ...
ElasticSearch基础入门
1.query查询表达式 Elasticsearch 提供一个丰富灵活的查询语言叫做查询表达式 , 查询表达式(Query DSL)是一种非常灵活又富有表现力的查询语言,它支持构建更加复杂和健壮的 ...
Hadoop实战之一~Hadoop概述
对技术,我还是抱有敬畏之心的. Hadoop概述 Hadoop是一个开源分布式云计算平台,基于Map/Reduce模型的,处理海量数据的离线分析工具.基于Java开发,建立在HDFS上,最早由Goog ...
package.json中^符号和~符号前缀的区别
开发中经常会使用npm install 安装依赖包,经常会看到^符号和~符号,现将二者的区别总结如下: 版本号 x.y.z : z :表示一些小的bugfix, 更改z的号, y ...
前端(二)：css样式
本节笔记根据css中文手册整理,内容已做成思维导图.下载地址https://files.cnblogs.com/files/kuaizifeng/css.xmind.zip. css(Csacadin ...

简单的python爬虫--爬取Taobao淘女郎信息

简单的python爬虫--爬取Taobao淘女郎信息的更多相关文章

随机推荐

热门专题