爬虫BS4—淘女郎

1.修改网页头

用独自的py文件getheaders，随机返回header

getheaders文件

import random

headerstr = """Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko
Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0
Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999 """

def headers():
    header = headerstr.split("\n")
    length = len(header)
    return header[random.randint(0, length - 1)]

2.主文件

# coding:utf-8
from bs4 import BeautifulSoup
import urllib2
from getheaders import headers
from json import loads
import re
import os

def reqobject():  # 实例化一个请求对象，还没有访问
    # 1、实例化一个请求对象，还没有访问
    req = urllib2.Request("https://mm.taobao.com/tstar/search/tstar_model.do?_input_charset=utf-8")
    # 2、对请求对象进行加工，添加用户头
    req.add_header('user-agent', headers())
    return req

def getUrlList():  # 获取页面所有的用户信息
    req = reqobject()
    # 1.2.再次对对象进行加工，添加参数
    req.add_data(
        'q&viewFlag=A&sortType=default&searchStyle=&searchRegion=city%3A&searchFansNum=&currentPage=1&pageSize=100')
    # 3、访问对象并解码+编码
    # """
    #     decode('gbk')  解码：吧gbk格式解码为Unicode
    #         decode解码时要对应网页的respon heasers里面的content-type:text/html;charset=GBK
    #         若没有则查看网页源代码头部<meta charset="gbk" />
    #     encode('utf-8')  编码：把Unicode编码为utf-8
    #         encode只能编码Unicode
    # """
    html = urllib2.urlopen(req).read().decode('gbk').encode('utf-8')
    # 4、取值，html为一个json对象，先转化为dict，便于取值
    json_dict = loads(html)
    # 5、返回一个列表
    return json_dict['data']['searchDOList']

def getInfo(userid):  # 获取用户的“她的爱秀”
    req = urllib2.Request("https://mm.taobao.com/self/aiShow.htm?&userId=%s" % userid)
    req.add_header('user-agent', headers())
    html = urllib2.urlopen(req).read().decode('gbk').encode('utf-8')
    return html

def getNeedInf(html):  # 提取我们需要的信息
    soup = BeautifulSoup(html, 'html.parser')
    name = soup.select('dl > dd > a')[0].text.encode('utf-8')
    follow = soup.select('dl > dt > a')[1].text.encode('utf-8')
    fens = soup.select('dl > dt > a')[2].text.encode('utf-8')
    detail = soup.find('div', attrs={'id': 'J_ScaleImg'}).get_text().strip().encode('utf-8')
    content = "姓名：{} 关注：{} 粉丝：{}\n{}".format(name, follow, fens, detail)
    if os.path.exists("images\\" + str(userid)) == False:
        os.mkdir("images\\" + str(userid))
    print 'Start downloading...'
    print 'getInf:{}'.format(str(userid))
    with open("images\\{}\\{}.txt".format(str(userid), str(userid)), 'wb') as f:
        f.write(content)

def getAlbumList(userid):  # 获取用户的“相册”和相册的封面照片链接
    req = urllib2.Request("https://mm.taobao.com/self/album/open_album_list.htm?&user_id%20=" + str(userid))  # 相册链接
    req.add_header('user-agent', headers())
    html = urllib2.urlopen(req).read().decode('gbk').encode('utf-8')
    # 获取每一个相册的链接
    rel = r'class="mm-first" href="//(.*?)"'
    AlbumListurl = re.findall(rel, html)
    # 获取每一个相册的封面的链接，用于下载封面图片
    # rel = r'<img src="//(.*?jpg_240x240xz.jpg)" width="125" height="125">'
    # 爬取出来的链接：img.alicdn.com/imgextra/i1/176817195/TB1jFcMKFXXXXblXFXXXXXXXXXX_!!0-tstar.jpg_240x240xz.jpg
    # 我们需要的链接：img.alicdn.com/imgextra/i1/176817195/TB1jFcMKFXXXXblXFXXXXXXXXXX_!!0-tstar.jpg_620x10000.jpg
    # 相差为【jpg_240x240xz.jpg】和【jpg_620x10000.jpg】所以将【jpg_240x240xz.jpg】写在括号外面
    # 爬到链接img.alicdn.com/imgextra/i1/176817195/TB1jFcMKFXXXXblXFXXXXXXXXXX_!!0-tstar.
    # 再补齐【jpg_620x10000.jpg】，如下
    rel = r'<img src="//(.*?)jpg_240x240xz.jpg" width="125" height="125">'
    AlbumListCoverurl = re.findall(rel, html)
    getAlbumListCoverurl = []
    for url in AlbumListCoverurl:
        url += "jpg_620x10000.jpg"
        url = "http://" + url
        getAlbumListCoverurl.append(url)
    return getAlbumListCoverurl

def getimages(userid, urls):  # 通过图片链接下载图片
    # http://img.alicdn.com/imgextra/i3/865838484/TB1_n_XKVXXXXb5XXXXXXXXXXXX_!!865838484-0-tstar.jpg_620x10000
    # if os.path.exists("images\\" + str(userid)) == False:
    #     os.mkdir("images\\" + str(userid))
    i = 1
    for url in urls:
        req = urllib2.Request(url)
        req.add_header('user-agent', headers())
        html = urllib2.urlopen(req).read()
        # with open('images\\'+str(userid)+"\\" + str(i) + '.jpg', 'wb') as f:
        with open('images\\{}\\{}.jpg'.format(str(userid), str(i)), 'wb') as f:
            f.write(html)
        print "getImage:", url
        i += 1
    print "End of download..."

for user in getUrlList():
    if os.path.exists("images") == False:
        os.mkdir("images")
    try:
        userid = user['userId']
        html = getInfo(userid)
        getNeedInf(html)
        # for i in getAlbumList(userid):
        #     print i
        urls = getAlbumList(userid)
        getimages(userid, urls)
    except urllib2.URLError,e:        
        print e.reason

爬虫BS4—淘女郎的更多相关文章

爬虫bs4案例
案例:使用BeautifuSoup4的爬虫我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSou ...
爬虫bs4
CSS 选择器:BeautifulSoup4 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据. lxml 只会 ...
python3.6安装Scrapy
环境:win10(64位), Python3.6(64位) 1.安装pyhthon 这个就不多说了,对应版本就下载对应的依赖包 2.安装pywin32 在windows下,必须安装pywin32,安装 ...
96、python version 3.6 required,which was not fount in the registry（python3.6安装scrapy）
在安装scrapy时遇到问题环境:win10(64位), Python3.6(64位) 安装scrapy: 1.安装wheel(安装后,便支持通过wheel文件安装软件) pip3 install ...
python version 3.6 required,which was not fount in the registry（python3.6安装scrapy）
在安装scrapy时遇到问题环境:win10(64位), Python3.6(64位) 安装scrapy: 1.安装wheel(安装后,便支持通过wheel文件安装软件) pip3 install ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
Python爬虫(十五)_案例：使用bs4的爬虫
本章将从Python案例讲起:所使用bs4做一个简单的爬虫案例,更多内容请参考:Python学习指南案例:使用BeautifulSoup的爬虫我们已腾讯社招页面来做演示:http://hr.ten ...
爬虫，基于request，bs4 的简单实例整合
简单爬虫示例爬取抽屉,以及自动登陆抽屉点赞先查看首页拿到cookie,然后登陆要携带首页拿到的 cookie 才可以通过验证 """""" ...
python爬虫基础_requests和bs4
这些都是笔记,还缺少详细整理,后续会更新. 下面这种方式,属于入门阶段,手动成分比较多. 首先安装必要组件: pip3 install requests pip3 install beautifuls ...

随机推荐

HDU 5965 扫雷
扫雷游戏是晨晨和小璐特别喜欢的智力游戏,她俩最近沉迷其中无法自拔. 该游戏的界面是一个矩阵,矩阵中有些格子中有一个地雷,其余格子中没有地雷. 游戏中,格子可能处于己知和未知的状态.如果一个己知的格子中 ...
关于code::blocks的编译速度问题
在一个程序写好之后,按下F9,便可以进行编译并且运行,在2018年的寒假之中,编译速度一直困扰着我,因为每次编译都需要十秒左右的时间,体验极差.而此前,编译时间一直保持在0 second. 经过我的多 ...
mac 切换用户
sh-3.2# su - houzhibinhouzhibindeMacBook-Pro:~ houzhibin$
5.2 SW1控制LED1亮灭（中断功能）
中断:CPU收到中断请求后暂停正在执行的程序,而去执行中断服务函数中的程序,处理结束后,继续执行原来的程序. 能够产生中断请求的中断源如下: CC2530中断设置步骤:使能端口组中断(IEN)——端口 ...
（贪心）P1223 排队接水洛谷
题目描述有n个人在一个水龙头前排队接水,假如每个人接水的时间为Ti,请编程找出这n个人排队的一种顺序,使得n个人的平均等待时间最小. 输入输出格式输入格式: 输入文件共两行,第一行为n:第二行分别 ...
node(基础三)_模块系统基础
一.前言这篇文章主 ...
浏览器console打印定义样式
%指令 c:表示样式(css) 其他的大家查资料吧 console.log("%c dsajfklsdjljfdskl", "color:red;font-size:50 ...
qml:: QVariant转为自定义类型
QVariant可以实现C++与qml之间的自定义类型的传递: 以QObject类型为例: 1. QObject转为QVariant QVariant var = QVariant::fromVal ...
怎么停止yum安装并kill进程
1. ctrl + z 2. ps -ef | grep 正在安装的包名称 3. kill -9 进程Id
Hbase记录-hbase部署
#版本支持 #官网下载二进制包,解压到/usr/app下,配置/etc/profile: export HBASE_HOME=/usr/app/hbase export PATH=$HBASE_HOM ...

爬虫BS4—淘女郎

爬虫BS4—淘女郎的更多相关文章

随机推荐

热门专题