爬虫下载校花网美女信息-lxml

# coding=utf-8

# !/usr/bin/env python

'''

    author: dangxusheng

    desc  :  下载校花网上的个人信息：名字-学校-图片地址-点赞数

    date  : 2018-08-29

'''

# 导入模块

import requests

from lxml import etree

import json

#准备全局变量

home_url = "http://www.xiaohuar.com/"

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",

    "Referer": home_url

}

# 定义单页解析方法

def one_page_info(page_index=0):

    url = home_url + "list-1-" + str(page_index) + ".html"

    r = requests.get(url, headers=headers)

    html = r.content.decode('gbk')

    # print(html)

    # exit(1)

    html = etree.HTML(html)

    div_list = html.xpath('//div[@class="item masonry_brick"]')

    info_list = []

    for div in div_list:

        name = div.xpath('.//span[@class="price"]/text()')[0]

        name = name if name != None else '暂无名字'

        school = div.xpath('.//a[@class="img_album_btn"]/text()')[0]

        school = school if school != None else '暂无学校'

        img_url = div.xpath('./div[1]/div[1]/a[1]/img[1]/@src')[0]

        img_url = img_url if img_url != None else '暂无图片'

        # 有些url需要补全：/d/file/20180907/075025972927c8e7541b09e272afe5cc.jpg

        if str(img_url).find('http') == -1:

            img_url = home_url[0:-1] + img_url

        else:

            pass

        dianz = div.xpath('.//em[1]/text()')

        dianz = dianz if dianz != None else ''

        info_list.append({'name': name, 'school': school, 'img_url': img_url, 'dianzan': dianz})

    return info_list

    # print(info_list)

# 遍历列表并按照URL下载保存到文件

def donwload_jpg_2_file(info_list):

    for info in info_list:

        url = info['img_url']

        r = requests.get(url, headers=headers, stream=True)

        with open('./xiaohua/%s.jpg' % info['name'], 'wb') as file:

            # 分字节下载

            for i in r.iter_content(1024):

                file.write(i)

        print('%s 下载成功' % info['name'])

# 入口函数

if __name__ == '__main__':

    for i in range(50):

        ls = one_page_info(i)

        donwload_jpg_2_file(ls)

爬虫下载校花网美女信息-lxml的更多相关文章

Python 爬虫爬校花网！！
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 1.福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易不会受到打击,第二呢你懂得... 1.第一步,需要下载 ...
Scrapy爬虫实例——校花网
学习爬虫有一段时间了,今天使用Scrapy框架将校花网的图片爬取到本地.Scrapy爬虫框架相对于使用requests库进行网页的爬取,拥有更高的性能. Scrapy官方定义:Scrapy是用于抓取网 ...
二、Item Pipeline和Spider-----基于scrapy取校花网的信息
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item. 每个Item Pipeline ...
爬虫（猫眼电影+校花网+github+今日头条+拉钩）
Requests+正则表达式爬取猫眼TOP100榜电影信息 MARK:将信息写入文件解决乱码方法,开启进程池秒爬. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 ...
Python 爬虫校花网
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易,不会受到打击,第二呢你懂得.... 1.第一步,需要下 ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
Python之爬虫-校花网
Python之爬虫-校花网 #!/usr/bin/env python # -*- coding:utf-8 -*- import re import requests # 拿到校花网主页的内容 re ...
Python-爬取校花网视频(单线程和多线程版本)
一.参考文章 python爬虫爬取校花网视频,单线程爬取爬虫----爬取校花网视频,包含多线程版本上述两篇文章都是对校花网视频的爬取,由于时间相隔很久了,校花网上的一些视频已经不存在了,因此上述文 ...
day1之校花网小试牛刀
一利用生成器来完成爬去校花网视频 import requests import re import os import hashlib import time DOWLOAD_PATH=r'D:\D ...

随机推荐

Restful风格
今天看到一个比较好的文章,记录一下: Restful风格API中用put还是post做新增操作有什么区别? 1 HTTP协议详解 HTTP协议通常承载于TCP协议之上,有时也承载于TLS或SSL协议层 ...
js中循环对比(for循环，foreach，for in，for of ,map)
对空位的处理 for循环(不会忽略空位,标记undefined) var arr =[1,2,undefined,3,null,,7] for (let i=0;i<arr.length;i++ ...
linux的时间问题
在linux系统中时间分为修改时间(modify time 简写:mtime ),访问时间(access time 简写: atime),状态修改时间(change time 简写:ctime)三种: ...
关于 win10 系统中 Anaconda3 中修改 Jupyter Notebook 默认启动目录
目标: 修改Anaconda3中自带的Jupyter Notebook默认启动目录. 步骤: 1.提前创建好你想要启动位置文件夹. 2.寻找配置文件,"jupyter_not ...
著名的3像素Bug（div+img，多出几像素）
<div><img src="...."></div> 给img的css设置display: block;/*用来去除div下边莫名多出来的3p ...
git本地项目上传至码云gitee
如果你的本机是安装成功第一次使用,先配置一下一些基本的信息 $ git config--global user.name "Your Name" $ git config --gl ...
527D.Clique Problem
题解: 水题两种做法: 1.我的我们假设$xi>xj$ 那么拆开绝对值 $$xi-w[i]>x[j]+w[j]$$ 由于$w[i]>0$,所以$x[i]+w[i]>x[j] ...
你好！酷痞 Coolpy
欢迎你进入酷痞的物联网世界.这里有着自由的空气和自然的气息.接下来我将告诉你如果一步步建立一个自己专属的物联网平台. 由于目前的酷痞的官方域名还没有通过备案所以现在用临时域名解说本说明. 最终酷痞的官 ...
Stock Chase 拓扑
题意给出n个公司 m条信息当某条信息构成环了则这条信息是错误的统计有多少个信息是错误的这题是一条一条读入虽然分在拓扑排序类里面但是不会用拓扑排序来做可以用floyd思想来做如果 ...
Classy Numbers
http://codeforces.com/group/w1oiqifZbS/contest/1036/problem/C ①先查找,存入vector(dfs)-->排序(sort)--> ...

爬虫下载校花网美女信息-lxml

爬虫下载校花网美女信息-lxml的更多相关文章

随机推荐

热门专题