python爬xx图代码

今日好热，照样是挖洞挖不到，看了几天的python爬虫，学会了xpath解析

撸一个代码玩玩】

不要说什么，优化之类的，刚学完，跑了一阵，还可以挺稳定

# -*- coding:utf-8 -*-
#Xm17

import os
import urllib
import requests
from lxml import etree
import random

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'
}

url = "http://www.ye1001.com/p06/list_{}.html"
base_url = "http://www.ye1001.com/"
def auto_down(url, filename):
    try:
        urllib.urlretrieve(url,filename)
    except urllib.ContentTooShortError:
        print 'Network conditions is not good.Reloading.'
        auto_down(url,filename)

for i in range(1,40):
    response = requests.get(url.format(i),headers=headers)
    html = etree.HTML(response.text)
    page = html.xpath("//div[@class='content bord mtop']//a/@href")

    for x in page:
        page_url = base_url + x
        if page_url.endswith("html"):
            title = str(page_url[-11:-5])
            responses = requests.get(page_url,headers=headers)
            htmls = etree.HTML(responses.text)
            pages = htmls.xpath("//div[@class='mtop']//img/@src")
            os.mkdir(title)
            for i in pages:
                print i
                ddd = random.randint(1, 100)
                auto_down(i,title+"/%s"%title+"_"+str(ddd)+".jpg" )

今日就到这里，洗澡去了

python爬xx图代码的更多相关文章

深夜，我用python爬取了整个斗图网站，不服来斗
QQ.微信斗图总是斗不过,索性直接来爬斗图网,我有整个网站的图,不服来斗. 废话不多说,选取的网站为斗图啦,我们先简单来看一下网站的结构网页信息从上面这张图我们可以看出,一页有多套图,这个时候我们 ...
python爬取股票最新数据并用excel绘制树状图
大家好,最近大A的白马股们简直跌妈不认,作为重仓了抱团白马股基金的养鸡少年,每日那是一个以泪洗面啊. 不过从金融界最近一个交易日的大盘云图来看,其实很多中小股还是红色滴,绿的都是白马股们. 以下截图 ...
python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...
Python爬取地图瓦片
由于要在内网开发地图项目,不能访问在线的地图服务了,就想把地图瓦片下载下来,网上找了一些下载器都是需要注册及收费的,否则下载到的图都是打水印的,如下: 因为地图瓦片就是按照层级.行.列规则组织的一张张 ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
python 爬取知乎图片
先上完整代码 import requests import time import datetime import os import json import uuid from pyquery im ...
用Python爬E站本
用Python爬E站本一.前言参考并改进自 OverJerry 大佬的教你怎么用Python爬取E站的本子_OverJerry. 本文为技术学习记录,不提供访问无存在网站的任何方法,也不包含不和 ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...

随机推荐

Struts学习-Hibernate2
一. 1.配置  <dependency> <groupId>org.hibernate</groupId> ...
pc端配置详细 2017级机械设计新生史浩然
品牌名称:SAMSUNG/三星证书状态:有效申请人名称:苏州三星电子电脑有限公司型号:940X3K-K01 操作系统:window8.1 产品名 ...
crt文件上传下载
为了方便修改文件,下载与修改服务器文件,便利很多啊! 主要命令: sz filename #下载 rz 参数 #上传弹窗选择文件如果没有安装请装工具: yum install lrzsz man ...
jclass和jobject的迷惑
[译]jclass和jobject 2012-09-18 15:02:58| 分类: Android |字号订阅 jclass和jobject的迷惑第一次使用JNI,实例引用(jobject) ...
azkaban部署
azkaban安装安装包下载地址:http://azkaban.github.io/downloads.html 1.上传安装包到指定机器上 scp azkaban-executor-server- ...
FireFox浏览器Flash&视频下载工具推荐
介绍两款扩展组件:Flash and Video Download & Flash Video Downloader 一起使用,各有优缺点. Flash and Video Download ...
使用websploit在局域网全自动渗透
原理为 websploit调用dnsdpoof进行dns欺骗配合神器metasploit的web_autopwn模块进行渗透:特点:过程基本全自动. 终端输入websploit打开websploit: ...
【Hankson 的趣味题】
可能我只适合这道题的50分但还是要争取一下的我们知道对于\(gcd\)和\(lcm\)有这样的定义 \(a=\prod _{i=1}^{\pi(a)}p_i^{d_{i}}\) \(b=\prod ...
Synchronized介绍
来源 https://www.imooc.com/learn/1086 作用同步方法支持一种简单的策略来防止线程干扰和内存一致性错误,如果一个对象对多个线程可见,则对该对象变量的所有读取或写入都 ...
Vue.js-简单的增删查功能
1.Vue.js是什么? Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式框架.与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用.Vue 的核心库只关注视图 ...

python爬xx图代码

python爬xx图代码的更多相关文章

随机推荐

热门专题