python练习册每天一个小程序第0013题

# -*-coding:utf-8-*—

'''

    题目描述：

         用 Python 写一个爬图片的程序，爬 这个链接里的日本妹子图片 :-)

    地址：

        http://tieba.baidu.com/p/2166231880

    思路：

        用正则表达式匹配图片链接，然后进行下载

'''

'''

import re

import requests

def main():

    url = 'http://tieba.baidu.com/p/2166231880'

    response = requests.get(url)

    html = response.text

    match = re.compile('img .*?src=\"(.*?)\"')

    for i in  match.findall(html):

        if 'imgsrc' in i :

            print i

if __name__ == '__main__':

    main()

'''

import urllib2

import re

from os.path import basename

from urlparse import urlsplit

url = "http://tieba.baidu.com/p/2166231880"

def getPage(url):

    url=url+"?see_lz=1"

    urlContent = urllib2.urlopen(url).read()

    page='<span class="red">(.*?)</span>'

    thePage=re.findall(page,urlContent)

    return int(thePage[0])

def downImg(url):

    urlContent = urllib2.urlopen(url).read()

    spans='<cc>(.*?)</cc>'

    ss=re.findall(spans,urlContent)

    obImgs=','.join(ss)

    imgUrls = re.findall('img .*?src="(.*?)"', obImgs)

    for imgUrl in imgUrls:

        print imgUrl

        '''

        try:

            imgData = urllib2.urlopen(imgUrl).read()

            fileName = basename(urlsplit(imgUrl)[2])

            output = open(fileName,'wb')

            output.write(imgData)

            output.close()

        except:

            print "Er.."

        '''

def downLoad(url):

    numb=getPage(url)

    cont=0

    print "There are "+str(numb)+" pages."

    while cont<numb:

        cont+=1

        print "Downloading "+url+"?see_lz=1&pn="+str(cont)+"..."

        downImg(url+"?see_lz=1&pn="+str(cont))

    print 'Completed!'

downImg(url)

python练习册每天一个小程序第0013题的更多相关文章

python练习册每天一个小程序第0001题
1 # -*-coding:utf-8-*- 2 __author__ = 'Deen' 3 ''' 4 题目描述: 5 做为 Apple Store App 独立开发者,你要搞限时促销,为你的应用生 ...
python练习册每天一个小程序第0007题
1 # -*-coding:utf-8-*- 2 __author__ = 'Deen' 3 ''' 4 题目描述: 5 有个目录,里面是你自己写过的程序,统计一下你写过多少行代码.包括空行和注释,但 ...
python练习册每天一个小程序第0000题
PIL库学习链接:http://blog.csdn.net/column/details/pythonpil.html?&page=1 1 #-*-coding:utf-8-*- 2 __au ...
python练习册每天一个小程序第0010题
# -*-coding:utf-8-*- ''' 题目描述: 使用 Python 生成类似于下图中的字母验证码图片思路: 运用PIL库加random 随机字母进行生成 ''' import rand ...
python练习册每天一个小程序第0009题
1 ''' 2 题目描述: 3 找出一个html文件中所有的url 4 5 思路 : 6 利用正则表达式进行匹配 7 8 ''' 9 10 11 import re 12 13 14 with ope ...
python练习册每天一个小程序第0008题
1 # -*-coding:utf-8-*- 2 __author__ = 'Deen' 3 ''' 4 题目描述: 5 一个HTML文件,找出里面的正文. 6 7 思路: 8 利用Beautiful ...
python练习册每天一个小程序第0006题
1 # -*-coding:utf-8-*- 2 __author__ = 'Deen' 3 ''' 4 题目描述: 5 你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都 ...
python练习册每天一个小程序第0005题
1 # -*-coding:utf-8-*- 2 __author__ = 'Deen' 3 ''' 4 题目说明: 你有一个目录,装了很多照片,把它们的尺寸变成都不大于 iPhone5 分辨率的大小 ...
python练习册每天一个小程序第0012题
# -*-coding:utf-8-*- def test(content): text = content flag = 0 with open('filtered_words.txt') as f ...

随机推荐

if循环&数据类型的内置方法（上）
目录 if循环&数据类型的内置方法 for循环 range关键字 for+break for+continue for+else for循环的嵌套使用数据类型的内置方法 if循环&数 ...
Note -「计算几何」模板
尚未完整测试,务必留意模板 bug! /* Clearink */ #include <cmath> #include <queue> #include <cstdi ...
Solution -「LGR-087」「洛谷 P6860」象棋与马
\(\mathcal{Description}\) Link. 在一个 \(\mathbb R^2\) 的 \((0,0)\) 处有一颗棋子,对于参数 \(a,b\),若它当前坐标为 \((x ...
痞子衡嵌入式：介绍i.MXRT定时器PIT的多通道链接模式及其在coremark测试工程里的应用
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是i.MXRT定时器PIT的多通道链接模式及其在coremark测试里的应用. 早在 2018 年 i.MXRT 系列跨界处理器刚推出的时 ...
Vue2.0源码学习(3) - 组件的创建和patch过程
组件化组件化是vue的另一个核心思想,所谓的组件化就,就是说把页面拆分成多个组件(component),每个组件依赖的css.js.图片等资源放在一起开发和维护.组件是资源独立的,在内部系统中是可以 ...
Windows系统散列值获取分析与防范
LM Hash && NTLM Hash Windows操作系统通常使用两种方法对用户的明文进行加密处理,在域环境中,用户信息存储在ntds.dit中,加密后为散列值.Windows操 ...
awvas启动不起来解决方案
当双击桌面的"Acunetix图标",自动打开浏览器跳转页面,结果页面显示"无法访问此网站"按Windows+R键输入services.msc打开服务界面查看A ...
can_has_stdio?
得到一个用±<>这样符号组成的五角星,结合题目stdio,估计是c语言编译后的文件查到BrianFuck语言,找个在线编译器或者找到编译码(c++)得到flag 在线编译网站 brain ...
Deep Upsupervised Cardinality Estimation 解读（2019 VLDB）
Deep Upsupervised Cardinality Estimation 本篇博客是对Deep Upsupervised Cardinality Estimation的解读,原文连接为:htt ...
Linux图形界面和命令界面切换
转至:https://blog.csdn.net/weixin_43683466/article/details/85727723 1.若虚拟机内热键被占用,可通过下图所示修改,移出快捷键ctrl+a ...

python练习册 每天一个小程序 第0013题

python练习册 每天一个小程序 第0013题的更多相关文章

随机推荐

热门专题

python练习册每天一个小程序第0013题

python练习册每天一个小程序第0013题的更多相关文章