python爬图

闲的无事，看着知乎里种种python优点，按捺不住，装起python3.4。

网上找了点爬行图片的代码，修改至兼容3.4，成功爬行指定url所有jpg图片，代码段如下：

import os

import urllib

import urllib.request

import re

#爬行图片

download_path = os.path.dirname(os.path.abspath(__file__))

class spider(object):

    def __init__(self, url):

        self.url = url

    def parse(self,content):

        pattern = 'src="(http://.*\.jpg)\s*"'

        matchs = re.findall(pattern,content,re.M)

        return matchs

    def downloads(self,urls):

        d_path = download_path + "/test"

        if not os.path.exists(d_path):

            os.mkdir(d_path)

        for url in urls:

            filename = url.split("/")[-1]

            print (url)

            print ("Downloads %s" % (filename))

            output = "%s/%s" % (d_path, filename)

            urllib.request.urlretrieve(url,output)

    def run(self):

        d_url = self.url

        fd = urllib.request.urlopen(d_url)

        try:

            content = fd.read()

            content = content.decode("UTF-8")

            urls = self.parse(content)

            self.downloads(urls)

        finally:

            fd.close()

if __name__ == "__main__":

    sp = spider("http://news.cnfol.com/img/20150814/17638.shtml")

    sp.run()

python爬图的更多相关文章

python 爬图 helloworld
最近发现吾志上用户的头像都很个性,另外,对于没有把日记设为私密的用户,最后一天的日记是公开的,谁都可以查看. 所以,如果每天把所有可查看的日记爬一遍,那么-- 哈哈以前对爬虫只是了解一点点,没有 ...
python 爬图
利用bs库进行爬取,在下载html时,使用代理user_agent来下载,并且下载次数是2次,当第一次下载失败后,并且http状态码是500-600之间,然后会重新下载一次 soup = Beauti ...
Python多线程爬图&Scrapy框架爬图
一.背景对于日常Python爬虫由于效率问题,本次测试使用多线程和Scrapy框架来实现抓取斗图啦表情.由于IO操作不使用CPU,对于IO密集(磁盘IO/网络IO/人机交互IO)型适合用多线程,对于 ...
python爬取股票最新数据并用excel绘制树状图
大家好,最近大A的白马股们简直跌妈不认,作为重仓了抱团白马股基金的养鸡少年,每日那是一个以泪洗面啊. 不过从金融界最近一个交易日的大盘云图来看,其实很多中小股还是红色滴,绿的都是白马股们. 以下截图 ...
python学习之BeautifulSoup模块爬图
BeautifulSoup模块爬图学习HTML文本解析标签定位网上教程多是爬mzitu,此网站反爬限制多了.随意找了个网址,解析速度有些慢.脚本流程:首页获取总页数-->拼接每页URL--> ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
用Python爬E站本
用Python爬E站本一.前言参考并改进自 OverJerry 大佬的教你怎么用Python爬取E站的本子_OverJerry. 本文为技术学习记录,不提供访问无存在网站的任何方法,也不包含不和 ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...

随机推荐

解决图片元素下多余空白的BUG
1.将图片转换为块级对象即,设置img为“display:block;”.在本例中添加一组CSS代码:“#sub img {display:block;}”. 2.设置图片的垂直对齐方式 ...
winform 窗口点击窗体任意位置移动窗体
private bool _isDown; private Point _mousePoint; private void Users_MouseDown(object sender, MouseEv ...
mysqlbackup
mysqlbackup 使用学习 1.设置数据库用户的相关权限 '; grant reload,replication client,super,process on *.* to backupuse ...
ubuntu 中c 语言编程（学习）
ubuntu下c编程 c编程中相关文件后缀 .a 静态库(archive .c C源代码(需要编译预处理) .h C源代码头文件 .i C源代码 (不需要编译预处理) ...
wordpress教程之get_posts()
get_posts 介绍 June 3rd 2012 评论(16) get_posts 函数,简单的来讲是 get_post 的复数新形势,但因为是文章多篇提取,所以使用方法上却略有不同,支持众多参数 ...
十、装饰（Decorator）模式 --结构模式(Structural Pattern)
装饰(Decorator)模式又名包装(Wrapper)模式[GOF95].装饰模式以对客户端透明的方式扩展对象的功能,是继承关系的一个替代方案. 装饰模式类图: 类图说明: 抽象构件(Compon ...
DOS命令行定时关机&取消定时关机
命令行关机命令----shutdown Windows XP的关机是由Shutdown.exe程序来控制的,位于Windows\System32文件夹中. 如果你输入"shutd ...
python list列表方法总结
深入链表(most on lists) The list data type has some more methods. Here are all of the methods of list ob ...
那些年的那些事CISC和RISC发展中的纠缠
本文来自http://www.cnbeta.com/articles/224544.htm ARM.ARM.ARM,没错ARM仿佛一夜之间就火了,平板.手机等领域随处可见它的影子,甚至已经有人预言未来 ...
剑指offer-面试题20.顺时针打印矩阵
题目:输入一个矩阵,按照从外向里以顺时针的顺序依次打印出每一个数字.例如: 输入一个矩阵如下: 则依次打印出数字:1,2,3,4,8,12,16,15,14,13,9,5,6,7,11,10 这道题的 ...

python爬图

python爬图的更多相关文章

随机推荐

热门专题